¿Qué es la tolerancia a fallos de VMware y cómo se utiliza?

Las máquinas virtuales requieren una alta disponibilidad. VMware Fault Tolerance ofrece tiempo de actividad ininterrumpido mediante la ejecución de una máquina virtual secundaria sincronizada. Este artículo explica los conceptos básicos, la configuración, las pruebas, la supervisión y compara Fault Tolerance con High Availability para ayudarle a determinar si Fault Tolerance se adapta a sus necesidades.

download-icon
Descarga gratuita
para VM, SO, BD, archivos, NAS, etc.
lucia

Updated by Lucia on 2026/02/10

Tabla de contenidos
  • ¿Qué es VMware Fault Tolerance?

  • ¿Cómo funciona la tolerancia a fallos de VMware?

  • ¿Cómo configurar y utilizar la tolerancia a fallos en VMware?

  • Falta de tolerancia de VMware frente a alta disponibilidad

  • Copia de seguridad de máquinas virtuales VMware con Vinchin

  • Preguntas frecuentes sobre la tolerancia a fallos de VMware

  • Conclusión

La función VMware Fault Tolerance (FT) garantiza la disponibilidad continua de las máquinas virtuales manteniendo una instancia secundaria activa. Protege contra fallos del host sin tiempo de inactividad. Esta característica utiliza grabación y reproducción sincrónicas para reflejar la ejecución de la máquina virtual. Requiere una configuración cuidadosa de la CPU, la red y el almacenamiento. Esta guía avanza desde los conceptos básicos hasta los detalles más profundos, abarcando los requisitos previos, su funcionamiento, su configuración, pruebas, supervisión y sus ventajas y limitaciones comparadas con la Alta Disponibilidad (HA).

¿Qué es VMware Fault Tolerance?

VMware Fault Tolerance garantiza una indisponibilidad nula al ejecutar una máquina virtual secundaria sincronizada exactamente con la primaria. Captura los eventos no deterministas en la máquina virtual principal y los aplica a la secundaria antes de su ejecución. La máquina virtual secundaria permanece pasiva respecto a las operaciones de entrada/salida externas, pero activa en la reproducción. Si el host principal falla, la secundaria asume inmediatamente el control. Fault Tolerance utiliza la tecnología vLockstep para replicar, a nivel de instrucción, los estados de la CPU y de la memoria. Esto garantiza una pérdida de datos nula y un servicio ininterrumpido.

¿Cómo funciona la tolerancia a fallos de VMware?

La tolerancia a fallos (FT) se basa en la replicación sincrónica del estado a nivel de instrucción. Registra los registros de la CPU, las actualizaciones de memoria y las entradas no deterministas, como interrupciones y paquetes de red, en la máquina principal. Estos registros se transmiten mediante una red dedicada de registro FT a la máquina secundaria. La secundaria reproduce las instrucciones paso a paso, pero bloquea cualquier entrada/salida externa hasta que se produzca la conmutación por error. Únicamente la máquina principal emite escrituras en almacenamiento o envíos de red. Esto evita el «split-brain» al garantizar una única fuente activa de entrada/salida. FT utiliza bloqueos atómicos (por ejemplo, reservas persistentes SCSI-3) en el almacenamiento compartido para coordinar la conmutación por error, de modo que, tras un fallo, solo una copia se ejecute como principal.

FT utiliza un adaptador de registro VMkernel FT. La máquina principal captura eventos y los envía a la secundaria antes de la ejecución de las instrucciones. La máquina secundaria los reproduce en el mismo orden. Las operaciones de E/S de red y almacenamiento se completan en la máquina principal; la secundaria espera. Si falla el host principal (pérdida de alimentación, PSOD, aislamiento de la red de gestión más allá del tiempo de espera o bloqueo del proceso vmx), el latido se detiene. La máquina secundaria asume inmediatamente el rol principal utilizando su estado reproducido. Automáticamente se inicia una nueva máquina secundaria en otro host. FT evita brechas de datos mediante bloqueos atómicos de almacenamiento y sincronización síncrona del estado.

⚫ Eventos sincronizados y no deterministas

vLockstep captura eventos que pueden cambiar las rutas de ejecución: interrupciones, finalización de operaciones de entrada/salida (E/S) e instrucciones basadas en el tiempo (por ejemplo, RDTSC). Registra estos eventos en el sistema principal y los envía mediante el registro FT. Luego los inyecta en la ejecución del sistema secundario antes de ejecutar dichas instrucciones. Esto garantiza que ambas máquinas virtuales reciban entradas idénticas. Registrar únicamente las entradas no deterministas mantiene los datos de registro reducidos en comparación con volcados completos del estado. El sistema secundario reproduce de forma sincronizada el estado de la CPU y de la memoria, pero espera las operaciones de E/S externas hasta asumir el control.

⚫ Replicación sincrónica del estado

La tecnología FT replica los registros de la CPU y el estado de la memoria con granularidad por instrucción. Esto no es una replicación a nivel de bloque. Garantiza que el estado interno de la réplica secundaria coincida exactamente con el de la primaria en cada punto de ejecución de una instrucción. La red de registro FT debe entregar los registros con una latencia mínima. Cualquier retraso puede provocar una paralización de las máquinas virtuales si los búferes se llenan. Por tanto, es fundamental disponer de un ancho de banda dedicado y rutas de baja latencia. El tráfico de registro FT puede alcanzar cientos de Mbps en máquinas virtuales intensivas en uso de CPU.

⚫ Gestión de E/S y prevención de la división cerebral

Solo la máquina virtual principal realiza operaciones de E/S externas: escrituras en disco y envío de paquetes de red. La máquina virtual secundaria permanece pasiva respecto a las operaciones de E/S hasta que se produzca una conmutación por error (failover). Esto evita tener dos fuentes activas de E/S. El almacenamiento compartido utiliza bloqueo atómico de archivos, normalmente mediante Reservas Persistentes SCSI-3, para impedir que ambas máquinas virtuales accedan a los discos como primarias tras un fallo. Cuando se produce la conmutación por error, la máquina virtual secundaria adquiere la reserva y continúa su funcionamiento. Si la máquina virtual principal original vuelve a estar disponible, inicia una nueva máquina virtual secundaria en lugar de reanudar su papel como principal.

⚫Desencadenantes de conmutación por error

La conmutación por error de FT se activa cuando el host principal deja de estar accesible o falla. Las condiciones incluyen la pérdida de alimentación del host, un PSOD, un fallo del proceso vmx (por ejemplo, terminado mediante esxcli) o el aislamiento de la red de gestión durante un tiempo superior al tiempo de espera de HA. FT supervisa la señal de vida mediante el canal de registro de FT. Cuando la señal de vida se interrumpe, el host secundario asume inmediatamente el rol de principal. vCenter registra el evento. Un nuevo host secundario se coloca automáticamente en un host compatible.

¿Cómo configurar y utilizar la tolerancia a fallos en VMware?

Esta sección explica los requisitos previos, la activación de la tolerancia a fallos (FT), las pruebas de conmutación por error y el mantenimiento. Se supone que el lector conoce conceptos de vSphere como EVC, DRS y HA.

Requisitos previos y configuración

Cumpla con la compatibilidad de CPU habilitando EVC antes de FT. Asegúrese de que los hosts compartan una línea base de EVC que cubra las instrucciones de CPU utilizadas por las máquinas virtuales. Si necesita elevar posteriormente el nivel de EVC, desactive primero FT en las máquinas virtuales afectadas. Utilice CPUs que admitan virtualización por hardware (Intel EPT o AMD RVI), como Intel Sandy Bridge o posteriores y AMD Bulldozer o posteriores.

Configure la red con baja latencia. Utilice una red dedicada para el registro de FT, preferiblemente de 10 GbE o superior. VMware recomienda un tiempo de ida y vuelta (RTT) inferior a 10 ms, idealmente por debajo de 1 ms, para evitar retrasos en la reproducción y interrupciones. Use adaptadores de red físicos independientes o VLANs para aislar el tráfico de FT. Active los marcos gigantes (MTU 9000) de extremo a extremo si el hardware lo admite. Asigne ancho de banda exclusivo para evitar la saturación del canal de registro.

Asegúrese de que el almacenamiento compartido cumpla con los requisitos de latencia. La latencia sostenida de E/S de almacenamiento debe mantenerse por debajo de aproximadamente 15 ms para que la sincronización FT pueda seguir el ritmo. Utilice Fibre Channel, iSCSI o vSAN con un rendimiento constante. Evite picos que puedan retrasar la confirmación de E/S en el sistema principal. Una baja latencia de almacenamiento reduce el riesgo de divergencia. Supervise las métricas de latencia del almacén de datos para detectar problemas.

Configure la red de vMotion de forma independiente. La red de vMotion gestiona la ubicación inicial de la máquina virtual secundaria y las migraciones durante el mantenimiento. Asegúrese de que las rutas de vMotion cuenten con un ancho de banda suficiente y baja latencia. El registro FT no sustituye al tráfico de vMotion; ambos requieren redes fiables. Utilice DRS para ubicar la máquina virtual secundaria en un host adecuado. Los grupos de recursos no deben privar de recursos a las máquinas virtuales FT. Evite límites o reservas competidoras que puedan ralentizar la reproducción o el registro. Reserve CPU y memoria en los hosts para las cargas de trabajo FT.

Configure los adaptadores VMkernel: uno para la administración, otro para vMotion y uno dedicado al registro de FT. Asigne el adaptador VMkernel para el registro de FT a una NIC física con la menor contención posible. Verifique que las rutas de red entre los hosts utilicen el menor número posible de saltos. Configure los ajustes de HA para manejar cuidadosamente las particiones de red; evite aislar los hosts que ejecutan máquinas virtuales con FT.

1. Habilitación de la tolerancia a fallos en una máquina virtual

Antes de habilitar la tolerancia a fallos (FT), confirme que tanto el host principal como el posible host secundario disponen de recursos suficientes. Compruebe la CPU, la memoria RAM y el ancho de banda de red. En el cliente vSphere, haga clic con el botón derecho en la máquina virtual y seleccione Turn On Fault Tolerance. El sistema crea una plantilla de máquina virtual secundaria que coincide con la configuración de CPU, memoria y disco. Comienza el registro FT entre ambas máquinas virtuales. Observe el indicador de estado: debe mostrar Protected. Si no es así, compruebe la red, la función EVC o las limitaciones de recursos. La FT puede deshabilitar DRS para esa máquina virtual; planifique en consecuencia.

Asegúrese de que la versión del sistema operativo invitado y la versión del hardware virtual sean compatibles. Elimine los dispositivos no compatibles: evite las instantáneas, no utilice SCSI/Red paravirtualizados, no utilice NPIV ni el paso directo de RDMA. Consulte la Guía de compatibilidad de VMware. Confirme que la licencia admite la tecnología FT (Fault Tolerance) para la cantidad deseada de vCPU. Límites comunes: vSphere 8 Enterprise Plus puede permitir hasta 2 vCPU; consulte la documentación actual para conocer los valores exactos.

2. Prueba de tolerancia a fallos

Realice pruebas de tolerancia a fallos para ganar confianza. Utilice métodos seguros que vayan más allá de simplemente apagar el host. Por ejemplo: finalice el proceso vmx en el host principal mediante esxcli system process kill -t force -p <vmx-pid>; simule una partición de red para aislar el host; o finalice un proceso crítico dentro de la máquina virtual para probar la continuidad de la aplicación. Observe que la réplica secundaria sigue funcionando sin interrupción del servicio.

Verifique la conmutación por error mediante PowerCLI: ejecute Get-VM | Select Name, FaultToleranceState. Busque cambios de estado que indiquen la asunción del control. Revise los eventos de vCenter para detectar entradas relacionadas con la conmutación por error de tolerancia a fallos (FT). Utilice el registro de eventos en las aplicaciones para confirmar la persistencia de las sesiones y la continuidad del servicio. Tras la conmutación por error, verifique que vSphere inicie una nueva instancia secundaria: compruebe que se devuelva el estado Protected. Solo cuando una nueva instancia secundaria complete la sincronización podrá considerarse finalizada la prueba.

Compruebe las conexiones de red: asegúrese de que las sesiones TCP permanezcan intactas, si es posible. Algunas aplicaciones pueden requerir conmutación por error consciente de la sesión. Revise las comprobaciones específicas de estado de la aplicación. Documente los resultados de las pruebas. Utilice ventanas programadas de mantenimiento si realiza las pruebas en producción.

3. Supervisión y mantenimiento

Supervise continuamente el estado de salud de la función de tolerancia a fallos (FT). Compruebe el volumen de tráfico de registro de FT (MBps), la latencia y las caídas de paquetes en los puertos VMkernel de FT. Utilice las gráficas de rendimiento de vSphere o PowerCLI (Get-VM | Get-FaultToleranceVM) para ver los estados de latido (heartbeat) y sincronización (catchup). Preste atención a bloqueos repetidos (stuns) o desbordamientos de búfer, que indican problemas de red.

Establezca alarmas para eventos relacionados con FT. Reciba alertas en caso de desactivación de FT o disparos repetidos de conmutación por error. Revise los cambios de compatibilidad del host: al agregar hosts o actualizar el firmware, asegúrese de que cumplan con los requisitos de EVC y hardware de FT.

Al aplicar parches a los hosts, siga este procedimiento: coloque el host protegido por FT en modo de mantenimiento. DRS migra las demás máquinas virtuales. La réplica secundaria FT se migra mediante vMotion a otro host compatible antes de entrar en modo de mantenimiento. Aplique el parche y reinicie el host. Salga del modo de mantenimiento. vSphere puede migrar automáticamente la réplica secundaria de regreso o crear una nueva réplica secundaria. Esto depende de que DRS y HA estén habilitados. Confirme que se reanuda la sincronización.

Mantenga niveles coherentes de firmware y controladores en todos los hosts. Alinee las versiones del microcódigo de la CPU para evitar desviaciones en EVC. Mantenga uniformes las rutas de multipath de almacenamiento y las rutas de red. Pruebe los cambios en un entorno de laboratorio siempre que sea posible. Documente todas las configuraciones de FT.

Falta de tolerancia de VMware frente a alta disponibilidad

La tolerancia a fallos (FT) y la alta disponibilidad (HA) tienen como objetivo común reducir el tiempo de inactividad, pero difieren en cuanto al tiempo de recuperación operativa (RTO), la sobrecarga y la complejidad. Ambas garantizan un RPO=0 para el estado de las máquinas virtuales en el momento de una incidencia: la FT replica continuamente el estado, mientras que la HA puede reiniciar rápidamente las máquinas virtuales, aunque puede perder el estado almacenado en memoria; no obstante, podría producirse cierta pérdida de datos si no se ha escrito en disco al momento del fallo. La diferencia clave radica en el RTO: la FT ofrece un RTO casi nulo (milisegundos), ya que la instancia secundaria asume inmediatamente el control; en cambio, la HA requiere reiniciar la máquina virtual, lo que provoca minutos de inactividad.

FT implica mayores sobrecargas: ejecuta una máquina virtual secundaria en modo de reproducción, consumiendo ciclos de CPU equivalentes a los de la máquina virtual principal. De hecho, duplica las reservas de CPU. El tráfico de registro de FT puede alcanzar cientos de Mbps en máquinas virtuales intensivas en CPU y memoria. La latencia de red debe mantenerse baja. Las operaciones de E/S de almacenamiento se ejecutan únicamente en la máquina virtual principal, pero el registro añade sobrecarga. Por tanto, FT es ideal para máquinas virtuales pequeñas (1-2 vCPU) o para cargas de trabajo extremadamente críticas. HA utiliza menos recursos: reinicia las máquinas virtuales en otro host, provocando un breve reinicio. Utilice HA para máquinas virtuales más grandes o menos críticas, cuando un tiempo de inactividad de varios minutos sea aceptable.

Considere la complejidad: la tecnología FT exige requisitos estrictos y una supervisión cuidadosa. La alta disponibilidad (HA) requiere almacenamiento compartido y la configuración de un clúster HA, pero es más sencilla. Planifique la implementación de FT únicamente cuando el tiempo de inactividad cero sea obligatorio y el costo en recursos esté justificado. Pregúntese: ¿puede su aplicación tolerar un reinicio breve? Si la respuesta es sí, la HA podría ser suficiente. Si la respuesta es no, el uso de FT podría justificar su mayor costo.

Copia de seguridad de máquinas virtuales VMware con Vinchin

La tolerancia a fallos protege contra fallos del host. Sin embargo, las copias de seguridad protegen los datos contra corrupción, errores humanos o desastres en el sitio. Vinchin ofrece copias de seguridad empresariales de máquinas virtuales adaptadas específicamente para entornos VMware. Se integra sin problemas con vSphere y garantiza que sus máquinas virtuales sigan siendo recuperables más allá de la protección proporcionada por la tolerancia a fallos.

Vinchin Backup & Recovery es una solución profesional de copia de seguridad para máquinas virtuales, orientada a entornos empresariales, que admite VMware y más de 15 plataformas adicionales, como Hyper-V, Proxmox, oVirt, OLVM, RHV, XCP-ng, XenServer y OpenStack, ZStack, entre otras. Ofrece un amplio conjunto de funciones.

Vinchin ofrece copias de seguridad incrementales perpetuas para ahorrar tiempo y espacio de almacenamiento. Aplica deduplicación de datos y compresión para reducir el tamaño de las copias de seguridad. La migración V2V facilita el traslado de máquinas virtuales entre hosts o plataformas. Admite la tecnología CBT para capturar únicamente los bloques modificados. Ofrece recuperación instantánea para restaurar rápidamente las máquinas virtuales. Además, incluye cifrado de datos, transmisión multihilo, verificación de copias de seguridad, restauración granular, archivado en la nube o en cinta, políticas de limitación de ancho de banda y retención GFS. Estas son solo algunas de las numerosas funciones que Vinchin ofrece.

La consola web es intuitiva. Para hacer una copia de seguridad de una máquina virtual, siga estos cuatro pasos:

1. Seleccione la máquina virtual de VMware que desea respaldar.

Seleccione la máquina virtual VMware que desea respaldar

2. Elija el almacenamiento de copia de seguridad.

Seleccionar almacenamiento de copia de seguridad

3. Configure estrategias de copia de seguridad.

Configurar estrategias de copia de seguridad

4. Enviar el trabajo.

Enviar el trabajo

Este sencillo flujo ayuda a los administradores a proteger eficazmente sus cargas de trabajo de VMware. La base global de clientes de Vinchin y sus altas calificaciones reflejan la confianza en su rendimiento. Disfrute de una prueba gratuita de 60 días con todas las funciones para probar todas las características en su entorno. Descargue el instalador e implemente fácilmente hoy mismo para proteger sus máquinas virtuales.

Preguntas frecuentes sobre la tolerancia a fallos de VMware

P1: ¿Cuáles son las limitaciones de la tolerancia a fallos de VMware? 

A1: Los vCPU por VM con FT dependen de la versión y la licencia de vSphere; por ejemplo, vSphere 7 puede permitir hasta 8 vCPU, mientras que vSphere 8 suele limitar a 2 vCPU en la edición Enterprise Plus; el FT no permite instantáneas (snapshots), Storage vMotion, dispositivos paravirtualizados, NPIV ni la transmisión directa de RDMA.

P2: ¿Cómo añado la red de registro de FT?

A2: En el cliente vSphere, seleccione host > Configurar > Redes > Adaptadores VMkernel, haga clic en Add Networking, elija Fault Tolerance Logging, asigne un puerto, asócielo con una NIC física dedicada (10 GbE o superior) y active los marcos gigantes si la ruta admite un MTU de 9000.

P3: ¿Cómo gestionar el mantenimiento sin interrumpir la FT?

A3: Utilice DRS: migre las máquinas virtuales sin FT, permita que la réplica secundaria de FT realice una migración en vivo (vMotion) a otro host, actualice el host, salga del modo de mantenimiento y verifique la sincronización de la nueva réplica secundaria; asegúrese de que DRS y HA estén habilitados para la automatización.

P4: ¿Cómo afecta FT al rendimiento de la VM?

A4: FT añade sobrecarga por el registro del tráfico y la reproducción secundaria; se espera una penalización del 5–20 % en el sistema primario, dependiendo de la carga de trabajo y la latencia; realice pruebas bajo carga para verificar el impacto antes de la implementación en producción.

Conclusión

La tolerancia a fallos de VMware ofrece una protección sin tiempo de inactividad mediante la ejecución de una máquina virtual secundaria pasiva sincronizada paso a paso con la máquina virtual principal. Requiere una configuración precisa: compatibilidad de CPU mediante EVC, redes dedicadas de baja latencia y baja latencia de almacenamiento. Las pruebas y el monitoreo garantizan la fiabilidad, mientras que la elección entre tolerancia a fallos (FT) y alta disponibilidad (HA) depende de los requisitos de tiempo de recuperación (RTO) y del costo de los recursos.

Combinar la tecnología FT con las copias de seguridad de Vinchin cubre tanto los fallos del host como los riesgos a nivel de datos. Las funciones avanzadas de Vinchin, como las copias de seguridad incrementales perpetuas y la desduplicación, aumentan la resistencia del sistema. Realice pruebas regulares de FT, programe copias de seguridad y revise las métricas para mantener un entorno VMware robusto. Confíe en Vinchin para una protección integral de sus máquinas virtuales.

Compartir en:

Categories: VM Tips