-
O que é a Tolerância a Falhas da VMware?
-
Como o VMware Fault Tolerance funciona?
-
Como configurar e usar a tolerância a falhas no VMware?
-
Falta de Tolerância da VMware versus Alta Disponibilidade
-
Faça backup de VMs VMware com o Vinchin
-
Perguntas Frequentes sobre a Tolerância a Falhas da VMware
-
Conclusão
O VMware Fault Tolerance (FT) garante alta disponibilidade contínua para máquinas virtuais, mantendo uma instância secundária em execução ativa. Ele protege contra falhas de host sem causar tempo de inatividade. Esse recurso utiliza gravação/reprodução síncrona para espelhar a execução da máquina virtual. Requer uma configuração cuidadosa dos recursos de CPU, rede e armazenamento. Este guia parte dos conceitos básicos até os detalhes mais avançados, abordando pré-requisitos, funcionamento, configuração, testes, monitoramento e comparação com o High Availability (HA), incluindo vantagens e limitações.
O que é a Tolerância a Falhas da VMware?
A Tolerância a Falhas da VMware garante tempo de inatividade zero ao executar uma máquina virtual secundária sincronizada passo a passo com a máquina virtual principal. Ela captura eventos não determinísticos na máquina virtual principal e os aplica à máquina virtual secundária antes da sua execução. A máquina virtual secundária permanece passiva em relação às entradas e saídas externas, mas ativa na reprodução. Caso o host principal falhe, a máquina virtual secundária assume imediatamente o controle. A FT utiliza a tecnologia vLockstep para replicação, nível de instrução, dos estados da CPU e da memória. Isso assegura zero perda de dados e serviço ininterrupto.
Como o VMware Fault Tolerance funciona?
O FT baseia-se na replicação síncrona de estado ao nível de instrução. Ele registra os registradores da CPU, atualizações de memória e entradas não determinísticas, como interrupções e pacotes de rede, no servidor primário. Esses registros são transmitidos por uma rede dedicada de registro FT para o servidor secundário. O servidor secundário executa as instruções em sincronia estrita, mas bloqueia qualquer E/S externa até a falha de transferência. Apenas o servidor primário emite gravações em armazenamento ou envios de rede. Isso evita o problema de “cérebro dividido”, garantindo uma única fonte ativa de E/S. O FT utiliza bloqueios atômicos (por exemplo, Reservas Persistentes SCSI-3) em armazenamento compartilhado para coordenar a falha de transferência, de modo que apenas uma cópia seja executada como primária após uma falha.
O FT utiliza um adaptador de registro VMkernel FT. A máquina primária captura eventos e os envia à secundária antes da execução das instruções. A máquina secundária reproduz esses eventos na mesma ordem. As operações de entrada/saída de rede e armazenamento são concluídas na máquina primária; a secundária aguarda. Caso o host primário falhe (perda de energia, PSOD, isolamento da rede de gerenciamento além do tempo limite ou falha do processo vmx), o sinal de pulsação (heartbeat) é interrompido. A máquina secundária assume imediatamente o papel de primária utilizando seu estado reproduzido. Uma nova máquina secundária é criada automaticamente em outro host. O FT evita lacunas de dados por meio de bloqueios atômicos de armazenamento e sincronização síncrona de estado.
⚫vLockstep e Eventos Não Determinísticos
O vLockstep captura eventos que podem alterar os caminhos de execução: interrupções, conclusão de E/S e instruções baseadas em tempo (por exemplo, RDTSC). Registra esses eventos no sistema primário e os envia por meio do registro FT. Em seguida, injeta-os na execução do sistema secundário antes de executar essas instruções. Isso garante que ambas as máquinas virtuais recebam entradas idênticas. O registro apenas das entradas não determinísticas mantém os dados de registro pequenos em comparação com despejos completos de estado. O sistema secundário reproduz o estado da CPU e da memória de forma sincronizada, mas aguarda operações externas de E/S até a substituição.
⚫ Replicação Síncrona de Estado
O FT replica os registradores da CPU e o estado da memória com granularidade por instrução. Trata-se de uma replicação em nível de instrução, não em nível de bloco. Isso garante que o estado interno da máquina secundária corresponda exatamente ao da máquina primária em cada ponto de instrução. A rede de registro do FT deve entregar os registros com latência mínima. Qualquer atraso pode paralisar as máquinas virtuais caso os buffers fiquem cheios. Por isso, é fundamental dispor de largura de banda dedicada e caminhos de baixa latência. O tráfego de registro do FT pode atingir centenas de Mbps em máquinas virtuais intensivas em uso da CPU.
⚫ Gerenciamento de E/S e Prevenção de Cérebro Dividido
Apenas a VM primária executa E/S externa: gravações em disco e envio de pacotes de rede. A secundária permanece passiva em relação à E/S até a ativação da redundância. Isso evita a existência de duas fontes ativas de E/S. O armazenamento compartilhado utiliza bloqueio atômico de arquivos, frequentemente por meio de Reservas Persistentes SCSI-3, para impedir que ambas as VMs acessem os discos como primárias após uma falha. Quando ocorre a ativação da redundância, a VM secundária assume a reserva e prossegue com as operações. A VM primária original, caso retorne, inicia uma nova VM secundária em vez de retomar sua função como primária.
⚫Acionadores de Failover
A redundância de FT é acionada quando o host principal se torna inacessível ou falha. As condições incluem perda de energia do host, PSOD, falha do processo vmx (por exemplo, encerrado via esxcli) ou isolamento da rede de gerenciamento por um período superior ao tempo limite de HA. O FT monitora o sinal de vida pelo canal de registro de FT. Quando o sinal de vida cessa, o host secundário assume imediatamente a função de principal. O vCenter registra o evento. Um novo host secundário é implantado automaticamente em um host compatível.
Como configurar e usar a tolerância a falhas no VMware?
Esta seção orienta sobre os pré-requisitos, ativação da FT, testes de failover e manutenção. Pressupõe familiaridade com conceitos do vSphere, como EVC, DRS e HA.
Pré-requisitos e Configuração
Garanta a compatibilidade da CPU ativando o EVC antes do FT. Certifique-se de que os hosts compartilhem uma linha de base de EVC que abranja as instruções de CPU utilizadas pelas máquinas virtuais. Se for necessário elevar o nível de EVC posteriormente, desative primeiro o FT nas máquinas virtuais afetadas. Utilize CPUs que suportem virtualização por hardware (Intel EPT ou AMD RVI), como as Intel Sandy Bridge ou posteriores e AMD Bulldozer ou posteriores.
Configure a rede com baixa latência. Utilize uma rede dedicada de registro FT, idealmente 10 GbE ou superior. A VMware recomenda um RTT inferior a 10 ms, preferencialmente abaixo de 1 ms, para evitar atrasos na reprodução e interrupções. Utilize NICs físicas separadas ou VLANs para isolar o tráfego FT. Ative quadros jumbo (MTU 9000) de ponta a ponta, se suportado. Reserve largura de banda para evitar a saturação do canal de registro.
Certifique-se de que o armazenamento compartilhado atenda às necessidades de latência. A latência contínua de E/S de armazenamento deve permanecer abaixo de aproximadamente 15 ms para que a sincronização FT acompanhe o ritmo. Utilize Fibre Channel, iSCSI ou vSAN com desempenho consistente. Evite picos que possam atrasar a confirmação de E/S na máquina primária. Uma baixa latência de armazenamento reduz o risco de divergência. Monitore as métricas de latência do datastore para detectar problemas.
Configure a rede vMotion separadamente. A rede vMotion lida com o posicionamento inicial da máquina virtual secundária e com as migrações durante a manutenção. Certifique-se de que os caminhos vMotion dispõem de largura de banda adequada e baixa latência. O registro FT não substitui o tráfego vMotion; ambos exigem redes confiáveis. Utilize o DRS para posicionar a máquina virtual secundária em um host adequado. Os grupos de recursos não devem privar as máquinas virtuais FT de recursos. Evite limites ou reservas concorrentes que possam restringir a reprodução ou o registro. Reserve CPU e memória nos hosts para cargas de trabalho FT.
Configure os adaptadores VMkernel: um para gerenciamento, um para vMotion e um dedicado ao registro de FT. Atribua o adaptador VMkernel de registro de FT a uma NIC física com contenção mínima. Verifique se os caminhos de rede entre os hosts utilizam o número mínimo de saltos. Configure as configurações de HA para lidar com partições de rede com cuidado; evite isolar hosts que executam máquinas virtuais com FT.
1. Habilitando a Tolerância a Falhas em uma Máquina Virtual
Antes de habilitar a Tolerância a Falhas (FT), confirme se há recursos suficientes tanto no host primário quanto nos hosts secundários potenciais. Verifique a CPU, a memória RAM e a largura de banda de rede. No vSphere Client, clique com o botão direito na máquina virtual e selecione Turn On Fault Tolerance. O sistema cria um modelo de máquina virtual secundária com configurações idênticas às da máquina virtual primária em termos de CPU, memória e disco. O registro de FT é iniciado entre as duas máquinas virtuais. Observe o indicador de status: ele deve exibir Protected. Caso contrário, verifique a rede, o modo EVC ou restrições de recursos. A FT pode desabilitar o DRS para essa máquina virtual; planeje adequadamente.
Certifique-se de que o sistema operacional convidado e as versões de hardware virtual sejam compatíveis. Remova dispositivos não suportados: evite instantâneos (snapshots), não utilize SCSI/Rede paravirtualizados, não utilize NPIV nem passagem direta RDMA. Consulte o Guia de Compatibilidade VMware. Confirme se a licença suporta o FT (Fault Tolerance) para a quantidade desejada de vCPUs. Limites comuns: o vSphere 8 Enterprise Plus pode permitir até 2 vCPUs; verifique a documentação atual para obter os valores exatos.
2. Testando a tolerância a falhas
Realize testes de tolerância a falhas para aumentar a confiança no sistema. Utilize métodos seguros além de simplesmente desligar o host. Por exemplo: encerre o processo vmx no host primário por meio do comando esxcli system process kill -t force -p <vmx-pid>; simule uma partição de rede para isolar o host; ou encerre um processo crítico dentro da máquina convidada para testar a continuidade da aplicação. Observe que o host secundário continua operando sem interrupção do serviço.
Verifique a transferência de failover por meio do PowerCLI: execute Get-VM | Select Name, FaultToleranceState. Observe as alterações de estado para identificar a tomada de controle. Analise os eventos do vCenter em busca de entradas relacionadas ao failover de FT. Utilize os registros (logs) nas aplicações para confirmar a persistência de sessão e a continuidade do serviço. Após o failover, verifique se o vSphere cria um novo secundário: confirme o retorno do status Protected. Somente quando um novo secundário for sincronizado você poderá considerar o teste concluído.
Verifique as conexões de rede: garanta que as sessões TCP permaneçam intactas, sempre que possível. Algumas aplicações podem exigir failover com reconhecimento de sessão. Revise as verificações específicas de integridade da aplicação. Documente os resultados dos testes. Utilize janelas programadas de manutenção caso realize testes em ambiente de produção.
3. Monitoramento e Manutenção
Monitore continuamente a integridade da FT. Verifique o volume de tráfego de registro da FT (MBps), a latência e as perdas de pacotes nas portas VMkernel da FT. Utilize os gráficos de desempenho do vSphere ou o PowerCLI (Get-VM | Get-FaultToleranceVM) para visualizar os estados de heartbeat e catchup. Observe estuns repetidos ou transbordamentos de buffer, indicativos de problemas de rede.
Defina alarmes para eventos relacionados à FT. Receba alertas sobre a desativação da FT ou disparos repetidos de failover. Revise as alterações de compatibilidade do host: ao adicionar hosts ou atualizar o firmware, certifique-se de que eles atendam aos requisitos de EVC e hardware da FT.
Ao aplicar patches nos hosts, siga este procedimento: coloque o host protegido por FT no modo de manutenção. O DRS migra outras VMs para fora desse host. A réplica secundária FT é migrada via vMotion para outro host compatível antes de entrar no modo de manutenção. Aplique o patch e reinicie o host. Saia do modo de manutenção. O vSphere pode migrar automaticamente a réplica secundária de volta ou criar uma nova réplica secundária automaticamente. Isso depende de que o DRS e o HA estejam habilitados. Confirme que a sincronização seja retomada.
Mantenha níveis consistentes de firmware e drivers em todos os hosts. Alinhe as versões do microcódigo da CPU para evitar deriva do EVC. Mantenha uniformes os caminhos de multipathing de armazenamento e os caminhos de rede. Teste as alterações em um laboratório, sempre que possível. Documente todas as configurações de FT.
Falta de Tolerância da VMware versus Alta Disponibilidade
A Tolerância a Falhas (FT) e a Alta Disponibilidade (HA) têm ambas como objetivo reduzir o tempo de inatividade, mas diferem quanto ao tempo de recuperação operacional (RTO), sobrecarga e complexidade. Ambas garantem um RPO = 0 para o estado da máquina virtual no momento da falha, pois a FT replica continuamente o estado, enquanto a HA pode reiniciar as máquinas virtuais rapidamente, embora possa perder o estado presente na memória — ainda que alguma perda de dados possa ocorrer caso os dados não tenham sido gravados no disco no momento da falha. A principal diferença reside no RTO: a FT oferece um RTO quase nulo (milissegundos), pois a instância secundária assume imediatamente o controle; já a HA exige a reinicialização da máquina virtual, causando minutos de inatividade.
O FT gera mais sobrecarga: ele executa uma máquina virtual secundária em modo de reprodução, consumindo ciclos de CPU equivalentes aos da máquina virtual primária. Isso efetivamente duplica as reservas de CPU. O tráfego de registro do FT pode atingir centenas de Mbps para máquinas virtuais intensivas em CPU e memória. A latência de rede deve permanecer baixa. As operações de E/S de armazenamento ocorrem apenas na máquina virtual primária, mas o registro acrescenta sobrecarga. Assim, o FT é mais adequado para máquinas virtuais pequenas (1–2 vCPUs) ou cargas de trabalho extremamente críticas. O HA utiliza menos recursos: ele reinicia as máquinas virtuais em outro host, causando uma breve reinicialização. Utilize o HA para máquinas virtuais maiores ou menos críticas, nas quais uma indisponibilidade de alguns minutos seja aceitável.
Considere a complexidade: a tecnologia FT exige requisitos rigorosos e monitoramento cuidadoso. A alta disponibilidade (HA) requer armazenamento compartilhado e configuração de cluster HA, mas é mais simples. Planeje a utilização da FT apenas quando a indisponibilidade zero for obrigatória e o custo dos recursos for justificado. Pergunte-se: seu aplicativo consegue tolerar uma reinicialização breve? Se sim, a HA pode ser suficiente. Se não, a FT pode valer o custo adicional.
Faça backup de VMs VMware com o Vinchin
A tolerância a falhas protege contra falhas do host. No entanto, os backups protegem os dados contra corrupção, erros humanos ou desastres no local. O Vinchin oferece backup de máquinas virtuais de nível empresarial, personalizado para ambientes VMware. Ele se integra perfeitamente ao vSphere e garante que suas VMs permaneçam restauráveis além da proteção fornecida pela tolerância a falhas.
Vinchin Backup & Recovery é uma solução profissional de backup de máquinas virtuais, voltada para empresas, que suporta VMware e mais de 15 outras plataformas, como Hyper-V, Proxmox, oVirt, OLVM, RHV, XCP-ng, XenServer, OpenStack, ZStack, entre outras. Oferece um amplo conjunto de funcionalidades.
O Vinchin fornece backup incremental perpétuo para economizar tempo e espaço de armazenamento. Aplica deduplicação de dados e compressão para reduzir o tamanho dos backups. A migração V2V auxilia na movimentação de máquinas virtuais entre hosts ou plataformas. Ele suporta CBT para capturar apenas os blocos alterados. Oferece recuperação instantânea para restauração rápida de máquinas virtuais. Além disso, inclui criptografia de dados, transmissão multithread, verificação de backup, restauração granular, arquivamento em nuvem/fita, políticas de limitação de largura de banda e retenção GFS. Esses são apenas alguns dos muitos recursos oferecidos pelo Vinchin.
O console web é intuitivo. Para fazer o backup de uma VM, siga quatro etapas:
1. Selecione a máquina virtual VMware para fazer o backup.

2. Escolha o armazenamento de backup.

3. Configure estratégias de backup.

4. Enviar o trabalho.

Este fluxo simples ajuda administradores a protegerem com eficiência suas cargas de trabalho VMware. A base global de clientes da Vinchin e suas altas avaliações refletem a confiança na sua performance. Aproveite um teste gratuito de 60 dias com todas as funcionalidades para testar todos os recursos no seu ambiente. Baixe o instalador e implante facilmente para proteger suas máquinas virtuais ainda hoje.
Perguntas Frequentes sobre a Tolerância a Falhas da VMware
P1: Quais são as limitações da Tolerância a Falhas da VMware?
A1: O número de vCPUs por VM FT depende da versão e da licença do vSphere; por exemplo, o vSphere 7 pode permitir até 8 vCPUs, enquanto o vSphere 8 normalmente limita a 2 vCPUs na edição Enterprise Plus; a FT não permite instantâneos (snapshots), Storage vMotion, dispositivos paravirtuais, NPIV e passagem direta de RDMA.
P2: Como adiciono a rede de registro FT?
A2: No vSphere Client, selecione host > Configurar > Rede > Protected, clique em Add Networking, escolha Fault Tolerance Logging, atribua uma porta, vincule-a a uma NIC física dedicada (10 GbE ou superior) e ative Quadros Gigantes se o caminho suportar MTU 9000.
P3: Como realizar a manutenção sem interromper o FT?
A3: Utilize o DRS: migre as VMs não FT para outro host, permita que a máquina secundária FT realize vMotion para outro host, atualize o host, saia do Modo de Manutenção e verifique a sincronização da nova máquina secundária; certifique-se de que o DRS e o HA estejam ativados para automação.
P4: Como o FT afeta o desempenho da VM?
A4: O FT adiciona sobrecarga devido ao registro de tráfego e à reprodução secundária; espere uma penalidade de 5–20% no primário, dependendo da carga de trabalho e da latência; realize testes sob carga para verificar o impacto antes da implantação em produção.
Conclusão
O VMware Fault Tolerance oferece proteção sem tempo de inatividade ao executar uma máquina virtual secundária passiva em sincronia exata com a máquina virtual principal. Exige uma configuração precisa: compatibilidade de CPU via EVC, redes dedicadas de baixa latência e baixa latência de armazenamento. Testes e monitoramento garantem a confiabilidade, enquanto as escolhas entre FT e HA dependem das necessidades de RTO e do custo dos recursos.
A combinação do FT com os backups Vinchin cobre tanto falhas de host quanto riscos no nível dos dados. Os recursos avançados da Vinchin, como backup incremental contínuo e desduplicação, aumentam a resiliência. Teste o FT regularmente, agende backups e revise as métricas para manter um ambiente VMware robusto. Confie na Vinchin para uma proteção abrangente das máquinas virtuais.
Partilhar em: