-
Cos’è VMware Fault Tolerance?
-
Come funziona la tolleranza ai guasti di VMware?
-
Come configurare e utilizzare la tolleranza ai guasti in VMware?
-
Fault Tolerance VMware vs High Availability
-
Eseguire il backup delle VM VMware con Vinchin
-
Domande frequenti su VMware Fault Tolerance
-
Conclusione
VMware Fault Tolerance (FT) garantisce la disponibilità continua delle macchine virtuali mantenendo un’istanza secondaria attiva. Protegge contro i guasti dell’host senza tempi di inattività. Questa funzionalità utilizza la registrazione e la riproduzione sincrone per replicare l’esecuzione della macchina virtuale. Richiede una configurazione accurata di CPU, rete e archiviazione. Questa guida parte dai concetti fondamentali per arrivare a dettagli approfonditi, coprendo prerequisiti, funzionamento, configurazione, test, monitoraggio e confronto con High Availability (HA) in termini di vantaggi e compromessi.
Cos’è VMware Fault Tolerance?
VMware Fault Tolerance garantisce un’interruzione pari a zero eseguendo una macchina virtuale secondaria in perfetta sincronia con quella primaria. Rileva gli eventi non deterministici sulla macchina virtuale primaria e li applica a quella secondaria prima dell’esecuzione. La macchina virtuale secondaria rimane passiva per quanto riguarda l’I/O esterno, ma attiva nella fase di riproduzione. In caso di guasto dell’host primario, la macchina virtuale secondaria subentra istantaneamente. Fault Tolerance utilizza la tecnologia vLockstep per la replica, a livello di istruzione, dello stato della CPU e della memoria. Ciò garantisce zero perdita di dati e continuità del servizio.
Come funziona la tolleranza ai guasti di VMware?
La tolleranza ai guasti (FT) si basa sulla replica sincrona dello stato a livello di istruzione. Registra i registri della CPU, gli aggiornamenti della memoria e gli input non deterministici, come le interruzioni e i pacchetti di rete, sul sistema primario. Questi dati vengono trasmessi attraverso una rete dedicata per la registrazione FT al sistema secondario. Il secondario esegue nuovamente le istruzioni in perfetto sincronismo, ma blocca qualsiasi I/O esterno fino al passaggio di failover. Solo il sistema primario emette scritture su archiviazione o invii di rete. Ciò evita il fenomeno del “split-brain”, garantendo una singola sorgente attiva di I/O. FT utilizza blocchi atomici (ad esempio, le riserve persistenti SCSI-3) sull’archiviazione condivisa per coordinare il passaggio di failover, assicurando che, dopo un guasto, solo una copia venga eseguita come primaria.
FT utilizza un adattatore di registrazione VMkernel FT. Il sistema primario acquisisce gli eventi e li invia al sistema secondario prima dell’esecuzione delle istruzioni. Il sistema secondario li riproduce nello stesso ordine. Le operazioni di I/O di rete e di archiviazione vengono completate sul sistema primario; il sistema secondario attende. Se l’host primario si guasta (interruzione di alimentazione, PSOD, isolamento della rete di gestione oltre il tempo massimo consentito o arresto anomalo del processo vmx), il segnale di heartbeat cessa. Il sistema secondario assume immediatamente il ruolo primario utilizzando lo stato da esso riprodotto. Un nuovo sistema secondario viene avviato automaticamente su un altro host. FT evita lacune nei dati mediante blocchi atomici di archiviazione e sincronizzazione sincrona dello stato.
⚫Eventi in lockstep e non deterministici
vLockstep acquisisce gli eventi che possono modificare i percorsi di esecuzione: interrupt, completamento di operazioni di I/O e istruzioni basate sul tempo (ad esempio RDTSC). Questi eventi vengono registrati sul sistema primario e trasmessi tramite il logging FT. Vengono quindi inseriti nell’esecuzione del sistema secondario prima dell’esecuzione di tali istruzioni. Ciò garantisce che entrambe le macchine virtuali ricevano gli stessi input. Registrando esclusivamente gli input non deterministici, i dati di logging rimangono contenuti rispetto a dump completi dello stato. Il sistema secondario riproduce lo stato della CPU e della memoria in sincronia, ma attende le operazioni di I/O esterne fino al passaggio di controllo.
⚫ Replica sincrona dello stato
FT replica i registri della CPU e lo stato della memoria a granularità di istruzione. Questa non è una replica a livello di blocco. Garantisce che lo stato interno del sistema secondario corrisponda esattamente a quello del sistema primario in corrispondenza di ogni istruzione. La rete di registrazione FT deve consegnare i record con latenza minima. Qualsiasi ritardo può causare il blocco delle macchine virtuali se i buffer si riempiono. Pertanto, sono fondamentali una larghezza di banda dedicata e percorsi a bassa latenza. Il traffico di registrazione FT può raggiungere centinaia di Mbps per macchine virtuali con carichi elevati sulla CPU.
⚫ Gestione I/O e prevenzione della condizione di split-brain
Solo la VM primaria esegue I/O esterni: scritture su disco e invio di pacchetti di rete. La VM secondaria rimane passiva per quanto riguarda l’I/O fino al failover. Ciò evita la presenza di due fonti attive di I/O. L’archiviazione condivisa utilizza il blocco atomico dei file, spesso tramite le riservazioni persistenti SCSI-3, per impedire che entrambe le VM accedano ai dischi come primarie dopo un guasto. Al verificarsi del failover, la VM secondaria acquisisce la riserva e prosegue l’operatività. La VM primaria originale, qualora venga ripristinata, avvia una nuova VM secondaria anziché riprendere il ruolo di primaria.
⚫Trigger del failover
Il failover FT viene attivato quando l’host primario diventa irraggiungibile o va in errore. Le condizioni che lo innescano includono la perdita di alimentazione dell’host, un PSOD, il crash del processo vmx (ad esempio, terminato tramite esxcli) o l’isolamento della rete di gestione per un tempo superiore al timeout di HA. FT monitora il segnale di vita (heartbeat) attraverso il canale di logging FT. Quando il segnale di vita cessa, il sistema secondario assume immediatamente il ruolo di primario. vCenter registra l’evento. Un nuovo sistema secondario viene posizionato automaticamente su un host compatibile.
Come configurare e utilizzare la tolleranza ai guasti in VMware?
Questa sezione illustra i prerequisiti, l’attivazione della tolleranza ai guasti (FT), il test del failover e le operazioni di manutenzione. Si presuppone che l’utente conosca concetti di vSphere come EVC, DRS e HA.
Prerequisiti e configurazione
Rispettare la compatibilità della CPU abilitando EVC prima del FT. Assicurarsi che gli host condividano un livello di base EVC che copra le istruzioni della CPU utilizzate dalle macchine virtuali. Se è necessario innalzare successivamente il livello EVC, disabilitare prima il FT sulle macchine virtuali interessate. Utilizzare processori che supportino la virtualizzazione hardware (Intel EPT o AMD RVI), ad esempio Intel Sandy Bridge o versioni successive e AMD Bulldozer o versioni successive.
Configurare la rete con bassa latenza. Utilizzare una rete dedicata per la registrazione dei log FT, preferibilmente da 10 GbE o superiore. VMware raccomanda un RTT inferiore a 10 ms, idealmente inferiore a 1 ms, per evitare ritardi nella riproduzione e interruzioni. Utilizzare schede di rete fisiche separate o VLAN per isolare il traffico FT. Abilitare i frame jumbo (MTU 9000) end-to-end, se supportati. Riservare una larghezza di banda specifica per prevenire il sovraccarico del canale di registrazione.
Assicurarsi che l’archiviazione condivisa soddisfi i requisiti di latenza. La latenza persistente delle operazioni di I/O su archiviazione dovrebbe rimanere al di sotto di circa 15 ms affinché la sincronizzazione FT possa procedere regolarmente. Utilizzare Fibre Channel, iSCSI o vSAN con prestazioni costanti. Evitare picchi che potrebbero ritardare l’acknowledgement delle operazioni di I/O sul sistema primario. Una bassa latenza dell’archiviazione riduce il rischio di divergenza. Monitorare le metriche della latenza del datastore per rilevare eventuali problemi.
Configurare separatamente la rete vMotion. La rete vMotion gestisce il posizionamento iniziale della macchina virtuale secondaria e le migrazioni durante la manutenzione. Assicurarsi che i percorsi vMotion dispongano di larghezza di banda adeguata e bassa latenza. Il logging FT non sostituisce il traffico vMotion; entrambi necessitano di reti affidabili. Utilizzare DRS per posizionare la macchina virtuale secondaria su un host adatto. I pool di risorse non devono privare le macchine virtuali FT delle risorse necessarie. Evitare limiti o prenotazioni concorrenti che potrebbero rallentare il replay o il logging. Riservare CPU e memoria sugli host per i carichi di lavoro FT.
Configurare gli adattatori VMkernel: uno per la gestione, uno per vMotion e uno dedicato al logging FT. Assegnare l’adattatore VMkernel per il logging FT a una scheda di rete fisica con contesa minima. Verificare che i percorsi di rete tra gli host utilizzino il numero minimo di hop. Configurare le impostazioni di HA per gestire con attenzione le partizioni di rete; evitare di isolare gli host che eseguono macchine virtuali FT.
1. Abilitazione della tolleranza ai guasti su una macchina virtuale
Prima di abilitare la tolleranza ai guasti (FT), verificare che siano disponibili risorse sufficienti sia sull’host primario sia su quelli potenzialmente secondari. Controllare CPU, RAM e larghezza di banda di rete. Nel vSphere Client, fare clic con il tasto destro sulla macchina virtuale e selezionare Turn On Fault Tolerance. Il sistema crea un modello di macchina virtuale secondaria che corrisponde alle impostazioni di CPU, memoria e disco. La registrazione FT ha inizio tra le due macchine virtuali. Monitorare l’indicatore di stato: deve visualizzare Protected. In caso contrario, verificare la connettività di rete, le impostazioni EVC o i vincoli sulle risorse. La FT potrebbe disabilitare DRS per tale macchina virtuale; pianificare di conseguenza.
Assicurarsi che il sistema operativo guest e le versioni dell’hardware virtuale siano supportati. Rimuovere i dispositivi non supportati: evitare gli snapshot, non utilizzare SCSI/Net paravirtuali, non utilizzare NPIV e non abilitare il passaggio diretto RDMA. Consultare la Guida alla compatibilità di VMware. Verificare che la licenza supporti la tecnologia FT per il numero desiderato di vCPU. Limiti comuni: vSphere 8 Enterprise Plus potrebbe consentire fino a 2 vCPU; verificare la documentazione corrente per i valori esatti.
2. Test della tolleranza ai guasti
Eseguire il test della tolleranza ai guasti per acquisire fiducia nel sistema. Utilizzare metodi sicuri che vadano oltre la semplice interruzione dell’alimentazione dell’host. Ad esempio: terminare il processo vmx sul sistema primario tramite esxcli system process kill -t force -p <vmx-pid>; simulare una partizione di rete per isolare l’host; oppure terminare un processo critico all’interno della macchina virtuale guest per verificare la continuità dell’applicazione. Verificare che il sistema secondario continui a operare senza interruzioni del servizio.
Verificare il failover tramite PowerCLI: eseguire il comando Get-VM | Select Name, FaultToleranceState. Cercare modifiche nello stato che indicano il passaggio al sistema di backup. Esaminare gli eventi di vCenter per individuare le voci relative al failover FT. Utilizzare i log delle applicazioni per confermare la persistenza delle sessioni e la continuità del servizio. Dopo il failover, verificare che vSphere crei un nuovo nodo secondario: controllare che lo stato Protected venga restituito. Il test può considerarsi completato soltanto quando un nuovo nodo secondario ha completato la sincronizzazione.
Verificare le connessioni di rete: assicurarsi, se possibile, che le sessioni TCP rimangano integre. Alcune applicazioni potrebbero richiedere un failover consapevole della sessione. Esaminare i controlli di integrità specifici per ciascuna applicazione. Documentare i risultati dei test. Utilizzare finestre di manutenzione programmate se si effettuano test in produzione.
3. Monitoraggio e manutenzione
Monitorare costantemente lo stato di salute di FT. Controllare il volume del traffico di registrazione di FT (MBps), la latenza e le perdite di pacchetti sulle porte VMkernel di FT. Utilizzare i grafici delle prestazioni di vSphere o PowerCLI (Get-VM | Get-FaultToleranceVM) per visualizzare lo stato del segnale di vita (heartbeat) e dello stato di sincronizzazione (catchup). Prestare attenzione a stuns ripetuti o a overflow del buffer, che indicano problemi di rete.
Imposta gli allarmi per gli eventi relativi a FT. Ricevi avvisi in caso di disattivazione di FT o di attivazioni ripetute del failover. Verifica le modifiche alla compatibilità degli host: quando aggiungi nuovi host o aggiorni il firmware, assicurati che soddisfino i requisiti FT EVC e quelli hardware.
Quando si applicano le patch agli host, seguire questa procedura: porre l’host protetto da FT in modalità manutenzione. DRS migra le altre macchine virtuali su altri host. Il secondo nodo FT viene migrato tramite vMotion su un altro host compatibile prima dell’ingresso nella modalità manutenzione. Applicare la patch e riavviare l’host. Uscire dalla modalità manutenzione. vSphere potrebbe migrare automaticamente il secondo nodo FT di nuovo sull’host originale oppure crearne uno nuovo automaticamente. Questo processo presuppone che DRS e HA siano abilitati. Verificare che la sincronizzazione riprenda correttamente.
Mantenere livelli coerenti di firmware e driver su tutti gli host. Allineare le versioni del microcodice della CPU per evitare derive EVC. Mantenere uniformi il multipathing di archiviazione e i percorsi di rete. Testare le modifiche in un ambiente di laboratorio, ove possibile. Documentare tutte le configurazioni FT.
Fault Tolerance VMware vs High Availability
Il Fault Tolerance (FT) e la High Availability (HA) mirano entrambi a ridurre i tempi di inattività, ma differiscono per quanto riguarda il tempo di ripristino (RTO), l’overhead e la complessità. Entrambe garantiscono un RPO pari a zero per lo stato delle macchine virtuali al momento del guasto, poiché il FT replica continuamente lo stato, mentre la HA riesce a riavviare rapidamente le macchine virtuali, anche se potrebbe perdere lo stato presente nella memoria RAM; tuttavia, in caso di crash, potrebbe verificarsi una certa perdita di dati se questi non sono stati scritti sul disco. La differenza fondamentale riguarda l’RTO: il FT offre un RTO quasi nullo (millisecondi), poiché la macchina virtuale secondaria subentra istantaneamente; la HA, invece, richiede il riavvio della macchina virtuale, causando minuti di inattività.
FT comporta un sovraccarico maggiore: esegue una macchina virtuale secondaria in modalità riproduzione, consumando cicli della CPU pari a quelli della macchina virtuale primaria. Di fatto raddoppia le riserve di CPU. Il traffico di registrazione di FT può raggiungere centinaia di Mbps per le macchine virtuali ad alta intensità di CPU e memoria. La latenza di rete deve rimanere bassa. Le operazioni di I/O su storage vengono eseguite esclusivamente sulla macchina virtuale primaria, ma la registrazione introduce un ulteriore sovraccarico. FT è quindi più indicato per macchine virtuali di piccole dimensioni (1–2 vCPU) o per carichi di lavoro estremamente critici. HA utilizza meno risorse: riavvia le macchine virtuali su un altro host, causando un breve riavvio. Utilizzare HA per macchine virtuali di maggiori dimensioni o meno critiche, quando è accettabile un’interruzione di alcuni minuti.
Valuta la complessità: la tecnologia FT impone requisiti rigorosi e un monitoraggio accurato. L’HA richiede invece una memoria condivisa e la configurazione di un cluster HA, ma è più semplice da implementare. Pianifica l’uso di FT solo quando il downtime zero è obbligatorio e il costo aggiuntivo delle risorse è giustificato. Chiediti: la tua applicazione può tollerare un breve riavvio? Se sì, l’HA potrebbe essere sufficiente. Se no, FT potrebbe valere il costo aggiuntivo.
Eseguire il backup delle VM VMware con Vinchin
La tolleranza ai guasti protegge da errori dell’host. I backup, invece, proteggono i dati da danneggiamenti, errori umani o disastri locali. Vinchin offre un servizio enterprise di backup per macchine virtuali, appositamente progettato per ambienti VMware. Si integra senza problemi con vSphere e garantisce che le tue VM possano essere ripristinate anche oltre la protezione fornita dalla tolleranza ai guasti.
Vinchin Backup & Recovery è una soluzione professionale per il backup delle macchine virtuali, adatta a ambienti aziendali, che supporta VMware e oltre 15 altre piattaforme, tra cui Hyper-V, Proxmox, oVirt, OLVM, RHV, XCP-ng, XenServer, OpenStack, ZStack e molte altre. Offre un’ampia gamma di funzionalità.
Vinchin offre il backup incrementale perpetuo per risparmiare tempo e spazio di archiviazione. Applica la deduplicazione dei dati e la compressione per ridurre le dimensioni dei backup. La migrazione V2V consente di spostare le macchine virtuali tra host o piattaforme. Supporta la tecnologia CBT (Changed Block Tracking) per acquisire soltanto i blocchi modificati. Offre il ripristino istantaneo per un rapido ripristino delle macchine virtuali. Inoltre, include crittografia dei dati, trasmissione multithread, verifica dei backup, ripristino granulare, archiviazione su cloud/nastro, politiche di limitazione della banda e conservazione GFS. Queste sono solo alcune delle numerose funzionalità offerte da Vinchin.
La console web è intuitiva. Per eseguire il backup di una macchina virtuale, segui quattro passaggi:
1. Selezionare la macchina virtuale VMware da cui eseguire il backup.

2. Scegli l’archiviazione di backup.

3. Configura le strategie di backup.

4. Invia il lavoro.

Questo semplice flusso aiuta gli amministratori a proteggere in modo efficiente i propri carichi di lavoro VMware. La base globale di clienti di Vinchin e i suoi alti punteggi riflettono la fiducia nella sua prestazione. Goditi una prova gratuita completa di 60 giorni per testare tutte le funzionalità nel tuo ambiente. Scarica l’installer e distribuiscilo facilmente per proteggere le tue macchine virtuali già oggi.
Domande frequenti su VMware Fault Tolerance
D1: Quali limitazioni presenta VMware Fault Tolerance?
A1: I vCPU per VM FT dipendono dalla versione e dalla licenza di vSphere; ad esempio, vSphere 7 può consentire fino a 8 vCPU, mentre vSphere 8 spesso limita a 2 vCPU la configurazione Enterprise Plus; la funzionalità FT non consente snapshot, Storage vMotion, dispositivi paravirtuali, NPIV e il passaggio diretto RDMA.
Q2: Come aggiungo la rete di registrazione FT?
A2: Nel vSphere Client selezionare host > Configura > Rete > VMkernel adapters, fare clic su Add Networking, scegliere Fault Tolerance Logging, assegnare una porta, associarla a una NIC fisica dedicata (10 GbE o superiore) e abilitare i frame jumbo se il percorso supporta un MTU pari a 9000.
Q3: Come gestire la manutenzione senza interrompere il funzionamento di FT?
A3: Utilizzare DRS: migrare le VM non FT su altri host, consentire alla secondaria FT di eseguire la vMotion su un altro host, applicare l’aggiornamento al server, uscire dalla modalità manutenzione e verificare la sincronizzazione della nuova secondaria; assicurarsi che DRS e HA siano abilitati per l’automazione.
Q4: In che modo FT influisce sulle prestazioni della macchina virtuale?
A4: FT aggiunge sovraccarico a causa della registrazione del traffico e della riproduzione secondaria; ci si attende una penalità del 5–20% sul primario, in base al carico di lavoro e alla latenza; eseguire test sotto carico per verificare l’impatto prima del rilascio in produzione.
Conclusione
VMware Fault Tolerance offre una protezione senza interruzioni eseguendo una macchina virtuale secondaria passiva in sincronia perfetta con quella primaria. Richiede una configurazione precisa: compatibilità della CPU tramite EVC, reti dedicate a bassa latenza e bassa latenza di archiviazione. Test e monitoraggio garantiscono l'affidabilità, mentre la scelta tra Fault Tolerance e High Availability dipende dai requisiti di RTO e dai costi delle risorse.
Abbinare la tecnologia FT con i backup Vinchin copre sia i guasti dell’host sia i rischi a livello di dati. Le funzionalità avanzate di Vinchin, come il backup incrementale perpetuo e la deduplica, aumentano la resilienza del sistema. Eseguire regolarmente test sulla tecnologia FT, pianificare i backup e analizzare le metriche per mantenere un ambiente VMware solido e affidabile. Affidati a Vinchin per una protezione completa delle macchine virtuali.
Condividi su: