Che cos'è il recupero da disastri bare metal?

Che cos'è la deduplicazione dei dati?

La deduplicazione dei dati è una tecnica di compressione dei dati che comporta la rimozione di copie ridondanti di dati da un sistema.

È gestita sia nei backup dei dati che negli schemi di dati di rete e consente l'archiviazione di un modello unico di dati all'interno di un database o di un sistema informativo più ampio. La deduplicazione dei dati è anche conosciuta come compressione intelligente, archiviazione di istanze singole, fattorizzazione di comunanza o riduzione dei dati.

La deduplicazione dei dati funziona esaminando e confrontando i pezzi di dati in arrivo con i dati già archiviati. Se è presente un dato specifico, gli algoritmi di deduplicazione rimuovono i nuovi dati e li sostituiscono con un riferimento ai dati già presenti.

Ad esempio, quando un vecchio file viene sottoposto a backup con alcune modifiche, il file precedente e le modifiche applicate vengono aggiunti al segmento di dati totale. Tuttavia, se non vi è alcuna differenza, il nuovo file di dati viene scartato e viene creato un riferimento.

La deduplicazione dei dati è una tecnologia su cui i fornitori di archiviazione fanno affidamento per utilizzare meglio lo spazio di archiviazione; l'altra è la compressione. Queste funzionalità di archiviazione sono solitamente raggruppate in una categoria più ampia, chiamata riduzione dei dati. Tutti questi sistemi aiutano a raggiungere lo stesso obiettivo, aumentare l'efficienza dell'archiviazione. Con tecniche di deduplicazione adeguate, le aziende possono archiviare efficacemente più dati di quanto la loro capacità di archiviazione complessiva potrebbe suggerire. Ad esempio, un'azienda con 15 TB di archiviazione, quando combinata con tecniche di deduplicazione e compressione adeguate, può ottenere un beneficio di riduzione 4:1, il che significa che sarebbe possibile archiviare 60 TB su un array di dati da 15 TB.

Studio di caso sulla deduplicazione dei dati

Considera questo scenario come un esempio pratico del beneficio della deduplicazione: un'organizzazione sta gestendo un ambiente desktop virtuale con centinaia di workstation identiche tutte archiviate su un array di archiviazione costoso che è stato acquistato specificamente per il supporto. L'organizzazione sta eseguendo centinaia di copie di Windows 8, Office 2013, software ERP e qualsiasi altro strumento che gli utenti potrebbero richiedere. Ogni immagine di workstation individuale consuma, diciamo, 25 GB di spazio su disco. Con solo 200 di tali workstation, queste immagini da sole consumerebbero 5 TB di capacità.

Con la deduplicazione, può essere archiviata solo una copia di queste macchine virtuali individuali. Ogni volta che il motore scopre un pezzo di dati che è archiviato altroveiente di archiviazione, il sistema di archiviazione salva un piccolo puntatore al posto della copia dei dati, liberando così i blocchi che normalmente sarebbero occupati.

Tipi di deduplic dei dati

Come ci si potrebbe aspettare, diversi fornitori gestiscono la deduplicazione in modi diversi. In effetti, ci sono due tecniche principali di deduplicazione che meritano di essereusse:

<b;La deduplicazione inline si verifica nel momento in cui i dati vengono scritti nell'archiviazione. Mentre i dati sono in movimento, il motore di deduplicazione etiche i dati in modo sequenziale. Questo processo, sebbene efficace, crea un sovraccarico di calcolo. Il sistema deve etichettare ripetutamente i dati in arrivo e quindi identificare rapidamente se la nuova impronta digitale corrisponde a qualcosa nel. In tal caso, viene scritto un flag che punta al tag esistente. Se non lo fa, il blocco viene salvato senza modifiche. La deduplicazione inline è una caratteristica importante per molti dispositivi di archiviazione e, sebbene introduca un sovaccarico, non è troppo problematica, fornendo molti più benefici che costi.

La deduplicazione post-processo , nota anche come deduplicazione asincrona , si verifica quando tutti i dati vengono scritti completamente, fino a quando, a intervalli regolari, il sistema di deduplicazione passa etichetta tutti i nuovi dati, rimuove più copie e le sostituisce con flag che puntano alla copia originale dei dati.

La deduplicazione post-processo consente alle aziende di utilizzare il loro servizio di riduzione dei dati senza preoccuparsi del sovraccarico di elaborazione ripetuto causato dalla dedazione inline. Questo processo consente alle aziende di programmare la deduplicazione, in modo che possa avvenire durante le ore di inattività.

Il più grande svantaggio della deduplicazione post-processo è che tutti i dati vengono archiviati nella loro forma completa (spesso chiamata completamente idratata).Per questo motivo, i dati richiedono tutto lo spazio di cui i dati non dedati hanno bisogno. Solo dopo il processo di deduplicazione programmato si verifica una diminuzione delle dimensioni. Per le aziende che utilizzano la deduplicazione post-processo, è necessario un maggiore sovraccarico di capacità di archiviazione in ogni momento.

La deduplicazione dei dati lato client è una tecnica di deduplicazione dei dati che viene utilizzata, ad esempio, su un client di backup-archivio per rimuovere i dati ridondanti durante l'elaborazione di backup e archiviazione prima che i dati vengano trasferiti al server.L'uso della deduplicazione dei dati lato client può ridurre la quantità di dati inviati su una rete locale.

Uplicazione basata su hardware rispetto a deduplicazione basata su software

Gli apparecchi di deduplicazione costruiti funzionalmente riducono il carico di elaborazione associato ai prodotti basati su software.Questi sistemi di deduplicazione basati hardware possono anche aggiungere deduplicazione in forme di hardware di protezione dei dati, come apparecchi di backup, VTL o archiviazione NAS.

Sebbene la deduplicazione bas su software possa eliminare efficacemente la ridondanza alla sua fonte, i metodi basati su hardware danno priorità alla riduzione dei dati a livello di archiviazione.Per questo motivo, la deduplicazione basata su hardware non porterà risparmi dihezza di banda ottenuti deduplicando alla fonte, ma questo problema è compensato da velocità di compressione aumentate.

La deduplicazione dei basata su hardware offre prestazioni elevate, scalabilità e distribuzione relativamente non distruttiva.È più adatta per implementazioni di classe enterprise piuttosto che per applicazioni PMI o uffici remoti.

La deduplicazione basata su software è per la maggior parte meno costosa da eseguire e richiede modifiche significative all'infrastruttura di rete fisica di un'azienda.Tuttavia, la deduplicazione basata su software può spesso essere più difficile da installare e mantenere. Gli agenti devono essere installati per consentire la comunicazione tra il locale e il server di backup che esegue lo stesso software.

Perché la deduplicazione dei dati è importante

Anche se le capacità dei dischi continuano ad aumentare, i fornitori di archiviazione dati cercano costantemente metodi con cui i loro clienti possono stipare montagne di dati in continua espansione nei dispositivi di archiviazione.Dopotutto anche con dischi più grandi, ha senso esplorare opportunità per massimizzare la capacità potenziale di quei dischi.La deduplicazione avrà sempre effetti positivi significativi sull'uso complessivo dell'archiviazione, riducendo così i costi ma è importante sapere quale tipo di metodo di deduplicazione è necessario per massimizzare correttamente le efficienze.Alcuni metodi riducono i requisiti di larghezza di banda, altri riducono le dipendenze di archiviazione localizzate e si integrano direttamente con i servizi di cloud computing.

Scopri di più sulla deduplicazione dei dati

Termini correlati

Ulteriori letture

In che modo Barracuda può essere di aiuto

La deduplicazione del backup Barracuda semplifica la protezione dei dati euce i costi di overhead, media e rete.Con la deduplicazione a tre fasi e lunghezza variabile, consente un'efficiente archiviazione a lungo termine dei server protetti riducendo il tempo di backup.