În domeniul continuității afacerii, există multe probleme diferite legate de creșterea rapidă a datelor în infrastructurile IT moderne. În opinia mea, putem distinge două principale:
deduplicare
În sens larg, există două tipuri principale de deduplicare:
De obicei, se utilizează o schemă de deduplicare mai granulată, cu atât mai multe economii de spațiu în depozitul de date.
Sună grozav! Dar numai până când fișierele sunt absolut identice. Dacă unul dintre fișierele identice este modificat la cel puțin un octet, va fi creată copia sa modificată separată și eficiența deduplicării va scădea.
Blocarea deduplicării funcționează la nivelul blocurilor de date scrise pe disc, pentru a evalua identitatea sau unicitatea funcțiilor hash utilizate. Sistemul de deduplicare stochează o tabelă hash pentru toate blocurile de date stocate în ea. Odată ce sistemul de deduplicare găsește hashuri potrivite pentru blocuri diferite, presupune că blocurile sunt stocate ca o singură instanță și un set de referințe la aceasta. De asemenea, puteți compara blocurile de date de la diferite computere (deduplicarea globală), ceea ce sporește și mai mult eficiența deduplicării, deoarece multe discuri pot fi stocate pe discuri de computere diferite cu același sistem de operare. Este de remarcat faptul că cea mai mare eficiență va fi obținută prin reducerea dimensiunii blocului și maximizarea repetabilității unității. În acest sens, există două metode de deduplicare a blocurilor: cu o lungime constantă (predeterminată) și variabilă (selectată dinamic pentru date specifice).
Aplicații de deduplicare
Majoritatea dezvoltatorilor de produse cu suport pentru deduplicare se concentrează pe piața de rezervă. În acest caz, în timp, copiile de rezervă pot avea de două până la trei ori mai mult spațiu decât datele originale. Prin urmare, deduplicarea fișierelor a fost folosită de mult timp în produsele de rezervă, care, cu toate acestea, pot să nu fie suficiente în anumite condiții. Adăugarea deduplicării blocurilor poate îmbunătăți în mod semnificativ eficiența sistemelor de stocare și facilitează respectarea cerințelor de eroare ale sistemului.
Reducerea interesului și speranțe mari
Procentajul spațiului de disc salvat este cea mai importantă zonă ușor de manipulat, vorbind despre "reducerea cu 95% a mărimii fișierelor de rezervă". Cu toate acestea, algoritmul utilizat pentru a calcula acest raport poate să nu fie complet relevant pentru situația dvs. particulară. Prima variabilă care trebuie luată în considerare este tipul de fișier. Formate precum ZIP, CAB, JPG, MP3, AVI sunt deja date comprimate, ceea ce oferă un factor de deduplicare mai mic decât datele necomprimate. La fel de importantă este frecvența modificărilor de date pentru deduplicare și numărul de date istorice. Dacă utilizați un produs care deduplică datele existente pe un server de fișiere, atunci nu vă faceți griji. Dar dacă utilizați deduplicarea ca parte a unui sistem de backup, trebuie să răspundeți la următoarele întrebări:
Timpul este totul
Vorbind despre deduplicarea în sistemele de rezervă, este important să știm cât de repede este efectuată. Există trei tipuri principale de deduplicare:
- sursă (pe partea sursei de date);
- țintă (sau "post-procesarea deduplicării");
- continuă (sau "deduplicare de tranzit");
Primul tip: Deduplicare la partea sursei de date
Funcționează pe dispozitivul însuși, unde sunt localizate datele sursă. Orice date marcate pentru copiere de rezervă sunt împărțite în blocuri, pentru care este calculat un hash. Aici puteți vedea 3 probleme potențiale.
Deduplicarea țintă (sau post-procesare)
Să presupunem că datele de pe toate computerele sunt trimise la același depozit de rezervă. Imediat ce sosesc datele, depozitarul poate crea un tabel hash cu blocuri ale acestor date. Primul avantaj al acestei metode este o cantitate mai mare de date, iar cu cât este mai mare baza de date, cu atât mai mult va fi masa de hash și, în consecință, cu atât sunt mai mari șansele de a găsi blocuri identice. Al doilea avantaj este că întregul proces are loc în afara rețelei productive.
Cu toate acestea, această opțiune nu rezolvă toate problemele. Există câteva puncte care trebuie luate în considerare.
Deduplicarea tranzitului
Deduplicarea tranzitului este explicată ca un proces care apare în timpul transferului de date de la sursă la țintă. Termenul este puțin confuz. Datele nu sunt de fapt deduplicate "în fir". De fapt, aceasta înseamnă că datele colectate în memoria RAM a dispozitivului țintă sunt deduplicate acolo înainte de operația de scriere pe disc. Aceasta afișează timpul de căutare al discului din ecuație. Deduplicarea tranzitivă poate fi considerată cea mai bună formă de deduplicare țintă. Are toate avantajele reprezentării globale a datelor, împreună cu descărcarea procesului de hash, dar nu are niciunul din dezavantajele unor unități I / O lentă.
Cu toate acestea, aceasta reprezintă încă un trafic de rețea mare și coliziuni potențiale de hash. Această metodă necesită cele mai mari resurse de calcul (procesor și memorie) printre toate cele listate.
Rezumă
Tehnologiile de deduplicare pot contribui la reducerea costurilor de achiziționare a sistemelor de stocare. Este înțelept să alegeți tipul de deduplicare. În cele din urmă, deduplicarea va permite companiei să-și mărească mai încet costurile de depozitare.
Materiale utile
s3ql - sistem de fișiere bazat pe stocarea în cloud
Descriere Cu S3QL puteți crea un sistem de fișiere bazat pe stocare cloud Selectel de stocare, care poate fi montat în orice versiune modernă a sistemului de operare Linux, FreeBSD și Mac OS X. Caracteristici de transparență S3QL practic imposibil de distins de sistemul de fișiere local. Acceptă hardlink-uri, simboluri, drepturi standard de sistem