Veelgestelde vragen
Wat is datadeduplicatie?
Deduplicatie is vergelijkbaar met datacompressie, alleen wordt er bij deduplicatie in uiterst lange reeksen bytes en met een zeer groot vergelijkingsvenster naar redundantie gezocht. Lange reeksen (8KB+) worden vergeleken met eerder opgeslagen vergelijkbare reeksen en waar dat mogelijk is wordt er gerefereerd aan de eerste unieke opgeslagen versie van een reeks in plaats dat deze opnieuw wordt opgeslagen. In een storagesysteem blijft dit allemaal verborgen voor gebruikers en applicaties, zodat het hele bestand leesbaar blijft nadat dit is weggeschreven.
Waarom data dedupliceren?
Het verwijderen van redundante data kan de benodigde opslagruimte aanmerkelijk terugdringen en de efficiëntie van de bandbreedte verbeteren. Omdat primaire opslag door de jaren heen goedkoper is geworden slaan ondernemingen normaal gesproken veel verschillende versies van dezelfde informatie op zodat het oude werk bij nieuw werk kan worden hergebruikt. Bepaalde operaties zoals backup slaan buitengewoon veel redundante informatie op. Deduplicatie verlaagt opslagkosten omdat er minder harddisken nodig zijn, en verkort de backup- en recovery-tijd omdat er veel minder data hoeft te worden verplaatst. Binnen de context van backup en andere nearline data kan men er vrijwel zeker van zijn dat er een hoop gedupliceerde data aanwezig is. Dezelfde data wordt steeds opnieuw opgeslagen en verbruikt daarbij een hoop onnodige opslagruimte (harddisk of tape), elektriciteit (om de harddisk- of tapestations aan te drijven en te koelen) en bandbreedte (voor replicatie). Dit zorgt voor extra kosten en inefficiënt gebruik van bronnen binnen de organisatie.
Hoe werkt datadeduplicatie?
Deduplicatie segmenteert de inkomende datastroom, geeft een unieke identificatie aan de datasegmenten en vergelijkt de segmenten vervolgens met eerder opgeslagen data. Wanneer een inkomend datasegment een duplicaat is van een reeds opgeslagen segment, wordt dit segment niet nogmaals opgeslagen. In plaats daarvan wordt er een referentie gemaakt. Indien het segment uniek is wordt het op harddisk opgeslagen.
Een bestand of volume waar elke week een backup van wordt gemaakt genereert een aanmerkelijke hoeveelheid gedupliceerde data. Deduplicatie-algoritmen analyseren de data en kunnen alleen de gecomprimeerde, unieke elementen van dat bestand opslaan. Bij een doorsnee backup-bewaarbeleid en normale bedrijfsgegevens kan met dit proces een gemiddeld 10 tot 30 keer grotere reductie in gebruik van opslagruimte worden behaald. Soms ligt dit getal zelfs hoger. Dit heeft tot gevolg dat bedrijven tussen de 10 en 30 TB aan backup-data op 1 TB aan fysieke harddiskcapaciteit kunnen opslaan, wat een enorm economisch voordeel oplevert.





