Actueel

Voorkom dat jouw data lake overstroomt

03 mrt 2023

Het IoT, applicaties, beveiligingscamera’s en RFID-tags – tegenwoordig stromen er vanuit alle hoeken gegevens in jouw data lake. Dit is veelal ongestructureerde data, in gigantische hoeveelheden. Data die potentieel belangrijke informatie bevat waar jouw organisatie waardevolle inzichten uit kan filteren. Waar en hoe sla je al deze gegevens op, kostenefficiënt en compliant?

Grote kans dat jouw organisatie eerst data verzamelt, om vervolgens te bepalen waar wat opgeslagen wordt. Dat kost tijd, zeker om dit bij te houden. De waarde van specifieke data verandert immers continu. Om een voorbeeld te geven, actuele sensordata wordt geanalyseerd. Maar naarmate deze data veroudert, verliest het zijn waarde. Deze situatie vraagt om continue waardebepaling, zodat je op elk moment de waarde van gegevens kent en zeker weet dat deze opgeslagen worden op het medium dat qua kosten en snelheid aansluit bij de datawaarde op dat moment.

Datalake
Je wilt dus altijd data zo efficiënt mogelijk opslaan… maar dat is makkelijker gezegd dan gedaan. Met automatische tiered data storage los je dat op. Information life cycle management en data placement op de juiste storage tier, is de belangrijkste voorwaarde voor efficiënte opslag van ongestructureerde data op een file storageomgeving. Hiermee zorg je ervoor dat jouw data lake automatisch gezuiverd wordt. Actuele data wordt bijvoorbeeld op flash storage opgeslagen, zodat deze snel toegankelijk is. Oudere of minder waardevolle data bewaar je op minder snelle disk, tape of in de cloud. Makkelijk en veilig.

Data Policy
Automated tiered storage bepaalt de dataplaatsing aan de hand van specifieke aspecten. Bijvoorbeeld de dataleeftijd en hoe vaak data geraadpleegd wordt. De instellingen daarvoor bepaal je zelf. Zijn meetgegevens in een kwartaal bijvoorbeeld minder dan twee keer bekeken? Dan zullen deze verplaatst worden, van een flash storage naar tapeopslag of van de on-premises naar de cloud. Daarnaast kan je applicaties laten bepalen wat de waarde van gegevens is: is een dataset al geanalyseerd of gebruikt, dan is hij minder waardevol.

Transparant
Er ligt echter er nog een uitdaging op je te wachten: hoe ga je om met de gigantische hoeveelheid ongestructureerde data? Transparent Cloud Tiering lost dit probleem op door oude en/of inactieve data naar cloud object storage te verplaatsen. Dit is een standaard functionaliteit binnen IBM Spectrum Scale voor transparante cloudopslag. Hiermee ben je in staat om cloud object storage (public, private of on-premises) in te zetten als veilige en transparante storage tier. Zo reduceer je de storagekosten omdat de performance storagecapaciteit wordt vrijgemaakt voor actieve data.

Geen overstromingen meer
Een ander voordeel van transparante tiered storage is de extreme schaalbaarheid. Er zijn platformen zoals IBM Spectrum Scale die tot enkele Yottabytes aan data kunnen opslaan, daar kan je wel even mee vooruit. Door de transparante opslag, blijft deze data goed toegankelijk met een hoge beschikbaarheid en houd je de opslagkosten binnen de perken. Nog een tip: kies voor een policy gedreven automated storage om een data archief op te bouwen. Spectrum Scale kan data archiveren op basis van compliance regulering door het voorkomen dat files worden aangepast en verwijderd gedurende hun life cycle. Met deze vorm van data life cycle management kun je een beter omgaan met verordeningen vanuit de AVG.

Kortom, met tiered storage kun je ervan op aan dat het met de kosten en compliancy wel goed zit. Jouw gegevensstroom wordt immers altijd, automatisch optimaal gezuiverd. En door de extreme schaalbaarheid weet je zeker dat jouw data lake nooit overstroomt.

Peter van der Torn