BAM Groep gaat storage centraliseren
Taperobot liep op zijn laatste benen
“Graag wil ik een nieuwe back-upoplossing aanschaffen”, zo luidde de neutrale e-mail die Roelof Meijer, Teamleader Infrastructure Services bij BAM ICT Service, in 2006 richtte aan zijn manager. Dat achter zo’n simpel verzoek soms grote frustraties schuil kunnen gaan, dat zal iedere ICTmanager begrijpen. Maar voor welke oplossing kies je dan uiteindelijk?
“We hadden in 2006 grote problemen met de back-upoplossing die werd gebruikt voor de circa vijftig servers die in het cybercenter in Amsterdam stonden”, zo licht Meijer toe. De problemen waren veelledig en urgent. De taperobot was aan vervanging toe. Hij was inmiddels 4,5 jaar oud en was het afgelopen jaar al vier keer door storing uitgevallen. Dergelijke storingen waren vaak niet binnen een dag te verhelpen en dit impliceerde dat de backups van het merendeel van de servers faalden. De chaos was compleet toen een van de systeembeheerders, een perfectionist die zijn zaakjes altijd goed op orde had, opeens opstapte en we niet direct een waardige opvolger voorhanden hadden.”
Kritieke servers
“We moesten toen naarstig op zoek naar alternatieve mogelijkheden om de meest kritieke servers op een andere manier veilig te stellen. Naast deze hardwareproblemen waren er problemen die inherent zijn aan het werken met tapes. Sommige tapes werden als ‘poor’ aangemerkt. Ook duurden bepaalde jobs langer dan aanvankelijk was ingeschat, waardoor tape drives te lang bezet werden gehouden. Het wisselen van tapes leidde ook tot een hoop gedoe. Het opstellen van een strak back-upschema in combinatie met een tapewisselschema is een vak apart. Daar kan iedere systeembeheerder over meepraten.
Tot slot vertoonde de taperobot kuren als gevolg van oorzaken waarvan de oorsprong onduidelijk as. Kortom: de taperobot functioneerde gewoon niet goed. Daar kwam bij dat de back-upgrootte in de periode van 2002 tot 2006 was toegenomen van circa 100 GB naar ongeveer 500 GB, waardoor we veel tijd kwijt waren met het uitkienen van het tapegebruik om te voorkomen, dat er voor een bepaald type back-up onvoldoende tapes beschikbaar zouden zijn. Met andere woorden, door al deze perikelen waren we veel kostbare tijd kwijt aan het backupbeheer. Dat zou allemaal niet zo erg zijn als we dan maar de garantie zouden hebben dat we in ieder geval over een goede back-up op tape zouden beschikken, inclusief snelle restore-mogelijkheden. Maar ook daar durfde ik mijn hand niet voor in het vuur te steken.”
Meijer is binnen de BAM Groep met name verantwoordelijk voor het beheer van de centrale servers: de applicatieservers. “Daarin is een forse groei geweest, waardoor we anno 2008 reeds meer dan 2 TB back-uppen.”
Oplossing
Bij het zoeken naar een oplossing is Meijer niet over een nacht ijs gegaan, hoewel zijn keus al snel op Data Domain en storage-integrator i³ groep viel. “Dat wil niet zeggen dat we niet regelmatig alternatieve leveranciers beoordelen. Of we in het vervolg weer met deze partijen in zee gaan, laten we afhangen van de proposities die dan gelden. Leveranciersselectie is bij ons altijd een dynamisch proces. Het is dus niet zo dat we automatisch kiezen door Data Domain. Zo heb ik bijvoorbeeld Quantum ook scherp op mijn netvlies staan. De VTL van HP was voor ons uit kostenoogpunt niet interessant. Uiteindelijk hebben we besloten de taperobot te vervangen door een back-up appliance uit de Data Domain DD 400 Enterprise series en wel voor de DD 430 met een maximale speed van 220 GB per uur. Dit is een back-up to disksysteem, waarbij door een intelligente verwerking middels de de-duplicatietechniek data normaal gesproken tot 1/20 wordt gecomprimeerd.
Randvoorwaarden hierbij waren dat de doorlooptijd van de back-up minstens zo snel moest zijn als met de huidige de tape library. Het zou een probleemloze operatie moet worden, waarbij eenvoudig beheer een van de belangrijkste uitgangspunten was. Het definiëren van volumes en vrije ruimte op de te back-uppen servers zou voortaan tot het verleden moeten gaan behoren. De nieuw aan te schaffen appliance zou dit voortaan automatisch moeten gaan bewaken. Mijn mensen zouden in de toekomst niet meer op serverbasis in de gaten hoeven te houden of er nog voldoende ruimte is voor back-up.”
Teleurstelling
Onze teleurstelling was dan ook groot toen bleek dat de de-duplication ratio bleef steken op een ratio van 7:1. Dat was veel minder dan ons was voorgespiegeld en beloofd. Nu waren wij in zee gegaan met Data Domain op basis van het principe Try and Buy. Als zou blijken dat de beloofde compressie niet zou worden gehaald, of de snelheid onvoldoende was, of er toch allerlei problemen de kop op zouden steken in de operatie van dit apparaat, dan zouden we het apparaat zo weer kunnen inleveren, zonder hiervoor een factuur te ontvangen.
Er was de leverancier dus veel aan gelegen om te analyseren waaraan de gebrekkig performance te wijten was. En ik moet eerlijk zeggen, ze hebben alles uit de kast gehaald om het probleem op te sporen en te verhelpen. Uiteindelijk bleek dat de HP Data Protector Software roet in het eten gooide. Door middel van een patch was het probleem snel opgelost en de de-duplicatie ratio schoot omhoog naar 15:1.
Betrouwbare oplossing
Eenmaal per week zetten we nu de gegevens alsnog op tape om ze buiten de deur te brengen. Dit gebeurt met de tape library die gekoppeld is aan het SAN, op basis van de back-up die reeds op disk in de back-up appliance aanwezig is. Dit kan voortaan dus overdag gebeuren en is niet tijdskritisch. Ook de andere problemen waren in een keer opgelost. Zo hadden we geen problemen meer die te maken hebben met tapes en tape-units en tapewissels, waardoor de kans op slagen van een back-up veel groter werd. Tevens boekten we een grotere snelheid, zowel voor back-up als restore. Back-ups en restores kunnen voortaan ook simultaan lopen. Nog belangrijker is de grotere betrouwbaarheid: je weet nooit zeker of een tape daadwerkelijk leesbaar is op het moment dat je hem nodig hebt voor een restore. Bij een diskgebaseerde back-up is dit geen issue.
Natuurlijk waren er ook nadelen. De-duplicatie is nog een relatief nieuwe technologie, waardoor je altijd het risico loopt met eventuele kinderziektes te worden geconfronteerd. Een ander nadeel waren de hogere initiële investeringskosten. Het vervangen van de oude taperobot zou enkele tienduizenden euro’s goedkoper zijn geweest. Deze meerkosten verwacht ik echter aan het eind van dit jaar al bespaard te hebben op de beheerkosten. Maar een betrouwbare back-upproces is mij eigenlijk veel meer waard. Inmiddels overwegen we een tweede appliance op een externe locatie te plaatsten, waarmee we de back-up repliceren over een IP-netwerk, een WAN met lage bandbreedte. Dit voorkomt tapetransport en deze oplossing kan ook interessant zijn voor andere onderdelen van BAM.
Aangezien de BAM Groep meer dan 200 verschillende vestigingen telt die ook nog eens redelijk autonoom mogen opereren binnen het concern, loop je het risico dat iedereen het wiel opnieuw gaat uitvinden. Op de decentrale vestigingen zijn het met name de fileservers die voor een dataexplosie zorgen. Zo bestaan de data aldaar vooral uit e-mailberichten met Word en Excel- bijlagen en AutoCAD-tekeningen, in het bijzonder die met hoge snelheid worden verplaatst door het wide area network (WAN). AutoCAD- tekeningen zijn al snel een paar honderd megabytes groot, maar met de juiste appliances kunnen zij in seconden of minuten over het netwerk worden verplaatst. Om aan deze dataexplosie het hoofd te bieden, is vorig jaar een gemeenschappelijk, centraal storageproject gestart wat nu nog loopt.”