Storing 4 december 2011, de oorzaak en de toekomst

Mededelingen

Allereerst onze excuses voor het ongemak van de laatste dagen. Zoals velen van jullie wel gemerkt hebben is op 4 december 2011 het platform waar wij onze dienstverlening op aanbieden onbereikbaar geworden. Via dit bericht willen wij u graag informeren over deze storing, de oorzaak en de toekomst. Wij zijn op dit moment weer volledig bereikbaar via e-mail en telefoon.

Zondagochtend 4 december werden wij door onze eigen monitoring op de hoogte gebracht van een onderbreking op verschillende servers. Het platform was volledig onbereikbaar. Na een herstart werden omstreeks 12 uur de servers op dit platform weer beschikbaar. Na 3 uur bleek de storing nog niet verholpen te zijn en was de verschillende dienstverlening opnieuw onbereikbaar. Het was op dat moment nog onduidelijk waar de problemen zich bevonden. Overbelasting of eventueel een denial of service aanval werden niet uitgesloten en daar lag dan ook de focus op.

Onderzoek en tijdelijke oplossing

Na onderzoek bleek dat het platform niet meer de prestaties kon bieden die wij zelf van onze dienstverlening verwachten. De data was door de slechte prestaties corrupt geraakt en was hierdoor niet meer in te zetten. Verschillende herstelpogingen, welke helaas veel tijd vergen, bleken niet in staat om de corrupte data te herstellen.

Om 10 uur ’s avonds is gestart met het opzetten van een nieuw platform in Rotterdam en rond 12 uur ’s nachts zijn wij gestart met het terug zetten van de backups. Op dat moment werd er door ons zelf en door onze leveranciers ingeschat dat dit ongeveer 8 uur ging duren. Ruim op tijd voor de werkdag van maandag.

Terugzetten van de backup

Helaas bleek dit anders te lopen. De verwachte snelheid van de backup werd niet bereikt en de backups waren op nog geen 10% op het moment dat wij hadden verwacht weer online te zijn. Dit is natuurlijk voor zowel ons als voor onze klanten niet acceptabel. De investeringen die wij ieder jaar doen in de backup oplossing zijn fors en dit bleek niet te voldoen. Er is op maandag vanuit de restore helaas weinig vooruitgang geboekt. Uiteindelijk is het gelukt om enkele servers in Rotterdam beschikbaar te maken maar dit was nog steeds onvoldoende.

Alternatieven

Maandagmiddag is na verschillend contact met onze hardware en software leveranciers besloten om alsnog te overwegen terug te migreren naar het oude platform. Door de leverancier van onze backup oplossing werd aangegeven dat een restore naar eenzelfde omgeving vele malen sneller uitgevoerd kon worden. Verschillende tests na herinstallatie van het platform gaven aan dat het niet verstandig was om hier onze dienstverlening op aan te bieden. De prestaties waren ver beneden ieder acceptabel niveau. Ondertussen liep de snelheid van de restore verder terug.

Ondertussen is er op een andere platform in het Verenigd Koninkrijk een tijdelijke server opgezet. Deze server is ingericht als e-mail server en op verzoek hebben wij hier verschillende accounts online gebracht. Het was helaas niet mogelijk om alle accounts hier op te starten en duurde het even voor veel van de e-mail hier weer op bereikbaar werd.

Nieuwe mogelijkheden

Dinsdagochtend is er vanuit onze leverancier in België nieuwe hardware verzonden naar ons datacenter in Amsterdam. Rond 2 uur was alle nieuwe hardware gereed voor een nieuwe poging. Ditmaal verliep de test voorspoedig en waren de prestaties van het platform weer op het oude niveau. Op dat moment is er besloten de restore naar het platform in Rotterdam stop te zetten en te starten met een nieuwe restore naar het oude platform in Amsterdam. Deze restore verliep voorspoedig. De snelheid lag op een acceptabel niveau en rond 6 uur in de avond kwamen de eerste diensten weer online. Na controle bleek de volledige dienstverlening hersteld te zijn.

De oorzaak, conclusies en de toekomst

De uiteindelijke oorzaak bleek te liggen in een defecte RAID-controller. Ons platform is uitgerust in RAID-10 en de controller is een kritiek onderdeel hier in. De defecte controller is vervangen.

Het is voor ons niet acceptabel dat het zolang heeft geduurd voor het volledige platform weer bereikbaar was. Wij kunnen concluderen dat er op verschillende niveaus fouten zijn gemaakt. Allereerst had de focus eerder op het online brengen van het oude platform moeten liggen. De restore naar dit platform verliep achteraf vele malen sneller. Er is gekozen voor een verkeerde restore methode op zondag avond en deze heeft teveel tijd gekost. Dit spijt ons ten zeerste en hier hadden wij eerder actie op moeten ondernemen.

Verder zijn wij niet tevreden over de snelheid van de restore en gaan wij verdere acties uitzetten om de snelheid van zowel backups als restores te verhogen. Ook de mate van redundantie is niet op een acceptabel niveau. Het platform gaat verder redundant uitgevoerd worden in de maand december waardoor hardware problemen als deze sneller ondervangen kunnen worden.

Nogmaals onze welgemeende excuses voor het ongemak wat deze storing voor uzelf, uw organisatie en uw medewerkers veroorzaakt heeft. Wij betreuren het ten zeerste en doen ons uiterste best problemen als deze in de toekomst te voorkomen.