Spectre en Meltdown, het nieuwe jaar begint met een uitdaging!

Je hebt er vast al over gehoord, de twee enorme bugs die nagenoeg elke CPU kwetsbaar maken: Spectre en Meltdown. Dit heeft ook invloed op Antagonist gehad. Geen zorgen, onze servers zijn inmiddels geüpdatet en veilig. Daar is dit weekend hard aan gewerkt. We geven je daarom graag een toelichting, zodat je weet waar jij bij ons aan toe bent.

Spectre en Meltdown, het nieuwe jaar begint met een uitdaging!

Verder lezen

Van fanatieke hobbyist naar een baan als systeembeheerder!

Het kan soms snel gaan. Op het ene moment haalde ik oude servers op voor een eigen hobbyproject en niet heel veel later had ik een baan als systeembeheerder. Graag vertel ik je over mijn eerste twee maanden bij Antagonist. Want hoe ben ik hier nou precies terechtgekomen, met welke projecten houd ik me mee bezig en wat gebeurt er intern allemaal binnen Antagonist?

Van hobbyproject naar een baan als systeembeheerder!

Systeembeheerder: hoe het voor mij begon

Het is ongeveer een jaar geleden dat ik voor het eerst bij Antagonist langskwam. Via via had ik gehoord dat er nog wat oude servers lagen waar ze wel vanaf wilden. Als fanatieke hobbyist had ik daar natuurlijk wel interesse in. Bij het ophalen heb ik een uur enthousiast zitten praten met Erik Jan; over het platform, het netwerk en diverse andere projecten. Daarna ging ik voldaan met de nieuwe aanwinsten naar huis.

Een aantal maanden later ging ik op zoek naar werk. En doordat ik er onlangs die servers had opgehaald, was Antagonist het eerste bedrijf waar ik aan dacht. Dat ik geen werkervaring had en alleen wat praktische ervaring door een uit de hand gelopen hobby was geen probleem. Na het eerste gesprek bleek de klik er van beide kanten te zijn en niet veel later tekende ik het contract om als systeembeheerder aan de slag te gaan.

Verder lezen

Terugblik: de verbeteringen in 2016 vanuit de ogen van Systeembeheer!

Een Antagonist is kritisch. We zijn daarom altijd bezig met dingen die we nog beter, nog sneller, nog veiliger en nog aantrekkelijker willen maken. Het is daarbij gemakkelijk om te vergeten wat er al verbeterd is en op welke punten we voorop lopen qua innovatie. Tijd voor een terugblik!

Terugblik: de verbeteringen in 2016 vanuit de ogen van Systeembeheer!

Natuurlijk heeft mijn collega Jeroen al grotendeels teruggeblikt op de zichtbare wijzigingen van 2016. Daar houdt het voor ons SysOps-team echter niet op! Via dit artikel wil ik daarom graag samen met jou terugblikken op wat we vanuit het oogpunt van Systeembeheer in het afgelopen jaar hebben gedaan.

Laten we beginnen met de fundering. We hadden begin 2016 natuurlijk al de beschikking over ons nieuwe hostingplatform, een fijne basis om vanuit verder te bouwen. Dit platform is dusdanig opgezet, zodat het ons mogelijk maakt leuke dingen toe te voegen. Wat is er dan zoal gebeurd?

Verder lezen

Hoe wij ons platform en infrastructuur nauwkeurig monitoren

Het is weer hardcore tech-time! Dit keer neem ik je mee in de monitoring van onze systemen en ons platform. Doordat we alles nauwlettend in de gaten houden, weten we precies wat er wel en wat er niet goed gaat in ieder onderdeel van ons platform. We hebben onze monitoring zorgvuldig afgericht, waardoor we problemen vrijwel altijd van tevoren zien aankomen. We ondernemen dan proactief actie, zodat de impact van het probleem minimaal blijft en niet escaleert.

Monitoring bij Antagonist: de servers bij Antagonist

De kwaliteit van onze dienstverlening is immers zo goed als onze monitoring; hoe beter we anticiperen, hoe gebruiksvriendelijker het voor je wordt! Dat betekent dat er heel veel achter de schermen wordt gedaan zonder dat iemand het in de gaten heeft. Want wat er onder de ‘motorkap’ gebeurt is onze verantwoording, zodat jij met je website kunt doen wat je écht wilt. Toch is het af en toe interessant om even onder die motorkap te kijken naar wat voor successen er worden geboekt. Iets dat wijzelf ook weleens vergeten om bij stil te staan.

Onze setup voor monitoring

Voor onze monitoring maken we gebruik van Zabbix. Deze (opensource)software stelt ons in staat om ieder onderdeel van ons platform tot in detail te observeren. Als dingen niet zo gaan zoals het hoort, dan kunnen we eenvoudig hier acties op uit te voeren. Een simpel voorbeeld van één van deze acties is: het versturen van een bericht naar de dienstdoende systeembeheerder zijn.

Monitoring bij Antagonist: logo Zabbix

Iedere server wordt constant op 458 punten gecontroleerd. De uitkomst van deze checks wordt opgeslagen in een PostgreSQL-database, zodat we er later uptime- en performance-statistieken kunnen uithalen voor rapportage. Ook gebruiken we deze gegevens voor het generen van rapportages voor storingen. Samen – alle servers bij elkaar opgeteld – zorgt dat ervoor, dat onze Zabbix-installatie 897 punten per seconde controleert en opslaat. Hoe veilig wil je het hebben?

Dikke server

Zoals je begrijpt, hebben we een flinke server nodig om al die controles per seconde uit te voeren en hiervan de resultaten op te slaan. Daarnaast moet het ook nog eens gemakkelijk verwerkt kunnen worden. Voor de techneuten (of andere geïnteresseerden) zijn dit de specificaties van deze server: 2 x Intel E5-2640 2.5GHz CPU (totaal 24 threads), 64 GB RAM, 15k RPM disks in RAID10 configuratie.

Om je een beter inzicht te geven in hoe diep wij ons platform monitoren, ga ik ieder onderdeel hieronder afzonderlijk bespreken.

Verder lezen

Een pikdonker en doodstil datacenter…

Afgelopen dinsdag, 23 juni 2015, gebeurde rond 8:30 uur het ergste wat een hostingprovider kan overkomen: er was een volledige black-out in één van de datacenters, waarin wij het merendeel van onze servers hebben geplaatst. Het gevolg: alle apparatuur down en tienduizenden klanten onbereikbaar. Een fantastisch begin van de dag. Het kan nóg erger: totale verwoesting van het datacenter in kwestie, maar dat was gelukkig niet aan de orde. Wat dan wel? Nou, een stroomstoring…

Stroomuitval in het dataceter: pikdonker en doodstil

Ik hoor het je denken: “Hè, wat?! Dat kan toch niet? Alles in zo’n datacenter is beveiligd, dubbel uitgevoerd, heeft noodaggregaten en zo?” Inderdaad, dat is er allemaal en in veel gevallen zelfs vierdubbel uitgevoerd. In theorie kan stroomuitval dus niet voorkomen. Echter, door de meest ongelukkige samenloop van omstandigheden gebeurde het toch. Een goed voorbeeld van hoe theorie en praktijk soms ver uit elkaar liggen.

Naast dat het voor iedereen zeer vervelend is, was het voor ons ook een ultieme proef of we spoedig konden herstellen van zo’n grote storing. Daarnaast was het de vuurdoop voor ons nieuwe platform, waarin duidelijk werd of het in de praktijk deed wat het moest doen. Omdat jij ook recht hebt op deze informatie, hebben we hieronder een gedetailleerd verslag geschreven.

Inhoudsopgave

  1. Antagonist zegt sorry!
  2. Klein team, veel klanten
  3. Prioriteit tijdens calamiteit
  4. Hoe kan dat dan, geen stroom?
  5. De gevolgen voor Antagonist
  6. Opstarten na stroomuitval
  7. Nazorg, totdat alles weer in orde is
  8. Wat is de schade?
  9. Communicatie
  10. Hoe gaan we dit voorkomen?
  11. One more thing…

Antagonist zegt sorry!

Maar eerst zeggen we: “Sorry!” Een storing is altijd hinderlijk. Helemaal als klanten er de dupe van worden. Door de stroomstoring in het datacenter heeft ons gehele platform er even uit gelegen. Al onze klanten hebben daardoor downtime ondervonden. Daarnaast hebben enkele klanten langer last gehad vanwege herstelwerkzaamheden.

Het ‘uitvallen’ van de stroom heeft dus een behoorlijke impact. Dat vinden we erg vervelend en daarom bieden we onze excuses aan. Dat is tevens één van de redenen voor dit blog. Daarnaast willen we je een eerlijk en helder inzicht geven in wat er precies is gebeurd.

Tijdens de storing hebben we regelmatig updates geplaatst. Het waren vooral beknopte berichten over de voortgang van de situatie en het herstel. Daarnaast hebben we twee ‘post incident’-berichten geschreven. Deze gaven inzicht in de toedracht. De werkelijke gevolgen zijn voor een buitenstaander wellicht lastig voor te stellen. Vandaar dat we je graag een kijkje in de keuken geven, hoe het er dinsdag aan toe ging.

Klein team, veel klanten

Antagonist heeft tienduizenden klanten en 12 medewerkers. Zodoende moet je tijdens een grote storing, als een geoliede machine te werk gaan. Alles moet vanzelfsprekend zijn, want tijd is er niet. Met een klein en hecht team moet je handelen vanuit instincten. Juist daarom vinden we het zo belangrijk dat een medewerker goed moet passen binnen ons team. Naast de juiste kennis en vaardigheden zoeken we dus naar de perfecte match.

Als het misgaat, dan is het heel simpel. Er zijn drie dingen die er toe doen. Eén: onze klanten moeten zo snel mogelijk weer online. Twee: voorkom zoveel mogelijk schade en dataverlies. Drie: zorg voor een vlotte en oprechte communicatie, waarin vragen van klanten zorgvuldig worden beantwoord.

Qua prioriteit ligt het ietsje ingewikkelder. De hoogste prioriteit is bij Antagonist altijd data-integriteit. Dat betekent dat we het voorkomen van dataverlies belangrijker vinden dan beschikbaarheid. Je hebt immers niets aan een website zonder data. Gelukkig hoeven we ons daar weinig zorgen over te maken. Gegevens worden veilig opgeslagen. De kans op dataverlies is daardoor zeer gering. Zodoende storten we ons, tijdens een storing, vrijwel direct op de beschikbaarheid.

Prioriteit tijdens calamiteit

Goed, het is dinsdagochtend en we zien dat er heel veel loos gaat. De oorzaak weten we niet. Er was weliswaar een sterk vermoeden dat het om een (deels) falende stroomtoevoer gaat, maar dat kunnen we niet bevestigen. Dat is erg naar. Want hoe kun je iets oplossen, als je het probleem niet kent?

Verder lezen