Auch wir waren in der Nacht zum Sonntag Opfer der Schaltsekunde. Wer es noch nicht hier oder da oder anderswo nicht gelesen hat, darf nun erfahren, dass das Hinzufügen einer Sekunde zum Zeitvorrat einer Rechenmaschine zu richtig bösen Überraschungen führen kann. Pünktlich um 23:59:60 UTC (01:59:60 MESZ) stieg die CPU-Auslastung eines Teils unserer Server gigantisch an, einzelne Applikationen starben einen schleichenden Tod, und schon wenig später sendete unser Monitoringsystem eine SMS nach der anderen an unser Bereitschafts-Handy. Dummerweise war ich an diesem Wochenende derjenige, der es neben seinem Bett liegen hatte. Solche Einsätze sind immer belastend, aber die letzte Nacht war einfach nur doof. Vielleicht hätte mich sogar eines dieser harten Gewitter des Wochenendes glücklicher gemacht.
Es dauerte ziemlich lange, bis ich realisierte, dass die Zeit gestolpert war, und irgendwann begann ich verzweifelt, alle betroffenen etwa 15 Server durchzustarten (glücklicherweise waren die etwa 25 anderen nicht ganz so betroffen). Dummerweise brauchten auch sehr viele Applikationen nach dem Serverneustart manuelle Therapie – so ein Server ist schließlich keine Daddelbox von zu Hause. Gegen sechs Uhr MESZ mußte ich Micha, den Chef von Platform Operations, wecken, um mir noch den einen oder anderen Wiederbelebungstipp abzuholen. Kurz vor neun Uhr MESZ lief alles wieder halbwegs, bis heute nachmittag um drei waren dann die wichtigsten anderen Dinge geheilt. 12 Stunden Sonderschicht für eine Sekunde – keine schlechte Ausbeute.
Nun weißt Du, warum Du Dein heißbegehrtes Shirt heute nacht nicht ordern konntest. Du kannst es jetzt nachholen.
Gn8

Ach, DER Marktplatz. Ich war schon wieder im Real Life. xD
Das mit dem Marktplatz ist mir nicht ganz klar, aber ich werde wohl morgen mal den T-Shirt-Generator anwerfen müssen. Hab’ ja immerhin noch einen 5€-Gutschein. 😉
Ah ja, Wolfsrootel wohnt doch in Leipzig, da weiß er doch, wo er das T-Shirt herbekommt. Oder sollen wir das für ihn auf den Marktplatz stellen? 😉
Hab’s gerade selber gemerkt. 😀
Inhalt war folgender: Does anyone print a T-shirt “I run Linux servers and I survived the 2012 leap second”?
Ähem, sollte ich Deinen Link löschen? Der ist nicht öffentlich.
“@wolfsrudel’s Account ist geschützt.”
https://www.twitter.com/bortzmeyer/status/219481604421201920 <<< Würde ich kaufen! 😉
slashdot hatte wohl “vorgewarnt”, nur zu spät. Waren auf jeden Fall mit Netways zusammen die ersten. Sei’s dum,
Jep, Java. Weil es Skripte betrifft, die eine Ausführungszeit von <=1s haben. Sicherlich gibt es einige Wege; bei mir die Kombo ntp- und Java-Neustart erfolgreich.
Bei einer Bereitschaft muss man sich halt auf wenig Schlaf einstellen. 😉 Ich bin im Börsengeschäft, da hat man stets 24/7.
Einen Patch gab es nach dem letzten Auftreten 2008 schon, nur wurde de nie in den Releasezweig commitet. 🙁
Tobias,
hinterher ist man immer schlauer. Noch um fünf Uhr morgens unserer Zeit, also drei Stunden nach Auftreten des Problems gab es noch recht wenige Erfahrungsberichte im Netz. Das war alles noch sehr vage. Außerdem waren bei uns nur die Systeme betroffen, die Java-Services betreiben. Alle anderen Linux-Server liefen (und laufen immer noch) ohne erkennbare Probleme weiter. Ein Restart der Java Services hatte überhaupt nichts gebracht – deshalb hatte ich ja auf den Reboot gesetzt. Ob ein simpler NTP-Restart hier geholfen hätte – kann sein (siehe http://blog.wpkg.org/2012/07/01/java-leap-second-bug-30-june-1-july-2012-fix/), muß nicht sein. Und wer nur zwei Stunden geschlafen hat, hat ohnehin den Kopf nicht frei für tiefere Recherche.
P.S.:
Eine kleines “One day later” gibt’s auf http://arstechnica.com/business/2012/07/one-day-later-the-leap-second-v-the-internet-scorecard/
http://www.golem.de/news/zeitsprung-wie-die-schaltsekunde-chaos-im-internet-verursachte-1207-92890.html
“Mit teils massiven Ausfällen hat die Schaltsekunde in der Nacht zum 1. Juli 2012 unter anderem dem Linux-Kernel, MySQL und Java-basierten Anwendungen Probleme bereitet.”
…
“Update vom 2. Juli 2012, 13:45
Die Ursache der Ausfälle liegt offensichtlich in einem Fehler im Linux. Zumindest arbeitet der Entwickler John Stultz an einem Patch.”
Hi,
ich hatte bei uns auch Bereitschaft, aber es hatte zum Glück nur Testsysteme erwischt. Warum eigentlich einen Serverneustart? Generell musste man ja nur “ntp” neu kalibrieren und den lastziehenden Dienst neustarten. 🙂
Du Armer – aber ich hab n bisschen mit dir gelitten, weil ich ausgerechnet in dieser Nacht ein paar Motive hochladen wollte und nix funzte. Wow, wie mir eine dumme Sekunde meine Stoppelhaare zu Bergen stehen lassen kann.
Gruß aus Berlin