Nichterreichbarkeit der letzten 30h

Neue Frage »

Thomas Auf diesen Beitrag antworten »
Nichterreichbarkeit der letzten 30h
Gestern Nachmittag ist auf dem Server ein fataler Festplattencrash aufgetreten. Eine fehlerhafte Konfiguration führte außerdem dazu, dass sich die Festplatte nicht einfach austauschen ließ. Wenige Minuten nach dem Crash wurden bereits erste Maßnahmen eingeleitet, die sich mit Datensicherung, Hardware-Tausch und Datenrettung leider nicht in den gewohnten kurzen Ausfallzeiten abschließen ließen.

Nach ca. 30h ununterbrochener Arbeit an dem Server sieht es jetzt aber wieder so aus, als ob wir ohne Datenverlust wieder alle Boards online haben (bei einem Restore aus den Backups hätten wir einen halben Tag an Daten verloren). Bei Fehlern oder Ungereimtheiten bitte eine PN schreiben. Freude

In diesem Sinne: schönes Wochenende! Wink
Equester Auf diesen Beitrag antworten »

Danke für euren Einsatz smile .


Wink
Airblader Auf diesen Beitrag antworten »

Muss ja heftig gewesen sein, wenn es solange dauert. Respekt und Danke für den Einsatz, das matheboard schnell wieder zum Laufen zu bekommen! Freude
jama Auf diesen Beitrag antworten »

Genau genommen hat Thomas daran allein gearbeitet, um die Boards wieder zum Laufen zu bringen - ununterbrochen und durch die Nacht hinweg. 30h am Stück nach einem ohnehin 8h Arbeitstag.

Herzlichen Dank, Thomas! Sogar ohne Datenverlust! Gott Gute Nacht und schönes Wochenende Augenzwinkern
Bjoern1982 Auf diesen Beitrag antworten »

Das nenne ich wirklich Disziplin und Ausdauer, auf den Mann ist Verlass. Freude

Dann schlaf dich erstmal richtig aus nach diesem Marathon. Schläfer
carm561 Auf diesen Beitrag antworten »

Verschärftes Lob Freude und vielen Dank für die viele Mühe! smile Das verdient eine Gedenkminute beim nächsten Adminday.
 
 
Iorek Auf diesen Beitrag antworten »

Auch hier nochmal ein großes Dankeschön für deinen Einsatz. Freude

Gute Nacht, du wirst ja wahrscheinlich erst Montags wieder ansprechbar sein. Augenzwinkern
sulo Auf diesen Beitrag antworten »

Vielen Dank, Thomas, für deinen Einsatz. Blumen
kgV Auf diesen Beitrag antworten »

Vielen Dank, dass, dank deinem Einsatz alles so wunderbar geklappt hat
LyriaEL Auf diesen Beitrag antworten »

Vielen vielen herzlichen Dank <3
mYthos Auf diesen Beitrag antworten »

@Thomas
Hut ab, vor deinem Spitzenengagement!
____________

Bei dieser Gelegenheit muss man aber doch hinterfragen, weshalb es zu einem derart langen, in der IT- bzw. Technik-Welt eigentlich beispiellosen und nicht mehr zu tolerierenden Ausfall kommen konnte.
Ohne Eskalation, sprich Krisenbesprechung - sei es beim Provider oder im eigenen Bereich - und ohne flankierende Maßnahmen, die eine Wiederholung dieses Desasters künftig verhindern, wird wohl nicht zur Tagesordnung überzugehen sein.

Hoffentlich werden einige Verantwortliche die entsprechenden Lehren aus diesem Vorfall ziehen.

mY+
Cel Auf diesen Beitrag antworten »

Langer Ausfall ... Gut, dass das Matheboard wieder da ist, großes Lob an dich, Thomas! Freude
Airblader Auf diesen Beitrag antworten »

@ mY+

Dass es bei Branchenriesen wie facebook und Google nicht zu solch heftigen Ausfällen kommt ist Wunschdenken -- allerdings setzen die auf eine enorme Skalierung, so dass selbst der Ausfall mehrerer Server beim User nicht oder kaum spürbar wird.

air
Thomas Auf diesen Beitrag antworten »

@mY+: Keine Sorge, entsprechende Maßnahmen zur redundanten Auslegung wurden bereits Zuge der Wiederherstellung getroffen und werden durch erweiterte Überwachungsmaßnahmen ergänzt.

Im Jahresmittel liegen wir grob überschlagen immer noch bei > 99,5% Erreichbarkeit.
mYthos Auf diesen Beitrag antworten »

Die 99,5% sind schön, aber eben nur der Mittelwert. Dass damit ein Ausfall von so langer Dauer nicht zu rechtfertigen ist, wird sicher jedem der Beteiligten schon klar sein. Ausfälle können immer wieder passieren, wenn die Redundanzen nicht sofort greifen, das ist noch nicht einmal eine große Tragik. Vielmehr muss das Augenmerk auf die schnelle(re) Wiederherstellbarkeit gerichtet sein.
Ich kenne zwar eure Netzstruktur nicht, weiss aber aus meinem ehemaligen Arbeitsgebiet sicher, dass sich ein Provider eine Nichterreichbarkeit von 30 Stunden an einem Stück in heutigen Zeiten kaum noch ohne Folgen leisten kann. Wenn so ein worst case doch einmal passiert, müssen daraus umgehend die entprechenden Maßnahmen gesetzt werden.

Wie du sagst, ist dies auch hier bereits geschehen und wird sicher auch beim Adminday diskutiert werden, und so bleibt zu hoffen, dass dir nicht nochmals so ein Arbeitsmarathon widerfahren wird, wie diesmal.
Und nochmals danke für deinen unermüdlchen Einsatz, der letztendlich Erfolg gezeigt hat!

Grüße v.
mYthos+
Gast11022013 Auf diesen Beitrag antworten »

Irgendwie kommt es bei mir gerade dazu, dass sich das Matheboard für kurze Zeitabstände nicht finden lässt.

Geht es nur mir so?

Edit: Hat sich glaubig wieder erledigt.
helpen Auf diesen Beitrag antworten »

Etwas Pech ist schon dabei aber spitze Leistung auf jeden Fall smile
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »