1. Home
  2. Updates & Wartung
  3. Aktuelle Wartungen
  4. Technische Informationen zum Ausfall vom 05.12.17

Technische Informationen zum Ausfall vom 05.12.17

Am gestrigen Dienstag (5.12.2017) kam es im Zuge von geplanten Wartungsarbeiten im Zeitraum zwischen  6 Uhr und 12 Uhr zu einer größeren Störung auf einigen unserer Cloudplattformen. In diesem Zuge waren zahlreiche Managed Server zeitweise nicht verfügbar.

Was war der technische Hintergrund?
Im Rahmen der angekündigten Wartungsmaßnahmen (https://www.profihost.com/wissen/artikel/systempflege-vom-04-12-2017/) wurde zudem ein wichtiger Sicherheitspatch
(siehe https://www.heise.de/security/meldung/Huge-Dirty-Cow-Linux-Patch-erneut-gepatcht-3907538.html bzw. https://cve.mitre.org/cgi-bin/cvename.cgi?name=CVE-2017-1000405) mit eingespielt. Diese Maßnahme wurde aus Sicherheitsgründen nicht explizit angekündigt.
Entsprechende Sicherheitspatche durchlaufen im Vorfeld bei uns immer eine Prüfung auf Funktion und Stabilität.

Zur Durchführung dieser wichtigen Maßnahmen setzen wir seit längerer Zeit ein sogenanntes Kernel-Livepatching (https://de.wikipedia.org/wiki/Kernel_Live_Patching) ein, d.h. die Einspielung solcher Kernelupdates im direkten Livebetrieb und ohne Neustarts der Systeme. Dieses Vorgehen wurde bereits über 14.000 Mal erfolgreich in unserer Serverlandschaft durchgeführt. Bei der gestrigen Maßnahme kam es unerwartet bei einigen Serversystemen zu einem "Kernelcrash" (schwerer Softwarefehler), welcher dann zu einer längeren Nichtverfügbarkeit führte. Die betroffenen Systeme mussten händisch repariert werden. Der Kernelcrash
führte ebenso zu einem "hängen" der Updates, die nicht vollständig durchgeführt worden waren. Dies war sodann auch der Grund für den zweiten Ausfall, weil die betroffenen Systeme die korrekten Installationen erhalten mussten, um damit dann stabil im Dauerbetrieb laufen zu können.

Wie ist der Ausblick für die Zukunft?
Konkret stehen wir mit den Entwicklern des Kernel-Livepatchings in Kontakt, um den festgestellten Kernelcrash dort grundsätzlich beheben zu lassen und das Projekt damit zu verbessern.

Auf unserer Seite dienen die gewonnenen Erkenntnisse aus dem obigen Vorgang für die Weiterentwicklung unserer zukünftigen Plattformupdates. Hierbei ist immer das klare Ziel, eine hohe Sicherheit, bei großer Stabilität und wenigen Ausfällen zu erzielen.

Aktualisiert am 14. Februar 2018

War dieser Artikel hilfreich?

Ähnliche Artikel