Fehlerhaft konfigurierter Code verursachte Ausfall von Azure am 18. November

Table Of Contents

Microsoft sagt, dass der Ausfall von Azure am 18. November auf fehlerhaft konfigurierten Code zurückzuführen ist
Übersteuerungsprotokoll
Die Erklärung

Microsoft sagt, dass der Ausfall von Azure am 18. November auf fehlerhaft konfigurierten Code zurückzuführen ist

Microsoft Azure, die Cloud-Plattform für Unternehmen, hatte am 18. November einen erheblichen Ausfall, der viele Benutzer in Schwierigkeiten brachte. In einer Erklärung behauptete Microsoft, dass der Ausfall durch die Implementierung von fehlerhaftem Code durch seine Entwickler verursacht wurde.

Übersteuerungsprotokoll

Es scheint, dass Microsoft-Entwickler daran arbeiteten, einen Fehler in ihrer Software zu beheben. Die Lösung für das Problem, das anscheinend den massiven Ausfall der Azure-Cloud-Dienste verursachte. Microsoft sagte, dass sie das Update getestet hatten, bevor sie es ausrollten. Aber es ist nicht immer möglich, das Ergebnis eines Software-Updates auf einer so großen Plattform unter kontrollierten Testbedingungen genau vorherzusagen. Daher folgt Microsoft einer Richtlinie, jedes neue Update abschnittsweise bereitzustellen, etwas, das sie flighting nennen, also die Bereitstellung zu begrenzen. Diesmal jedoch, wahrscheinlich aufgrund von Übermotivation, haben die Entwickler das gesamte Update-Paket auf einmal bereitgestellt, was einen Kaskadeneffekt auf allen Servern verursachte. In einer Erklärung, die im Azure-Blog veröffentlicht wurde, bemerkte Jazon Zander, CVP, Azure-Team,

Als Folge sank die Verbindungsrate zu Azure am 18. November nach 19 Uhr Eastern in Nord-Virginia von 97 % auf 7 % - 8 %. Das Azure-Rechenzentrum in Dallas hatte für kurze Zeit einen vollständigen Ausfall. Die Rechenzentren in Europa erholten sich erst tief in den folgenden Tag.

Er fügte weiter hinzu, dass, obwohl sie eine Standardbereitstellungspolitik für Updates/Patches von Fehlern haben, es offensichtliche Missverständnisse gab. „Die Standard-Flighting-Bereitstellungspolitik, die Änderungen schrittweise über kleine Abschnitte bereitstellt, wurde nicht befolgt“, schrieb Zander. Zander sagte, dass ihr Team das Hauptproblem identifiziert hatte, das ein Konfigurationsproblem in den Azure Table Storage-Frontends war. „Der Konfigurationsschalter war fälschlicherweise für die Azure Blob Storage-Frontends aktiviert“, schrieb Zander.

Table Storage-Frontends zeichnen die Sequenz der verschiedenen Datentypen auf, die in einen Blob (einen Dienst zum Speichern großer Mengen unstrukturierter Daten) eingehen, und können verwendet werden, um den Abruf der Daten zu steuern. Der Fehler im Konfigurationsschalter scheint eine unendliche Schleife verursacht zu haben, die letztendlich zum Ausfall des Azure-Cloud-Dienstes führte.

Die Erklärung

Das ursprüngliche Update sollte einige Fehler beheben, die vom Azure-Team entdeckt wurden, und die Leistung der Cloud-Plattform verbessern. Das Update bewährte sich in jedem Test in der Alpha-Testphase. Die erfolgreichen Ergebnisse der Alpha-Tests haben die Entwickler wahrscheinlich so begeistert, dass sie die Flighting-Methode der Bereitstellung vernachlässigten und das Update auf einmal implementierten. Das Ergebnis, wie am 18. November zu sehen war, war ein vollständiger Ausfall, der den Benutzern Probleme bereitete. Als Reaktion darauf haben die Azure-Administratoren nun eine automatisierte Update-Praxis implementiert, die ein solches Ereignis nicht mehr zulassen wird.

In vielleicht dem klarsten Ergebnis des Vorfalls schrieb Zander: „Microsoft Azure hatte klare Betriebsrichtlinien, aber es gab eine Lücke in den Bereitstellungstools, die auf menschlichen Entscheidungen beruhte … Mit den Tool-Updates wird die Richtlinie jetzt von der Bereitstellungsplattform selbst durchgesetzt.“

Zander erkannte an, dass Cloud-Operationen zuverlässiger werden müssen, und sagte, Microsoft werde weiterhin an diesem Ziel arbeiten. „Wir entschuldigen uns aufrichtig und erkennen die erheblichen Auswirkungen an, die diese Dienstunterbrechung auf Ihre Anwendungen und Dienste gehabt haben könnte“, schrieb er.

Zander mag sich aufrichtig für die Übermotivation seines Entwicklerteams entschuldigt haben, aber die Tatsache bleibt, dass Microsoft Patches und Updates hastig ohne notwendige Tests herausgibt. Dieses Problem hat bereits dazu geführt, dass Microsoft fehlerhafte Patches/Updates veröffentlicht hat, die BSOD verursachen, in seinen Patch-Dienstag-Updates zweimal, einmal im Oktober mit KB 2949927 und im Dezember mit KB 3004394, nur um sie später wieder zu entfernen. Benutzer hoffen, dass Microsoft ein SOP herausbringt, um nur solche Updates/Patches herauszugeben, die in einer Echtzeit-Arbeitsumgebung verifiziert wurden.

Fehlerhaft konfigurierter Code verursachte Ausfall von Azure am 18. November – Microsoft

Microsoft sagt, dass der Ausfall von Azure am 18. November auf fehlerhaft konfigurierten Code zurückzuführen ist

Übersteuerungsprotokoll

Die Erklärung

Erhalte neue Beiträge in deinem Posteingang.