Das waren die Gründe für den Ausfall von Microsofts Cloud Services

Wegen eines latenten Code-Defekts wurde ein Update direkt in die produktive Umgebung eingespielt. Microsoft nennt Details zur Störung vom 29. September.

Foto: Barn Images / Unsplash

In der Nacht auf den 29. September hat Microsoft ein Update in seine Azure Active Directory eingespielt. In der Folge kam es zu weltweiten Ausfällen von Cloud-Diensten. Wie das Unternehmen nun in einer Analyse festhält, hätte eine solche Änderung vorerst ausserhalb der produktiven Umgebung – weit ab von den Kunden – getestet werden sollen. Stattdessen sei das Service-Update aufgrund eines Fehlers direkt über alle Bereiche ausgerollt worden. Dies hält Microsoft in einem Beitrag auf seiner Website zur Azure Status History fest.

"Ein latenter Code-Defekt im SDP-System (Safe Deployment Process) des Azure AD-Backend-Dienstes führte dazu, dass dieses direkt in unserer Produktionsumgebung eingesetzt wurde, wodurch unser normaler Validierungsprozess umgangen wurde", heisst es dort. Azure Active Directory ist Microsofts cloud-basierter Identity und Access Management Service. In Folge des Problems hatten Nutzer von Microsoft 365 wie auch einige Azure-Kunden mehrere Stunden mit Störungen zu kämpfen.

Um das Problem zu beheben, wollten die Microsoft-Verantwortlichen ein automatisches Rollback initiieren. Dieses sei aber aufgrund beschädigter Metadaten nicht möglich gewesen, was ebenfalls auf den latenten Defekt zurückzuführen gewesen sein. Daraufhin habe man das Problem händisch lösen müssen. Dies habe rund 5 Stunden in Anspruch genommen, teilt Microsoft mit.

Wer bereits in seinen Diensten angemeldet gewesen sei, könne vom Problem verschont geblieben sein, da es sich um eine Störung im Access-System gehandelt habe. Auch seien vor allem australische und US-amerikanische Kunden in Mitleidenschaft gezogen worden. In Asien und Europa sei das Problem weniger aufgetreten. Die Dienste seien in Europa auch während der Störung zu 81% erreichbar gewesen, heisst es im Bericht von Microsoft.

Der latente Defekt, der das Unglück ausgelöst habe, sei mittlerweile behoben, so Microsoft. Zudem sei das existierende Rollback-System repariert worden und man würde auch häufiger Rollback-Operationen zu Testzwecken durchführen. Weiter Schutzvorkehrungen, um diese Art von Fehlern künftig zu verhindern, würden nun in Angriff genommen.

Quello Inside-it.ch