Vergangenen Freitag führte ein fehlerhaftes Update von CrowdStrike zu massiven globalen IT-Ausfällen. Die Folgen waren erheblich und betrafen zahlreiche Branchen und kritische Infrastrukturen weltweit. Nach Angaben von Microsoft waren etwa 8,5 Millionen Windows-Geräte betroffen.

Ein Update der CrowdStrike-Sicherheitssoftware Falcon verursachte auf Windows-Systemen einen kritischen Speicherfehler, der zum berüchtigten „Blue Screen of Death“ (BSOD) führte. Dieser Fehler versetzte die betroffenen Systeme in eine Endlosschleife von Abstürzen und Neustarts.

crowdstrike.jpeg

Das fehlerhafte Update führte zu weltweiten IT-Ausfällen, die von verschiedenen Branchen schwer zu spüren waren. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) stufte den Vorfall in die Bedrohungsstufe 3 / Orange ein.

Der Vorfall führte zu erheblichen Störungen im Luftverkehr. Fluggesellschaften wie Eurowings, American Airlines, United Airlines und Delta mussten zahlreiche Flüge stornieren oder verschieben. Flughäfen wie Zürich, Gatwick und Prag erlebten ebenfalls Störungen und Verspätungen.

Banken weltweit, darunter die Deutsche Bank, Sparkassen und Volks- und Raiffeisenbanken, waren stark betroffen. Kunden berichteten von Schwierigkeiten beim Zugang zu Geldautomaten, Online-Banking und bei Zahlungen über Visa und Paypal.

Auch Krankenhäuser und Gesundheitseinrichtungen meldeten Betriebsstörungen. Am Universitätsklinikum Schleswig-Holstein (UKSH) mussten nicht-kritische Eingriffe abgesagt und Ambulanzen geschlossen werden. Trotz der IT-Probleme konnte die Notfallversorgung aufrechterhalten werden.

Neben den genannten Sektoren waren auch Medienunternehmen und diverse andere Geschäftszweige betroffen. Die IT-Ausfälle führten zu Betriebsunterbrechungen, die die tägliche Arbeit und den Kundenservice beeinträchtigten. Viele Unternehmen, die auf Cloud-Dienste und IT-Infrastrukturen angewiesen sind, mussten den Betrieb aufgrund der Störungen unterbrechen.

Das von CrowdStrike verteilte Update des Falcon-Sensors enthielt eine fehlerhafte Treiberdatei namens „C-00000291.sys“, die in das Windows-Betriebssystem greift und einen kritischen Speicherfehler verursachte. Dieser Fehler führte dazu, dass Windows während des Bootvorgangs abstürzte und ein Blue Screen of Death (BSOD) angezeigt wurde. Da der fehlerhafte Treiber nach jedem Neustart weiterhin vorhanden war, gerieten die betroffenen Systeme in eine Endlosschleife von Abstürzen und Neustarts.

Um das Problem zu beheben, müssen IT-Administratoren betroffene Systeme zunächst im abgesicherten Modus oder in der Windows-Wiederherstellungsumgebung starten. Dort müssen sie zum Verzeichnis C:\Windows\System32\drivers\CrowdStrike navigieren und die Datei „C-00000291*.sys“ löschen. Nach einem Neustart sollte das Problem behoben sein. Diese Methode ist jedoch bei einer großen Anzahl betroffener Systeme nicht praktikabel.

Microsoft hat ein spezielles Wiederherstellungstool veröffentlicht, das IT-Administratoren dabei helfen soll, die betroffenen Systeme zu reparieren. Dieses Tool kann von einem USB-Stick gestartet werden und automatisiert den Löschvorgang der problematischen Treiberdatei. Es bietet zwei Optionen:

Recover from WinPE: Diese Option stellt Systeme schnell und direkt wieder her, indem sie über USB in die Windows PE-Umgebung bootet, auf die Festplatte des betroffenen Rechners zugreift und die problematische CrowdStrike-Datei automatisch löscht. Diese Methode erfordert keine lokalen Admin-Rechte. Bei verschlüsselten Laufwerken muss der BitLocker-Wiederherstellungsschlüssel manuell eingegeben werden.

Recover from safe mode: Diese Option ermöglicht die Wiederherstellung auf BitLocker-aktivierten Geräten, ohne dass die Eingabe von BitLocker-Wiederherstellungsschlüsseln erforderlich ist. Der Administrator benötigt jedoch Zugriff auf ein Konto mit lokalen Administratorrechten.

Für eine großflächige Bereitstellung in Unternehmensnetzwerken empfiehlt Microsoft die Einrichtung eines PXE-Boot-Servers, um die reparierten Images über das Netzwerk zu verteilen und alle betroffenen Systeme zu patchen.

Öffnen Sie die Azure AZ CLI (min. Version: Powershell 5.1+) und tätigen Sie folgende Schritte:

1. az vm repair create -g RGNAME -n BROKENVMNAME --verbose 
// für verschlüsselte VM 's:
az vm repair create -g RGNAME -n BROKENVMNAME --unlock-encrypted-vm --verbose

2. az vm repair run -g RGNAME -n BROKENVMNAME --run-id win-crowdstrike-fix-bootloop --run-on-repair --verbose 

3. az vm repair restore -g RGNAME -n BROKENVMNAME --verbose 

Die Ereignisse rund um den CrowdStrike-Ausfall verdeutlichen die Notwendigkeit robuster Prozesse und Technologien, um ähnliche Vorfälle in Zukunft zu verhindern. Hier sind einige Best Practices und Strategien, die Unternehmen implementieren können, um solche Szenarien zu vermeiden:

Testumgebungen: Implementieren Sie umfangreiche Testumgebungen, die reale Produktionssysteme simulieren. Dies ermöglicht die Identifizierung potenzieller Probleme vor der Bereitstellung eines Updates.

Staging-Umgebungen: Nutzen Sie Staging-Umgebungen, um Updates in einer kontrollierten Umgebung zu testen, bevor sie in die Produktion gehen.

Automatisierte Tests: Automatisieren Sie Testprozesse, um konsistente und umfassende Tests sicherzustellen, die alle Aspekte des Systems abdecken.

Phasenweise Einführung: Rollen Sie Updates schrittweise aus, beginnend mit einer kleinen Gruppe von Geräten, bevor Sie auf eine größere Benutzerbasis erweitern. Dies reduziert das Risiko, dass ein fehlerhaftes Update große Teile der Infrastruktur beeinträchtigt.

Pilotgruppen:Nutzen Sie Pilotgruppen, die bereit sind, neue Updates zu testen und Feedback zu geben. Diese Gruppen können helfen, Probleme frühzeitig zu erkennen.

Regelmäßige Backups: Stellen Sie sicher, dass regelmäßige Backups durchgeführt werden, damit Systeme im Falle eines Fehlers schnell wiederhergestellt werden können.

Disaster Recovery-Plan: Entwickeln und testen Sie einen umfassenden Disaster Recovery-Plan, um sicherzustellen, dass Ihr Unternehmen schnell auf Vorfälle reagieren und sich davon erholen kann.

Mehrstufige Genehmigungsprozesse:Implementieren Sie mehrstufige Genehmigungsprozesse für die Freigabe von Updates, um sicherzustellen, dass mehrere Augenpaare den Code überprüfen.

Code Reviews:Führen Sie gründliche Code Reviews durch, um potenzielle Schwachstellen oder Fehler zu identifizieren, bevor Updates veröffentlicht werden.

Transparente Kommunikation: Stellen Sie sicher, dass Ihre Kommunikation klar und transparent ist, sowohl intern als auch mit Ihren Kunden. Im Falle eines Problems sollten betroffene Parteien schnell informiert werden.

Zusammenarbeit mit Partnern: Arbeiten Sie eng mit Partnern und Anbietern zusammen, um sicherzustellen, dass Sicherheitsupdates und Patches nahtlos integriert werden können.

Kontinuierliches Monitoring: Implementieren Sie ein kontinuierliches Monitoring Ihrer Systeme, um ungewöhnliche Aktivitäten oder Anomalien sofort zu erkennen.

Echtzeitüberwachung: Nutzen Sie Echtzeitüberwachungstools, um sofort auf Vorfälle reagieren zu können und potenzielle Schäden zu minimieren.

Schulung der Mitarbeiter: Stellen Sie sicher, dass Ihre Mitarbeiter regelmäßig geschult werden und über die neuesten Best Practices und Sicherheitsrichtlinien informiert sind.

Sensibilisierung für Sicherheitsrisiken: Fördern Sie eine Kultur der Sicherheitsbewusstsein und Sensibilisierung für potenzielle Risiken und Bedrohungen.

Feedback-Mechanismen: Implementieren Sie Mechanismen zur kontinuierlichen Verbesserung und Feedback-Schleifen, um aus vergangenen Vorfällen zu lernen und Ihre Prozesse zu optimieren.

Nachbesprechungen: Führen Sie Nachbesprechungen nach Vorfällen durch, um die Ursachen zu analysieren und Maßnahmen zu ergreifen, die verhindern, dass ähnliche Probleme erneut auftreten.

War diese Seite informativ?

DruckenVersenden
Teilen auf

FAQ

Was ist CrowdStrike?

+

Was ist BSOD?

+

Was ist ein BitLocker-Wiederherstellungsschlüssel?

+

Was ist ein PXE-Boot-Server?

+
0JahreIT

Von langjähriger Erfahrung profitieren

Kunden wählen uns aufgrund unseres umfassenden Fachwissens und unserer Fähigkeit, praktische Lösungen für ihre individuellen Herausforderungen im Bereich IT-Sicherheit zu entwickeln.