StartseiteArtikel

Rust hat große Probleme verursacht. Nach 53 Tagen des Neuschreibens hat Cloudflare den größten Fehler der letzten sechs Jahre gemacht. ChatGPT und Claude waren alle offline.

AI前线2025-11-19 18:04
Halb des Internets ist wieder abgestürzt.

Halb des Internets ist wieder abgestürzt.

Kürzlich hat das Unternehmen Cloudflare einen mehrstündigen Ausfall erlebt, der dazu führte, dass mehrere beliebte Websites und KI-Dienste offline gingen. Laut Berichten dauerte dieser Serviceausfall etwa fünf Stunden und eine halbe Stunde. Sowohl ChatGPT als auch Sora von OpenAI waren unter den betroffenen Anwendungen, und es traten auch Störungen bei Claude, Shopify sowie der offiziellen Website des öffentlichen Verkehrssystems im US-Bundesstaat New Jersey auf.

Geheimnisvolle Traffic-Spitze führt zu weitreichenden Ausfällen

Laut ausländischen Medien meldete Cloudflare gegen 05:20 Uhr Ortszeit am Morgen des 18. November erstmals anomalen Traffic auf seiner Plattform. Etwa eineinhalb Stunden später aktualisierte das Unternehmen auf seiner Statusseite eine Ankündigung und informierte die Kunden über diesen Ausfall. Der Serviceausfall äußerte sich in Fehlermeldungen und erhöhten Latenzen. „Es ist ein Fehler in Cloudflares internen Diensten aufgetreten. Einige Dienste können intermittierend betroffen sein“, hieß es in einer Ankündigung, die Cloudflare kurz vor 07:00 Uhr Ortszeit veröffentlichte.

Betroffen von diesem Ausfall war nicht nur der CDN-Dienst für Websites. Die Störung hat auch das Anwendungsservice-Produktset betroffen, das CDN-Funktionen für Cloud- und lokale Workloads bietet und gleichzeitig die Anwendungsprogrammierschnittstellen dieser Workloads vor schädlichem Traffic schützt.

Cloudflare schrieb in einem Blogbeitrag im Juli dieses Jahres, dass etwa 20 % aller Websites weltweit auf ihn vertrauen, um ihren Traffic zu verwalten und zu schützen. Laut DownDetector betraf dieser Ausfall unter anderem X, Spotify, ChatGPT von OpenAI, die soziale Medienplattform Truth Social von Donald Trump, die Online-Designplattform Canva sowie die Filmbewertungs-App Letterboxd. Selbst die Website von DownDetector war kurzzeitig betroffen.

Dieser Ausfall hat auch mindestens zwei weitere Dienste beeinträchtigt. Während der Fehlersuche schalteten die Cloudflare-Engineer die WARP-VPN-Dienstleistung in der Region London aus. Darüber hinaus konnten einige Benutzer das Cloudflare Access-ZTNA-Tool des Unternehmens nicht normal nutzen. Das ZTNA-Produkt hat ähnliche Funktionen wie ein VPN, bietet aber bessere Sicherheit und Leistung.

Um 08:09 Uhr Ortszeit am 18. November gab das Unternehmen bekannt, dass das Problem „identifiziert und in Bearbeitung“ sei, aber der Wiederherstellungsprozess verlief nicht reibungslos. Gegen 08:13 Uhr Ortszeit am 18. November aktivierte Cloudflare den WARP-Dienst in der Region London wieder. Laut Cloudflare war der Dienst der Steuerkonsole um 09:34 Uhr Ortszeit wiederhergestellt. Um 09:42 Uhr kündigte das Unternehmen auf seiner Statusseite an, dass die Engineer die Ursache des Ausfalls behoben hätten. In den folgenden Stunden überwachte Cloudflare kontinuierlich den Wiederherstellungsprozess und „suchte nach Möglichkeiten, die vollständige Wiederherstellung zu beschleunigen“. Schließlich endete dieser Serviceausfall um 11:44 Uhr.

Ein Sprecher von Cloudflare bestätigte gegenüber ausländischen Medien, dass sie vor der Veröffentlichung der ersten Statusaktualisierung „eine anomale Traffic-Spitze bei einem ihrer Dienste“ festgestellt hätten, was „zu Fehlern bei Teilen des über das Cloudflare-Netzwerk fließenden Traffics“ führte. „Wir haben alle Mitarbeiter mobilisiert, um sicherzustellen, dass der gesamte Traffic fehlerfrei ist. Anschließend werden wir uns darauf konzentrieren, die Ursache der anomalen Traffic-Spitze zu untersuchen“, hieß es in einer Erklärung von Cloudflare.

Es ist erwähnenswert, dass auf der Plattform X ein Nutzer kommentierte: „Ein einfacher Crash einer Rust-Codezeile hat die Hälfte des weltweiten Traffics lahmgelegt.“ Viele Leute, die schon Rust programmiert haben, wissen, dass es keine gute Angewohnheit ist, die unwrap-Funktion willkürlich zu verwenden. Andere haben auch darauf hingewiesen: „Die unwrap-Funktion funktioniert nur dann fehlerhaft, wenn die Konfigurationsdatei Probleme hat.“

„Ein Crash einer Rust-Codezeile hat die Hälfte des weltweiten Traffics lahmgelegt.“ Viele Leute meinen, dass alle, die Rust programmiert haben, wissen, dass es keine gute Angewohnheit ist, die unwrap-Funktion willkürlich zu verwenden. Andere haben auch darauf hingewiesen: „Die unwrap-Funktion funktioniert nur dann fehlerhaft, wenn die Konfigurationsdatei Probleme hat.“

Ein weiterer Mann, der behauptet, dass „sein Freund bei Cloudflare arbeitet“, sagte: „Der Ausfall war darauf zurückzuführen, dass ein Engineer versucht hatte, eine alte Konfigurationsdatei zu ändern und eine Reihe von Codezeilen gelöscht hatte, die anscheinend veraltet schienen. Es stellte sich jedoch heraus, dass genau diese Codezeilen die Stabilität ihres Routingsystems aufrechterhielten. Sobald die Konfigurationsdatei deployed wurde, wurden fast die Hälfte der Überwachungssysteme rot und warnten, und das gesamte Netzwerk begann, einige Anomalien zu zeigen, die selbst ihre internen Dokumente nicht vollständig erklären konnten. Beim Reparaturprozess mussten sie eine lange vergessene Sicherungskopie wiederherstellen, eine Reihe von automatischen Neuladungen rückgängig machen und außerdem versuchen, einen völlig durcheinander gewordenen Servercluster wieder normal zum Laufen zu bringen.“

Er fügte hinzu: „Damals war das Büro von Cloudflare voller Red Bull-Dosen. Alle waren innerlich in Panik, und ein erfahrener Entwickler murmelte ständig: ‚Berührt nichts‘.“

Offizielle Offenlegung: Die tieferen Gründe für den Ausfall

Cloudflare betreibt das Content Delivery Network (CDN), auf das etwa 20 % aller Websites weltweit angewiesen sind. Diese Plattform funktioniert, indem sie mehrere Kopien von Website-Inhalten erstellt und diese in Rechenzentren auf der ganzen Welt verteilt. Wenn ein Nutzer eine Website besucht, lädt Cloudflare den Inhalt aus dem Rechenzentrum, das ihm am nächsten liegt. Das Unternehmen behauptet, dass diese Architektur für 95 % der Weltbevölkerung eine Latenz von 50 Millisekunden oder weniger bietet.

Neben der Verbesserung der Website-Geschwindigkeit hat die Cloudflare-Plattform auch andere Zwecke. Das Abwälzen von Traffic-Verarbeitungsaufgaben auf das CDN kann die Serverlast der Website-Betreiber verringern und somit die Betriebseffizienz verbessern. Darüber hinaus bietet Cloudflare auch Netzwerksicherheitsfunktionen, die schädliche Bot-Programme und andere Bedrohungen filtern können.

Zum Grund der Traffic-Spitze enthüllte Dane Knecht, der Chief Technology Officer von Cloudflare, in einem Beitrag auf der Plattform X, dass dieser Ausfall durch die Funktion zur Filterung von schädlichem Bot-Traffic des Unternehmens verursacht wurde, nicht durch einen Angriff. Der Manager betonte: „Es gab eine potenzielle Schwachstelle in einem Dienst, auf den unsere Bot-Schutzfunktion angewiesen ist. Dieser Dienst fing nach einer routinemäßigen Konfigurationsänderung an zu crashen, was wiederum zu einer weitreichenden Leistungseinbuße in unserem Netzwerk und anderen Diensten führte.“

Gleichzeitig gab der Sprecher von Cloudflare den ausländischen Medien detailliertere Neuigkeiten. Laut ihm „liegt die Wurzelursache dieses Ausfalls in einer automatisch generierten Konfigurationsdatei für die Verwaltung von Bedrohungstraffic. Die Anzahl der Einträge in dieser Datei übertraf die erwartete Größe und führte zum Absturz des Software-Systems, das den Traffic für mehrere Cloudflare-Dienste verarbeitet.“ Der Sprecher sagte: „Es ist wichtig zu betonen, dass es derzeit keine Beweise dafür gibt, dass dies auf einen Angriff oder böswillige Aktivitäten zurückzuführen ist. Wir erwarten, dass der Traffic nach dem Ende des Vorfalls natürlich ansteigen wird und dass einige Cloudflare-Dienste vorübergehend Leistungseinbußen aufweisen könnten, aber alle Dienste werden in den nächsten Stunden wieder normal funktionieren.“

In einem nachfolgend veröffentlichten Blogbeitrag erläuterte Cloudflare den vollständigen Ablauf des Fehlers, die betroffenen Systeme und den Bearbeitungsprozess. Laut der Erklärung „wurde das Problem durch eine Änderung der Berechtigungen in unserem Datenbanksystem ausgelöst. Diese Änderung führte dazu, dass die Datenbank mehrere Einträge in eine Funktionsdatei ausgab, die von unserem Bot-Verwaltungssystem verwendet wird. Die Größe dieser Funktionsdatei verdoppelte sich anschließend. Die unerwartet große Funktionsdatei wurde dann auf alle Maschinen, die unser Netzwerk bilden, verteilt. Die Netzwerk-Traffic-Routing-Software, die auf diesen Geräten läuft, liest diese Merkmalsdatei, um sicherzustellen, dass das Bot-Verwaltungssystem auf sich ständig ändernde Bedrohungen reagieren kann. Diese Software hat eine Beschränkung für die Größe der Merkmalsdatei, und da die Dateigröße in diesem Fall verdoppelt wurde und diese Beschränkung überschritt, führte dies zu einem Softwarefehler.“

Genauer gesagt war das „Bot-Verwaltung“-Modul die Wurzelursache dieses Ausfalls. Laut der Beschreibung enthält das Bot-Verwaltung-Modul von Cloudflare mehrere Systeme, wobei ein maschinelles Lernmodell für jede Anfrage, die über sein Netzwerk fließt, eine Bot-Bewertung generiert. Die Kunden nutzen diese Bewertungen, um zu entscheiden, ob sie bestimmten Bots den Zugang zu ihrer Website erlauben möchten. Die Eingabedaten für dieses Modell sind eine „Merkmals“-Konfigurationsdatei, die alle paar Minuten aktualisiert und über das gesamte Netzwerk synchronisiert wird, damit es auf die Veränderungen des Internet-Traffics reagieren kann.

Genau eine Änderung im unterliegenden ClickHouse-Abfrageverhalten führte dazu, dass in der generierten Datei eine große Anzahl von doppelten „Merkmals“-Zeilen auftraten. Diese Änderung veränderte die Größe der zuvor festen Merkmals-Konfigurationsdatei und löste einen Fehler im Bot-Modul aus. Infolgedessen gab das Kern-Proxy-System, das für die Verarbeitung des Traffics für die Kunden zuständig ist, allen Traffics, die von diesem Bot-Modul abhängen, einen HTTP 5xx-Fehlercode zurück. Dieses Problem hat auch die Workers KV- und Access-Dienste, die auf das Kern-Proxy angewiesen sind, beeinträchtigt.

Die vorgenommene Änderung war, dass allen Benutzern die genaue Metadaten der Tabellen, auf die sie Zugang hatten, zur Verfügung gestellt wurden. Das Problem war jedoch, dass in ihrem früheren Code eine Voraussetzung bestand: Die Spaltenliste, die von einer solchen Abfrage zurückgegeben wurde, würde nur den Inhalt der Standarddatenbank enthalten, und diese Abfrage würde den Datenbanknamen nicht filtern. Als sie diese explizite Berechtigung allmählich den Benutzern des Ziel-ClickHouse-Clusters anboten, begannen die obigen Abfragen, „Duplikate“ von Spalten zurückzugeben, die aus den zugrunde liegenden Tabellen stammten, die in der r0-Datenbank gespeichert waren. Leider war die Logik zur Generierung der Merkmalsdatei des Bot-Verwaltung-Moduls genau so, dass sie über solche Abfragen jeden Eingabe-„Merkmal“ in der am Anfang dieses Abschnitts erwähnten Datei aufbaute.

Da die Benutzer zusätzliche Berechtigungen erhielten, enthielt die Abfrageantwort jetzt alle Metadaten des r0-Datenbankschemas, was dazu führte, dass die Anzahl der Antwortzeilen mehr als verdoppelt wurde und schließlich die Anzahl der Zeilen (d. h. die Anzahl der Merkmale) in der Ausgabedatei beeinflusste. Zunächst hatten sie fehlinterpretieren lassen, dass die beobachteten Symptome auf einen massiven verteilt-denial-of-service (DDoS)-Angriff zurückzuführen waren, aber dann identifizierten sie das Kernproblem genau und verhinderten erfolgreich, dass diese unerwartet große Merkmalsdatei weiter verbreitet wurde, und ersetzten sie durch eine frühere Version.

Link zum ausführlichen Bericht: https://blog.cloudflare.com/18-november-2025-outage/

Schwerster Ausfall in sechs Jahren: Wird die „Wahrheit“ ausgelacht?

Während des weitreichenden Ausfalls fiel die Aktie von Cloudflare um etwa 3 %.

„Angesichts der Wichtigkeit der Cloudflare-Dienste ist jeder Ausfall inakzeptabel. Es hat uns alle im Team sehr weh getan, dass das Netzwerk für eine Zeit nicht in der Lage war, den Traffic normal zu routen. Wir wissen, dass wir heute das Vertrauen der Menschen enttäuscht haben“, hieß es auch in einem Blogbeitrag von Cloudflare.

Darüber hinaus erläuterte das Unternehmen die Schritte zur nachfolgenden Verstärkung des Systems, um solche Störungen zu vermeiden, einschließlich der folgenden Aspekte:

Stärkung der Prüfung der von Cloudflare intern generierten Konfigurationsdateien gemäß den Schutzstandards für die von Benutzern generierten Eingaben;

Installation von mehr globalen Notausschaltern für die relevanten Funktionen;

Vermeidung, dass Kernabstürze oder andere Fehlermeldungen zu viele Systemressourcen in Anspruch nehmen;

Umfassende Prüfung aller Fehlerszenarien und Fehlermuster der Kern-Proxy-Module.

Cloudflare hat zugeben, dass dies der schwerste Ausfall seit 2019 war. „Es gab in der Vergangenheit auch Ausfälle, die dazu führten, dass die Konsole nicht zugänglich war oder einige neue Funktionen vorübergehend nicht verfügbar waren. Aber in den letzten sechs Jahren ist es noch nie dazu gekommen, dass der Großteil des Kern-Traffics nicht über unser Netzwerk übertragen werden konnte.“

Es ist bekannt, dass das letzte große Problem bei Cloudflare im Juni aufgetreten war, als mehr als sechs Dienste für etwa zwei Stunden und eine halbe Stunde offline waren. Dieser Ausfall war durch einen Fehler in der Workers KV-Datenbankplattform verursacht worden.