StartseiteArtikel

39.000 Anfragen pro Minute: Die Website wird von KI-Crawlern "zermalmt". Meta und OpenAI werden aufgeführt, und die Entwickler setzen nacheinander außergewöhnliche Anti-Crawling-"Waffen" ein.

CSDN2025-08-22 19:26
Dieses Katzen- und Maus-Spiel endet niemals. Webcrawler entwickeln sich ständig weiter und finden Wege, verschiedene Fallen zu umgehen.

„Meine Website ist durch das Crawling zusammengebrochen, ich muss die Traffickosten selbst tragen, während andere mit meinem Inhalt ein KI-Modell trainieren und dabei auch noch viel Aufmerksamkeit erregen.“

Seit KI-Roboter populär geworden sind, klagen viele Website-Entwickler über ihre Probleme. Kürzlich veröffentlichte der Cloud-Dienstriese Fastly einen Bericht, der einen nach dem Lesen nur noch dazu bringt, auszurufen: „Die Realität ist oftmals noch grausamer als der Teil, den wir nur hören.“

Der Bericht zeigt, dass KI-Crawler derzeit das Internet heftig attackieren. Sie crawlen Websites extrem schnell und machen 80 % des KI-Roboter-Traffics aus. Die restlichen 20 % entfallen auf bedarfsgesteuertes Crawling.

Diese KI-Roboter sind für Websites ohne Schutz keine Scherze – ihr Spitzenverkehr kann sogar bis zu 39.000 Anfragen pro Minute erreichen! Mit anderen Worten, eine normale Website kann innerhalb einer Minute von KI-Crawlern und Crawling-Programmen hunderte Male „bombardiert“ werden und unter ständiger Überlastung leiden.

Der Bericht enthüllt außerdem, dass die Schuldigen die bekannten Mainstream-KI-Konzerne wie Meta, OpenAI usw. sind. Aus diesem Grund bereiten sich die Entwickler auf einen „Gegenangriff“ vor.

KI-Crawler zerstören Websites – sind Meta, Google und OpenAI die „Hauptschuldigen“?

In diesem Bericht teilt Fastly die KI-Roboter in zwei Kategorien ein, die sich nach ihrem Verhalten und ihrer Verwendung unterscheiden: Crawler und Fetchers.

Die sogenannten Crawler-Roboter arbeiten wie Suchmaschinen. Sie scannen systematisch Websites, sammeln den Inhalt und nutzen ihn zur Erstellung einer durchsuchbaren Index oder zum Trainieren von Sprachmodellen. Dies ist die Voraussetzung für die „Trainingsphase“ eines KI-Modells.

Nach den Daten machen die Crawler-Roboter fast 80 % der KI-Roboter-Anfragen aus, die Fetchers die restlichen 20 %.

Crawler-Roboter greifen normalerweise auf öffentlich zugängliche und autoritative Website-Inhalte zu, wie z. B. Nachrichtenportale, Bildungsressourcen, Regierungsseiten, technische Dokumentationen oder öffentliche Datensätze.

Der Bericht zeigt, dass der KI-Crawler-Traffic fast vollständig von einigen Unternehmen geteilt wird: Meta, Google und OpenAI zusammen machen bereits 95 % aus. Davon macht Meta 52 %, Google 23 % und OpenAI 20 % aus.

Fetchers sind wie die „kleinen Assistenten“ eines Modells. Wenn eine KI eine Frage beantwortet, suchen sie sofort nach relevanten Webseiten oder Informationen, damit das Modell autoritative und aktuelle Informationen zur Unterstützung seiner Antwort nutzen kann. Das heißt, wenn das Modell eine Antwort generiert, beruft es sich nicht nur auf seinen eigenen Gedächtnisinhalt, sondern kann auch in Echtzeit auf externe Daten verweisen. Dieser Prozess wird als „Inferenzphase“ bezeichnet.

Die Daten zeigen, dass von fast allen Fetch-Anfragen ChatGPT-User und OpenAI SearchBot zusammen 98 % ausmachen. Das bedeutet, dass OpenAI hauptsächlich über ChatGPT den größten Einfluss auf den Crawling-Traffic von Websites hat. Zweitrangig ist Perplexity mit einem Anteil von nur 1,53 % an den Fetch-Anfragen, aber sein Einfluss wächst langsam.

Der Bericht weist weiter darauf hin, dass die vier führenden Crawler-Unternehmen – Meta, Google, OpenAI und Claude – scheinbar besonders an kommerziellen Websites interessiert sind und sich gerne auf diesen Inhalt konzentrieren.

Schauen wir uns nun den Traffic-Trend der KI-Crawler an. Die Daten zeigen, dass die Crawler von Meta in den letzten Monaten offensichtlich langsam „beschleunigen“.

Zugleich ist die Häufigkeit der meisten Crawler recht zufällig. Manchmal crawlen sie leise im Hintergrund, und der Traffic bleibt normal. Dadurch bemerken viele Websites möglicherweise gar nicht, dass sie gecrawlt werden.

Manchmal kann der Traffic dieser KI-Roboter aber auch übermäßig hoch sein. Über mehrere Tage oder sogar Wochen hinweg kann der Traffic auf das Zwei- bis Dreifache des Normalzustands steigen.

Hinter den makroskopischen Daten verstecken sich tatsächlich viele reale Fälle. Beispielsweise berichteten wir bereits früher über die ukrainische Website Trilegangers, die sich auf 3D-Modelle des menschlichen Körpers spezialisiert hat.

Als Website, die 3D-Scandaten verkauft, hat das Team von Trilegangers mit sieben Mitarbeitern über ein Jahrzehnt hinweg die größte Datenbank von „digitale menschliche Doppelgänger“ im Internet aufgebaut. Niemand hätte gedacht, dass diese seit langem reibungslos funktionierende Website Anfang dieses Jahres plötzlich zusammenbrach. Der CEO Oleksandr Tomchuk rief schnell die Ingenieure zusammen, um die Ursache zu ermitteln. Das Ergebnis war: Obwohl die Website bereits die robots.txt aktualisiert hatte, nutzte OpenAI 600 IP-Adressen, um Daten zu crawlen, was direkt zum Zusammenbruch der Website führte.

Tomchuk berichtete selbst, dass er möglicherweise nie auf dieses Problem aufmerksam geworden wäre, wenn die Crawler vorsichtiger gewesen wären. Deshalb rief Tomchuk öffentlich aus: „Ihre Crawler-Programme zerstören unsere Website! Dies ist im Grunde eine DDoS-Attacke.“

Die unsichtbaren Kosten müssen von Website-Administratoren und Unternehmen selbst getragen werden

In der Tat können KI-Roboter, wenn sie nicht richtig konzipiert sind, versehentlich vielen Website-Servern einen enormen Druck ausüben, was zu langsamen Websites, Dienstausfällen und sogar höheren Betriebskosten führt. Insbesondere wenn der Traffic von massiven KI-Robotern plötzlich steigt, wird es noch ärgerlich.

Fastly teilte auch in seinem Bericht einige reale Fälle mit:

Ein Crawler erreichte einen Spitzenwert von 1.000 Anfragen pro Minute. Obwohl dies nicht allzu viel klingt, kann ein kurzer Spitzenverkehr für Systeme, die auf Datenbankabfragen angewiesen sind oder wie Gitea Git-Repositories anzeigen, dazu führen, dass die Website hängt, Zeitüberschreitungen auftreten oder Probleme auftauchen.

Der Fall des bedarfsgesteuerten Crawlings ist noch extremer: Einmal erreichte ein Fetcher einen Spitzenwert von 39.000 Anfragen pro Minute! Selbst wenn dieser Traffic nicht böswillig ist, kann er den Server so belasten, dass er an Atem kommt, Bandbreite verbraucht und sogar ähnliche Auswirkungen wie eine DDoS-Attacke haben kann.

Übermäßiger Roboter-Traffic beeinträchtigt nicht nur die Benutzererfahrung, sondern erhöht auch die Infrastrukturkosten und lässt die Website-Datenanalyse unzuverlässig werden.

Leider sagte Arun Kumar, der leitende Sicherheitsforscher von Fastly, im Bericht, dass KI-Roboter die Art und Weise, wie Menschen das Internet nutzen und erleben, verändern und gleichzeitig neue komplexe Probleme für digitale Plattformen schaffen. Ob es sich um das Sammeln von Daten für das Training von KI oder um die Echtzeitbereitstellung von Antworten handelt, diese Roboter bringen neue Herausforderungen in Bezug auf Sichtbarkeit, Kontrolle und Kosten mit sich. „Man kann nicht schützen, was man nicht sieht. Ohne klare Überprüfungsstandards werden die Risiken der KI-Automatisierung für digitale Teams zu einer Blindstelle.

Entwickler greifen zurück und setzen eigene Fallen: Aufwandsproof, ZIP-Bomben, Labyrinthe

Mit der zunehmenden Verbreitung von KI und der beschleunigten Entwicklung der zugehörigen Tools scheint es nur so zu gehen, dass die Anzahl der KI-Crawler-Ereignisse eher zunehmen als abnehmen wird. Angesichts dieser „regellosen“ Crawler beginnen die Entwickler, sich aktiv zu wehren und ihre Websites mit verschiedenen kühnen Tricks zu schützen.

Verwendung des „Aufwandsproof“-Tools Anubis

Der FOSS-Entwickler Xe Iaso rief im Januar dieses Jahres öffentlich gegen das KI-Crawler-Tool von Amazon auf, nachdem es sein Git-Code-Hosting-Service heftig gecrawlt hatte, was dazu führte, dass die Website ständig abstürzte und kaum noch normal funktionierte.

Allerdings hat dieser öffentliche Aufruf keine abschreckende Wirkung gezeigt. Im Gegenteil, manchmal wurde das Crawling-Verhalten noch stärker.

Am Ende entwickelte Xe Iaso selbst ein System namens „Anubis“ (https://git.xeserv.us/).

Dies ist ein Anti-Crawler-Mechanismus auf der Grundlage des Proof-of-Work (PoW). Wenn ein Benutzer eine Website besucht, auf der Anubis aktiviert ist, fordert Anubis den Browser auf, eine PoW-Herausforderung auf der Grundlage von SHA-256 zu bewältigen.

Diese Herausforderung erfordert eine gewisse Rechenleistung. Normale Benutzer bemerken die Verzögerung kaum, aber für massenhaftes Crawling erhöht diese zusätzliche Rechenlast die Crawling-Kosten erheblich und wirkt somit abschreckend.

Programmierer setzen selbst gemachte „ZIP-Bomben“ ein, um Inhaltsdiebstahl zu bekämpfen

Einige andere Entwickler greifen zu noch „extremeren“ Mitteln. Eines Tages stellte Ibrahim Diallo zufällig fest, dass eine Website seine Blogbeiträge in Echtzeit stahl: Jedes Mal, wenn jemand ihre Seite besuchte, crawelten sie sofort seinen neuesten Artikel, entfernten den Namen und das Markenzeichen und gaben ihn dann als eigenen Inhalt aus.

Anfangs versuchte Ibrahim, „manuell zu kämpfen“ und fütterte die Crawler absichtlich mit falschen Daten, damit sie die falschen Inhalte kopierten. Doch nach kurzer Zeit fand er diese Methode zu umständlich und beschloss, seine geheime Waffe – die „ZIP-Bombe“ – einzusetzen.

Das Prinzip dieser „Bombe“ ist folgendermaßen: Wenn ein Crawler seine Website besucht, sendet er eine kleine komprimierte Datei, die auf den ersten Blick in Ordnung aussieht. Der Server des Crawlers lädt diese Datei automatisch herunter und versucht, sie zu entpacken. Dadurch werden plötzlich mehrere Gigabyte an „Müll“-Dateien freigesetzt, was das System direkt zum Zusammenbruch bringt.

Der Captcha für den Website-Zugang wird zur „DOOM-Herausforderung“ – nur wer drei Gegner im „Alptraum-Modus“ besiegt, ist ein Mensch

Das Captcha erhält eine neue spielerische Form. Der CEO der Cloud-Dienstplattform Vercel, Guillermo Rauch, hat kürzlich in Kombination mit KI eine Art Captcha im Stil von „Doom“ eingeführt. Um zu beweisen, dass man ein Mensch ist, muss der Benutzer in der „Alptraum-Stufe“ drei Gegner besiegen, bevor er auf die Website zugreifen kann.

Diese Methode hält zwar die Crawler effektiv ab, macht aber auch die Benutzererfahrung für normale Benutzer zeitaufwändig und umständlich.

Große Infrastrukturunternehmen setzen ebenfalls eigene Methoden ein

Große Netzwerk-Infrastrukturunternehmen treten ebenfalls in Aktion. Kürzlich veröffentlichte Cloudflare das KI-Labyrinth, das speziell gegen unbefugte Crawler eingesetzt