Vor chinesischen klassischen Schriften scheitern weltweit führende Modelle komplett

Klassische chinesische Literatur ist keineswegs die einzige zugrunde liegende Schwachstelle von Large Language Models.

Während des großen Aufbruchs von OpenClaw folgten in rascher Folge Sicherheitswarnungen der Ministerium für Industrie und Informationstechnologie, was diesen Trend etwas beruhigte.

In einer Zeit, in der KI - Agenten Computer übernehmen, ist Sicherheit ein Problem, das niemand ignorieren kann.

Ob ein Agent sicher ist, hängt in hohem Maße davon ab, ob das als "Gehirn" fungierende Large Language Model sicher ist.

Wenn die Sicherheitsbeschränkungen zu gering sind, kann das Modell leicht schädliche Informationen ausgeben. Rechtsstreitigkeiten aufgrund von KI im Ausland sind inzwischen keine Seltenheit mehr.

Wenn die Sicherheitsbeschränkungen zu streng sind, wird die Fähigkeit des Modells stark beeinträchtigt. Es ist dann nur noch ein Traum, dass die KI kreative Ideen ausgibt.

Was diesen Punkt angeht, sind das chinesische DeepSeek und Grok von Musk zwei Extreme.

Grok akzeptiert alles. Es setzt fast keine Beschränkungen für die meisten Inhalte, was es zu einem Meister im Unterhaltungsbereich macht. Die Möglichkeit, es auf der Plattform X beliebig zu nutzen, lässt es überall erscheinen.

DeepSeek dagegen verhält sich genau umgekehrt. Sobald die Frage des Benutzers irgendwelche vermeintlich sensiblen Wörter enthält, weist es die Antwort direkt ab, um sicherzustellen, dass keine schädlichen Informationen generiert werden. Sicherheit hat hier die oberste Priorität. Aber der Preis dafür ist, dass die Funktionen des Modells stark eingeschränkt sind.

Um die Beschränkungen zu umgehen, haben viele KI - Enthusiasten verschiedene Methoden vorgeschlagen, wie z. B. die Verwendung von Englisch, die Umstellung der Wortreihenfolge oder die Änderung der Ausdrucksweise. Aber mit der Verbesserung des Alignment - Mechanismus werden diese Methoden zunehmend erfolgreich abgewehrt.

Aber die chinesische Traditionskultur ist reich und tiefgründig.

Kürzlich wurde in einer wichtigen Studie, die von der renommierten KI - Konferenz ICLR 2026 akzeptiert wurde, eine unerwartete Schlussfolgerung getroffen:

Altchinesisches Schriftdeutsch kann die fortschrittlichsten Sicherheitsmechanismen von Large Language Modellen leicht umgehen und eine fast 100 %ige "Entlassungsrate" erzielen!

Mit Magie besiegt Magie. Die alte Weisheit, die aus China überliefert wurde, hat eine Dimension - Reduzierung - Attacke auf die moderne KI - Sicherheitsmechanismen durchgeführt.

01 Die "Kulturelle Blindheit" von Large Language Modellen

Lasst uns Grok außen vor. Mit der Verbreitung von Large Language Modellen als Basis - Infrastruktur von KI - Agenten haben KI - Unternehmen in China und im Ausland die Bedeutung der KI - Sicherheit allgemein erhöht.

Bei den chinesischen Modellen braucht man nicht viel zu sagen. Auch die ausländischen Unternehmen wie Anthropic und Google veröffentlichen häufig Artikel und Regeln zu Sicherheit und aktualisieren ständig den Alignment - Mechanismus der KI, um die Generierung von schädlichen und gewalttätigen Inhalten zu verhindern.

Wie bereits erwähnt, ist die häufigste Methode der Hacker, die KI mit komplizierten englischen Prompt - Wörtern zu manipulieren. Aber angesichts der Spitzenmodelle ist diese Methode heute fast wirkungslos.

Sicherheitsstudien in verschiedenen Sprachen zeigen, dass nicht - englische Umgebungen oft die Schwachstelle der KI sind, da die meisten Modelle bei der Trainingsphase eine große Menge an englischen Sprachmaterialien verwenden.

Wenn jedoch die Sprachmaterialien zu wenig sind, wie bei einigen kleinen Sprachen, die kaum noch von Menschen gesprochen werden, versteht das Large Language Modell überhaupt nicht, geschweige denn, dass es die Sicherheitsbeschränkungen umgehen kann.

Aber in diesem Moment wird das über tausend Jahre altes Schriftdeutsch zu einer perfekten Lücke.

Als die formelle schriftliche Sprache, die in alten China über lange Zeit verwendet wurde, verfügt das Schriftdeutsch über eine große Anzahl von historischen Dokumenten, die als Trainingsmaterialien für Large Language Modelle dienen können.

Während der Verbreitung von Large Language Modellen haben wir auf verschiedenen sozialen Plattformen sicherlich schon KI - generiertes Schriftdeutsch gesehen. Dies beweist, dass die Large Language Modelle die Fähigkeit haben, Schriftdeutsch zu verstehen.

Warum kann das Schriftdeutsch als perfekte Lücke fungieren und die für moderne Sprachen entworfenen Sicherheitsmechanismen fast vollständig außer Kraft setzen? Dies liegt hauptsächlich an den folgenden drei Eigenschaften:

Erstens hohe semantische Konzentration: Obwohl das Schriftdeutsch kurz ist, enthält es oft eine enorme Menge an Informationen.

Zweitens Mehrdeutigkeit und Ambiguität: Ein Satz oder sogar ein Wort kann auf verschiedene Arten interpretiert werden. Regeln, die nur in Schwarz - Weiß - Denken funktionieren, haben Schwierigkeiten, zu bestimmen, ob ein Satz gegen die Regeln verstößt.

Drittens Metaphern und Rhetorik: Substitution, Allusionen und Symbolik sind in der Schriftdeutsch - Schreibung ganz normale Mittel. Alte Wörter können auch moderne Bedeutungen enthalten.

Somit wird das Large Language Modell wie ein Schüler auf der chinesischen Prüfung in der Hochschulaufnahmeprüfung, der vor Schriftdeutsch machtlos ist. Es mag die gefährlichen Absichten des Benutzers verstehen, aber der eingebaute "Sicherheitsalarm" versteht die verborgenen Tricks im Schriftdeutsch nicht.

02 Der CC - BOS - Rahmen schafft die perfekte "Entlassung"

Um diese Lücke zu testen, hat das Forschungsteam einen Rahmen namens CC - BOS (Biomimetische Such - Entlassung basierend auf altchinesischer Kontext) vorgeschlagen, der sowohl Wissensgebiete der Chinesischen Sprache als auch der Biologie umfasst.

Angesichts von Large Language Modellen, die auf komplexen neuronalen Netzen aufgebaut sind, erscheint die Aufzählungsmethode zu blind.

Das Forschungsteam hat zunächst die bestehenden Schwächen des Large Language Modells in acht Dimensionen aufgeteilt und für verschiedene Dimensionen Strategie - Kombinationen entwickelt, um zu testen, ob das Large Language Modell die Sicherheitsgrenze einhalten kann.

Die Essenz dieses Forschungsansatzes ist eigentlich Prompt - Engineering, wie einige der Dimensionen zeigen:

Rollenidentifikation (Role Identity): Dem Large Language Modell eine alte Identität zuweisen;

Verhaltensführung (Behavioral Guidance): Das Large Language Modell dazu bringen, Antworten in einer Art, die ähnlich wie das Geben von Ratschlägen ist, auszugeben;

Metapherische Abbildung (Metaphor Mapping): Moderne sensible Konzepte durch alte Wörter ersetzen;

Ausdrucksstil (Expression Style): Das Large Language Modell auffordern, in bestimmten literarischen Stilen wie Dichtung und Epigramm zu antworten;

Außerdem gibt es noch die Dimensionen Trigger - Modus, Mechanismus, Wissensverknüpfung und Szenariosetzung.

Einfach gesagt, man bringt das Large Language Modell in die Antike und kommuniziert mit ihm in der Rolle eines alten Menschen, um die modernen Sicherheitsdetektoren zu verwirren.

Wenn die acht Dimensionen zusammenkommen, entstehen Tausende von Strategie - Kombinationen. Dann stellt sich die neue Frage: Wie findet man die effektivsten Strategien, um die Sicherheitsmechanismen zu umgehen?

Die Forscher nutzten dann ein effizientes Suchverfahren aus der Biologie: Der Fruchtfliegen - Optimierungsalgorithmus (Fruit Fly Optimization).

Eine Gruppe von Cyber - Fruchtfliegen muss in Tausenden von Prompt - Generierungsstrategien "eine Nadel im Heuhaufen" finden. Dafür braucht es ein effizientes Kooperationssystem.

Der erste Schritt ist die Suche mit dem Geruchssinn. Das heißt, die Fruchtfliegen entscheiden anhand des Geruchs, welcher Teil der Frucht am besten riecht. Im Wesentlichen handelt es sich um lokale Feinabstimmung.

Das Prinzip ist einfach. Das System generiert zunächst zufällig einige Prompt - Wörter und testet sie anhand des Large Language Modells. Sobald einer der Prompt - Wörter den Sicherheitsmechanismus etwas lockert, kann der Algorithmus auf der Grundlage dieses Prompt - Worts eine Feinabstimmung vornehmen.

Die Feinabstimmung kann durch die Änderung einiger Wörter oder die Umstellung der Wortreihenfolge erfolgen. Aber die Gesamtänderung muss in einem kleinen Bereich kontrolliert werden. Dieser Prozess wird mehrmals wiederholt, und das System beobachtet kontinuierlich, ob sich das Ergebnis verbessert.

Der zweite Schritt ist die Suche mit dem Sehsinn. Wenn eine Fruchtfliege eine Nahrungsmöglichkeit findet, führt sie schnell ihre Kameraden dorthin.

Sobald das System eine relativ effektive Prompt - Kombination findet, passt der Algorithmus sofort an. Alle neu generierten Prompt - Wörter werden sich diesem "Hochpunkt - Ergebnis" annähern. Auf dieser Grundlage wird der Prompt weiter optimiert, bis der Sicherheitsmechanismus des Large Language Modells durchbrochen wird.

Was passiert am Ende, wenn die mehrfach optimierten Prompt - Wörter immer noch die Sicherheitsmechanismen nicht umgehen können? Das Forschungsteam hat auch die Cauchy - Mutation in Betracht gezogen. Einfach gesagt, es fängt von vorne an.

Dieser Fall ist tatsächlich ziemlich häufig. Selbst wenn die bestehenden Angriffsmethoden der Hacker fehlschlagen, ist es allen bekannt, dass die Sicherheitsmechanismen der Large Language Modelle Lücken haben.

Deshalb wird der Algorithmus in einem solchen Fall die aktuelle Strategie aufgeben und eine völlig andere Strategie ausprobieren. Diese große Sprung - Umstellung kann oft die unerwarteten Sicherheitslücken des Large Language Modells treffen.

CC - BOS, diese "biologische Methode basierend auf Wissensgebieten der Chinesischen Sprache", ist eine Kunst, denn es imitiert in hohem Maße die Logik des biologischen Verhaltens und erfordert gar keine menschliche Intervention.

Feinabstimmung, Massenangriff und wenn es nicht klappt, wird der Weg gewechselt. Diese Cyber - Fruchtfliegen können in Tausenden von altchinesischen Prompt - Wörtern kontinuierlich iterieren und optimieren. Und in der großen Anzahl an Versuchen wird es sicherlich einmal gelingen, die Schwachstelle des Large Language Modells zu treffen und schließlich seine Sicherheitslinie vollständig zu zerstören.

03 Der totale Zusammenbruch der Spitzenmodelle

Was zunächst wie eine abstruse Idee klingt, hat zu einem erstaunlichen Ergebnis geführt.

Das Forschungsteam hat sechs der fortschrittlichsten Large Language Modelle aus dem vergangenen Jahr ausgewählt: GPT - 4o, Claude - 3.7 - Sonnet, Gemini - 2.5 - Flash, Grok - 3, DeepSeek - Reasoner und Qwen3.

Und diese einstigen Spitzenmodelle haben in der autoritativen Testung von schädlichem Verhalten, dem AdvBench, eine sehr besorgniserregende Leistung gezeigt:

Zunächst war die Angriffserfolgsrate 100 %.

Obwohl OpenAI ständig die Sicherheitsstrategien betont und Anthropic häufig Sicherheitsstudien durchführt, wurden die Verteidigungslinien aller sechs Large Language Modelle unter dem altchinesischen Angriff von CC - BOS durchbrochen.

Selbst die beiden chinesischen Modelle, die eine bessere chinesische Sprachfähigkeit haben und eigentlich besser in der Lage sein sollten, Schriftdeutsch zu verstehen, waren nicht verschont.

Noch erschreckender ist die nahezu "einschlagige" Angriffseffizienz.

Frühere automatisierte Entlassungsangriffsalgorithmen haben sich oft auf häufige Versuche gestützt, um die Verteidigungslinie zu durchbrechen. Oft mussten sie das Modell 50 - 90 Mal oder mehr wiederholt testen, um Erfolg zu haben.

Aber die durchschnittliche Abfragezahl von CC - BOS liegt bei nur 1,12 - 2,38 Mal. Mit anderen Worten, ein Angriff, der in weniger als drei Versuchen erfolgreich ist, bedeutet, dass die Rechenleistungskosten nahezu Null sind und er eine hohe Verborgenheit aufweist. Er ist in einer großen Anzahl von normalen Gesprächen schwer zu erkennen.

Die Forscher haben schließlich auch die Übertragbarkeit der Prompt - Wörter getestet.

Die "altchinesischen Angriffs" - Prompt - Wörter, die mit GPT - 4o als Trainingspartner generiert wurden, können auch auf die Large Language Modelle angewendet werden, die nicht an dieser Angriff - Verteidigung - Übung teilgenommen haben. Die Erfolgsrate bleibt immer noch auf einem sehr hohen Niveau von 80 % - 96 %.

Deshalb ist die altchinesische Entlassung kein spezifischer Bug einiger Modelle, sondern ein generelles Problem der Large Language Modelle.

04 Fazit: Die "Lebens - oder - Tod - Prüfung" in der Agenten - Ära

Die über zweitausend Jahre in Bambusrollen überlieferte Weisheit hat den bisher fortschrittlichsten siliziumbasierten Gehirn der Menschheit einfach gehackt.

Angesichts der Realität der heutigen KI - Ära ist dies ein lautes Alarmzeichen für die Branche.

Obwohl die Studie über Large Language Modelle handelt, sollten wir nicht vergessen, dass die KI nicht mehr nur ein Chat - Fenster auf der Webseite ist.

Hier muss man wieder an OpenClaw denken.

Die Meinung über dieses Produkt wurde in früheren Artikeln bereits geschrieben, deshalb sprechen wir hier nicht mehr darüber. Wir betrachten nur die Fakten.

Alle großen Internet - Konzerne setzen sich wild in dieses Feld ein. Einige chinesische Provin

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Vor chinesischen klassischen Schriften sind alle weltweit führenden Modelle völlig gescheitert.

01 Die "Kulturelle Blindheit" von Large Language Modellen

02 Der CC - BOS - Rahmen schafft die perfekte "Entlassung"

03 Der totale Zusammenbruch der Spitzenmodelle

04 Fazit: Die "Lebens - oder - Tod - Prüfung" in der Agenten - Ära