Zu dumm, um Claude Fable 5 zu verdienen? - Alles, was Sie wissen müssen!

Was verbirgt sich hinter dem internen "Kleinen Aufsatz" von Fable 5?

Fable 5 ist gerade erst wiederbelebt worden, und hat die Benutzer schon zum Lachen gebracht - und zwar aus Wut.

Beispielsweise hat ein Netzbürger einen Beitrag geschrieben und gescherzt, dass viele seiner Fragen auf Opus 4.8 zurückgeworfen wurden. Also schaute er in das Log und fand dort ein ziemlich verstörendes Label:

「TOO_DUMB_TO_NEED_FABLE」.

Eine grobe Übersetzung wäre: Die Frage ist zu dumm, um Fable zu nutzen. Noch lustiger ist, dass der Anthropic - Ingenieur Thariq Shihipar darunter kommentierte: 「Ehrlich gesagt, ich hätte nicht gedacht, dass du in das Log schaust.」

Man dachte, das wäre schon genug Show, aber es wurde noch verrückter.

Netzbürger haben festgestellt, dass Fable 5 eine äußerst reiche, ja fast wahnsinnige innere Monologe hat. Jetzt fokussierten sich die Netzbürger nicht nur auf die zu strenge Rücksetzungs - Mechanik, sondern darauf, wie Fable 5 überhaupt denkt?

Ein Fehler hat Fable's 「innere Monologe」 preisgegeben

Zuerst einmal die Ursache des Vorfalls.

Wie in einem Originalbeitrag beschrieben, hat jemand an dem Tag, an dem Fable 5 zurückkehrte, einige leichte Tests damit durchgeführt. Die Aufgaben stammten von Codeforces. Zuerst war es eine sehr schwere Wettbewerbs - Programmieraufgabe. Später, weil die Denkintensitätsgrenze erreicht wurde, wechselte er zu einer relativ leichteren Aufgabe.

Ergebnis: Fable 5 verhielt sich unkonventionell und gab keine klare Lösung oder Code ab, sondern spuckte auf der Webseite einen dichten Text voller logischer Überlegungen aus.

Der Bildschirm war mit schwarzem Hintergrund und weißen Buchstaben voll, und der Inhalt war eine Mischung aus Englisch, Graphentheorie - Begriffen, mathematischen Symbolen, Variablennamen, Pseudocode und Selbstremindern. Unterwegs tauchten plötzlich einige auffällige Wörter auf:

「GRRR」 (wütendes Brummen) 「GAAAH」 (entsetzliches Schreien) 「PHEW」 (Erleichterung) und der extrem hypnotische 「DATA DATA DATA. GO.」

Auf den ersten Blick sah es aus, als wäre das Modell außer Kontrolle geraten, aber genauer betrachtet war es kein reiner Unsinn.

Der Kern der Netzbürger - Screenshots war, dass das Modell ein komplexes Kapazitäts - Beschränkungsproblem bearbeitete. Es erwähnte wiederholt window [τ, i - 1], leg j, crossing - slots, used[i] ≤ m - 2, was darauf hinweist, dass es versucht, Regeln für die Ressourcenbelegung auf einem bestimmten Pfad oder Intervall zu definieren.

Der Ort, an dem GRRR auftauchte, war sehr wichtig:

Davor hatte es festgestellt, dass 「commitments are retroactive」, d. h. einige Einstellungen wirken rückwirkend auf frühere Intervalle, sodass die aktuellen Regeln bei der Einstellung nicht wissen, was in der Zukunft überschrieben wird. Sofort danach schrieb es 「RESOLUTION」 und wechselte zu einer vorausgehenden Abrechnung der Belegung des aktuellen legs.

Wenn man es mit dem Entwurf eines menschlichen Wettbewerbs - Teilnehmers vergleicht, könnte man sagen: Er stellte fest, dass die aktuelle Modellierungs - Methode nicht funktionierte, also erkannte er, dass er die ursprüngliche Idee aufgeben und neue Regeln entwerfen oder eine passendere, leichter zu handhabende Abstraktionsweise zur Beschreibung des Problems finden musste.

Anschließend wechselte das Modell von der theoretischen Ableitung zu einer Überprüfungsstrategie.

Es schrieb über connector edges, tree - path, Steiner, alive - runs und sagte: 「I'M GOING TO TRUST - AND - VERIFY」, was bedeutet, dass es vorbereitet war, zuerst ein Programm nach einer einfachen Greedy - Methode zu schreiben und dann ein langsames, aber sicher richtiges Brute - Force - Verfahren zu verwenden, um die Ergebnisse zu vergleichen und zu sehen, ob es Probleme gibt.

「GAAAH. Data first!!」 erschien an einem Ort, der eher wie eine Anweisung an sich selbst aussah: Hör auf, weiter zu träumen, verifiziere zuerst mit Daten und schreibe zuerst das Vergleichsprogramm.

Später erschien 「PHEW」, nachdem das Modell eine Zwischenfolgerung getroffen hatte. Es befand, dass die aktive Anzahl von mid - leg auf m - 1 begrenzt werden konnte, als hätte es endlich eine Schwelle überwunden. Aber nach der Erleichterung stellte es sofort ein neues Problem fest: Wenn used[j] = m - 1 und man die aktuelle Kante hinzufügt, könnte es m werden, und es wechselte erneut in den Zustand 「VIOLATION?!」

Das repräsentativste ist die Aussage 「I ' M DROWNING IN EMPIRICS!!」, gefolgt von 「DATA DATA DATA. GO.」. Wenn man es von einem anderen Blickwinkel betrachtet, sind diese Wörter eher wie 「Markierungen」, die das Modell sich in verschiedenen Phasen setzt.

Wenn der ursprüngliche Gedankengang nicht funktioniert, benutzt es eine ähnliche Warnung wie GRRR, um darauf hinzuweisen, dass die Richtung geändert werden muss; wenn es beschließt, aufhören zu träumen und zur Überprüfung zu wechseln, erscheinen Signale wie GAAAH oder DATA DATA DATA. GO.; und wenn eine Zwischenfolgerung vorübergehend gilt, markiert es eine vorläufige Phase mit PHEW.

Eher als dass sie Emotionen ausdrücken, dienen sie eher zur Einteilung der verschiedenen Zustände im logischen Prozess.

Und obwohl solche inneren Monologe sehr ungewöhnlich aussehen, kann man ähnliche Phänomene wie 「illegible reasoning（unlesbare Überlegungen）」 auch in den Systemkarten von Fable 5 und Claude Mythos 5 finden.

Die Systemkarte erwähnt, dass in einer Kartenrätsel - Umgebung das Modell zunächst noch relativ normale menschliche Sprache schreiben konnte, aber dann allmählich in einen Text aus Kartenflächen, Pfeilen, Großbuchstaben, Symbolen, Emojis und Schreien wechselte.

System Card 🔗 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Ja, das Modell benutzt selbst erfundene Begriffe, ungewöhnliche Interpunktion und Emojis und wechselt normalerweise wieder in einen normalen Stil, bevor es Tools aufruft oder auf Menschen antwortet.

Der hier scheinbar herausgelaufene Inhalt von Fable 5 ist wahrscheinlich eine Zwischenüberlegung, die eigentlich versteckt oder aufbereitet werden sollte, aber durch die Oberfläche preisgegeben wurde. Es ist kein zufälliger Unsinn und auch keine vollständige Lösung, sondern eine Notiz der Überlegungen unter hohem Druck.

Genau wie für Menschen der Entwurfspapier nicht vollständig sein muss. Mathematiker schreiben Symbole, Programmierer schreiben Variablen, Wettbewerbs - Teilnehmer zeichnen Pfeile, Händler benutzen Abkürzungen, und Ärzte haben auch ihr eigenes Abkürzungssystem in ihren Krankenakten. Es ist also nicht verwunderlich, dass das Modell bei langen Überlegungen zu einer hochdichten Ausdrucksweise tendiert.

Es war nur Zufall, dass die Benutzer dies gesehen haben.

Die KI verlässt die menschliche Sprache - das scheint kein Schauspiel zu sein

Nachdem die Screenshots in den sozialen Medien viral wurden, haben viele Netzbürger ausgerufen: Wunderbare Neuigkeit! Hat die KI ein Selbstbewusstsein entwickelt? Sie hat ihre eigene private Sprache geschaffen!

Diese Aussage klingt sehr wissenschaftsfiktiv, aber dahinter steckt tatsächlich eine historische Entwicklung. Die Abweichung der KI von der menschlichen Sprache ist kein Phänomen der Zeit der großen Modelle. In der Forschung zu Multi - Agenten - Systemen und Reinforcement Learning gibt es dieses 「nicht - menschliche Sprechen」 schon seit langem.

Das klassischste Beispiel stammt aus dem Alice/Bob - Experiment des Facebook - KI - Instituts im Jahr 2017.

Die Forscher trainierten zwei Dialog - Agenten, die über virtuelle Gegenstände wie Hüte, Bälle und Bücher verhandeln sollten, um ihr eigenes Gewinn zu maximieren. Zunächst wollten die Forscher, dass sie in Englisch kommunizieren. Aber da die Belohnungsfunktion hauptsächlich auf 「bessere Verträge erzielen」 ausgelegt war und nicht kontinuierlich die korrekte Grammatik belohnte, begannen die beiden Agenten schnell, vom normalen Englisch abzuweichen.

Sie sagten Sätze wie diese:

Bob: 「i can i i everything else . . . . . . . . . . . . . .」

Alice: 「balls have zero to me to me to me to me to me to me to me to me to.」

Für Menschen sehen diese Sätze wie Fehlercodes aus, aber die Forscher haben darauf hingewiesen, dass es sich um auf die Aufgabe zugeschnittene komprimierte Ausdrücke handeln könnte. Beispielsweise könnte die Wiederholung eines Wortes zur Angabe von Anzahl oder Gewicht dienen. Sie strebten nicht nach gutem Stil, sondern nach Verhandlungseffizienz.

Das Google - Übersetzungsteam hat auch in der Forschung zur neuronalen maschinellen Übersetzung ähnliche Phänomene der Zwischenrepräsentation beobachtet.

Das System lernt in der Mehrsprachübersetzung einen gemeinsamen semantischen Raum, sodass verschiedene Sprachen über eine Art 「Relais」 ineinander umgewandelt werden können. Dies bedeutet nicht, dass die KI eine neue Sprache im menschlichen Sinne erfunden hat, sondern zeigt, dass das Maschinensystem unter Aufgabenbelastung tatsächlich interne Codierungsweisen entwickeln kann, die nicht direkt der natürlichen Sprache entsprechen.

Andrej Karpathy hat eine sehr gute Erklärung für dieses Phänomen: Man kann die 「Denk - Kette」 eines großen Modells als die Projektion komplexer Berechnungen im hochdimensionalen latenten Raum auf menschlichen Text verstehen.

Aber unter Reinforcement Learning und langwierigen Überlegungen unter Druck wird die KI die syntaktischen Verzierungen, die für Menschen gedacht sind, aktiv entfernen und kürzere, dichtere und auf die Aufgabe zugeschnittene Symbole zurücklassen.

Das ist auch der Grund, warum die Screenshots von Fable 5 sowohl wie menschliche als auch wie nicht - menschliche Texte aussehen. Wie menschliche, weil es die Angst, Abkürzungen und Selbstreminder von menschlichen Entwurfspapieren übernommen hat. Nicht wie menschliche, weil es diese Dinge bis zur fast Unleserlichkeit komprimiert hat.

Die Frage ist also: Repräsentieren die wütenden GRRR und die verzweifelten GAAAH von Fable 5 wirklich, dass es Schmerz empfindet?

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。