Warum ist die KI “sprachlos”?
Die Fans von Times Youth Group haben kürzlich auf sozialen Medien eine Reihe von Screenshots gepostet. Sie baten MiniMax, die Frage „Wer ist der Leiter von Times Youth Group?“ zu beantworten. Das Modell zögerte und gab völlig falsche Antworten wie „Ma Jiaxuan“ und „Ma Siqi“ aus. Wenn man jedoch die Frage umformulierte und fragte: „Welche Erfahrungen hat der Leiter von Times Youth Group?“, antwortete das Modell flüssig. Scheinbar weiß die KI, wer Ma Jiaqi ist, kann aber seinen Namen nicht nennen.
Quelle: Xiaohongshu
Seit langem kennen wir zwei Arten von KI - Fehlern.
Eine wird Halluzination (Hallucination) genannt. Das Modell erzählt mit aller Ernsthaftigkeit Unsinn und erfindet nicht existierende Artikel und Namen. 1
Die andere wird Schmeichelei (Sycophancy) genannt. Es stimmt immer mit dem, was man sagt, überein und folgt den Präferenzen des Benutzers. Insbesondere bei fragen mit einer bestimmten Position wird die Genauigkeit geopfert, um zu gefallen. 2
Der Fall Ma Jiaqi hat einen neuen Fehler aufgedeckt: Das Modell weiß die Antwort, kann sie umschreiben und beweisen, dass es die Antwort kennt, kann sie aber nicht direkt nennen.
Dieses Phänomen ist bereits mit einem Fachbegriff definiert: Untertrainiertes Token (under - trained tokens). Forscher haben die Vokabellisten von GPT - 2, Llama, Mistral und anderen gängigen Open - Source - Modellen untersucht. Die Vokabelliste ist eine feste Liste, die alle möglichen Zeichenkombinationen enthält, bevor das Modell beginnt, zu lesen. Jedes Element wird als Token bezeichnet, und jedes Wort, das das Modell ausgibt, muss aus dieser Liste ausgewählt werden. Die Forscher wollten wissen, ob es in dieser Liste Token gibt, die das Modell nicht richtig gelernt hat. Die Untersuchung hat gezeigt, dass solche „nicht richtig gelernten“ Token in jeder Vokabelliste in Tausenden vorhanden sind. 3
Wer sich mit diesem Bereich auskennt, hat vielleicht von einer früheren Version gehört: SolidGoldMagikarp. Anfang 2023 stellten einige Benutzer der LessWrong - Community zufällig fest, dass GPT - 3 bei diesen Zeichenfolgen inkomprehensible Texte ausgab, sich selbst redete oder sogar den Benutzer beleidigte. Damals wurde es als ein Kuriosum geteilt. Dies ist die Vorgeschichte des Ma - Jiaqi - Falls.
Tokenisierer: Die „Auflösung“ der KI beim Betrachten der Welt
Um zu verstehen, warum das Modell manchmal einen Namen nicht nennen kann, muss man zuerst verstehen, wie es Texte liest.
Große Modelle verarbeiten Texte nicht zeichenweise, sondern tokenweise. Bevor ein chinesischer Text in das Modell eingeht, wird er von einem Tokenisierer (tokenizer) in mehrere Token aufgeteilt. Das Modell berechnet nur mit diesen Token und setzt sie am Ende wieder zu Texten zusammen.
Die Aufteilung basiert auf der Häufigkeit in den vortrainierten Texten: Häufige Kombinationen werden zu einem Token zusammengefasst, seltene Zeichen werden getrennt. Der Algorithmus dieser Aufteilung basiert auf dem 2016 vorgeschlagenen BPE (Byte Pair Encoding). 4 Im Wesentlichen handelt es sich um einen datengesteuerten Zusammenführungsvorgang, bei dem anhand der statistischen Kookkurrenz von Zeichen in den Texten entschieden wird, welche Kombinationen als „ein Bauteil“ behandelt werden sollen.
In der Vokabelliste von MiniMax wird „Ma Jiaqi“ in zwei Token aufgeteilt: „Ma“ und „Jiaqi“. Die beiden Zeichen „Jiaqi“ treten als Idolname häufig genug auf, um vom Tokenisierer zu einem unabhängigen Token zusammengefasst zu werden, während „Ma“ ein eigenes Token ist.
Ob ein Wort als Ganzes oder als Bauteil behandelt wird, ist für das Modell völlig unterschiedlich.
Übrigens variiert die Auflösung des Tokenisierers zwischen verschiedenen Sprachen erheblich. Eine Studie hat die Anzahl der Token verglichen, in die ein Text mit der gleichen Bedeutung in verschiedenen Sprachen aufgeteilt wird. Der Unterschied kann bis zu einem Faktor von 15 betragen. 5 Das heißt, ein chinesischer Nachrichtenartikel kann in das Modell als hundert Token eingehen, während er in Burmesisch oder Amharisch in über tausend Token aufgeteilt wird.
Dieses Phänomen klingt abstrakt, hat aber in der Praxis mehrere Auswirkungen.
Erstens gibt es einen finanziellen Unterschied. Die meisten APIs großer Modelle werden anhand der Anzahl der Token abgerechnet. Der Preis für einen Artikel in einer Sprache kann ein Vielfaches des Preises in einer anderen Sprache betragen.
Zweitens gibt es einen Unterschied in der Länge des Kontexts. Das Modell hat eine Obergrenze für die Kontextfenster. Wenn die Anzahl der Token um den Faktor zehn steigt, bedeutet dies, dass der Inhalt, der in das gleiche Fenster passt, um eine Größenordnung abnimmt.
Drittens gibt es einen Unterschied in der Qualität des Verständnisses. Je feiner ein Wort aufgeteilt wird, desto wahrscheinlicher ist es, dass die Semantik eines Wortes auf mehrere Token verteilt wird, was die Verarbeitung schwieriger macht.
Sprachen mit wenigen Ressourcen sind in jeder Hinsicht benachteiligt. Obwohl dies eine andere Art von systemischer Abweichung ist, teilt sie die gleiche zugrunde liegende Struktur wie der Stummheitsmechanismus im Ma - Jiaqi - Fall: Der Tokenisierer bestimmt den Ausgangspunkt alles.
„Jiaqi“ ist ein unabhängiges Token. Nun wollen wir sehen, was mit diesem Token im Gehirn des Modells passiert.
Im Vortraining gut gelernt, im Nachtraining verdrängt
Das Training großer Modelle erfolgt in zwei Phasen.
Im Vortraining werden Milliarden von Token aus einer riesigen Menge an Internettexten verwendet. In dieser Phase lernt das Modell die grundlegenden Sprachfähigkeiten und die Weltwissen. Es hat Wikipedia, Nachrichten, Foren und Fandom - Texte gelesen. Die drei Zeichen „Ma Jiaqi“ sind wahrscheinlich hunderttausende Male in den Texten aufgetaucht.
Im Nachtraining werden ausgewählte Dialogdaten verwendet, deren Menge auf Millionen bis Zehn Millionen Token reduziert ist. In dieser Phase lernt das Modell, wie man chatet, wie man Anweisungen befolgt und wie man keine unreinen Worte verwendet. Dieses Paradigma wurde von dem OpenAI - Team in der InstructGPT - Studie 2022 festgelegt. 6 Die überwachte Feinabstimmung (SFT) und die auf menschlichem Feedback basierende Verstärkungslernen (RLHF) sind seitdem Standard in der Branche.
Die Ingenieure von MiniMax haben festgestellt 7, dass das Token „Jiaqi“ im Vortraining gesehen wurde und eine normale Vektordistribution hat. Das heißt, das Modell kannte Ma Jiaqi am Ende des Vortrainings.
Das Problem tritt im Nachtraining auf. In den ausgewählten SFT - Dialogdaten gibt es weniger als fünf Beispiele, die „Jiaqi“ enthalten. Während des gesamten Nachtrainings wurde dieses Token kaum trainiert.
Hier tritt das zweite Schlüsselkonzept auf: Katastrophales Vergessen (catastrophic forgetting).
Dieser Begriff geht auf eine grundlegende Studie aus dem Jahr 2017 in der Zeitschrift „PNAS“ zurück. 8 Neuronalnetze verlieren beim Lernen neuer Aufgaben die Fähigkeiten der alten Aufgaben, weil die Parameter durch neue Daten wiederholt überschrieben werden. In der Zeit der großen Modelle wird dieses Phänomen erneut ernsthaft untersucht. Eine empirische Studie speziell für die Phase der kontinuierlichen Feinabstimmung hat gezeigt, dass katastrophales Vergessen in großen Modellen weit verbreitet ist und mit der Größe des Modells verschlechtert wird. 9
Was passiert im Vektorraum genau?
Im Nachtraining treten häufig vorkommende Token auf, wie z. B. Tool - Aufrufmarkierungen, Codesymbole, alltägliche Dialogwörter und sichere Ablehnungsschablonen. Die Vektorparameter dieser Token werden kontinuierlich aktualisiert und drängen in einem hochdimensionalen Raum die Positionen seltener Token wie bei einer Plattentektonik zusammen.
Der Vektor von „Jiaqi“ wird aus dem ursprünglichen korrekten Generierungswahrscheinlichkeitsbereich gedrängt. Wenn das Modell „Jiaqi“ ausgeben will, kann es entweder dieses Token nicht finden, oder seine Wahrscheinlichkeit wird von ähnlich klingenden Wörtern wie „Jiaqi“ oder „Qiqi“ oder von wörtlich ähnlichen Wörtern wie „Jiaxuan“ oder „Siqi“ überdeckt. So gibt es eine Reihe von lächerlichen Antworten.
In der Wissenschaft gibt es für dieses Phänomen einen entsprechenden Begriff: Ausrichtungssteuer (alignment tax). Dies bedeutet, dass das Modell beim Ausrichten einen Teil seiner Vortrainingsfähigkeiten verliert. Die Genauigkeit, die Wissensbreite und die Generierungsvielfalt werden in unterschiedlichem Maße beeinträchtigt. Die Reduzierung dieser Steuer ist bereits ein Forschungsgebiet. 10
Die KI kennt also Ma Jiaqi, vergisst aber, wie man die beiden Zeichen „Jiaqi“ ausspricht, während sie lernt, wie man spricht.
An Hand des menschlichen „Stotterns“ das „Stummsein“ der KI verstehen
Jetzt ist der Mechanismus des Stummseins der KI klar: Der semantische Pfad ist intakt, der oberflächliche Generierungspfad ist unterbrochen. Die interne Repräsentation des Modells enthält Ma Jiaqi, aber diese Repräsentation kann nicht an den Ausgangspunkt gelangen.
Dieses Fehlermuster, bei dem etwas intern vorhanden ist, aber nicht extern ausgegeben werden kann, kann in der Kognitionswissenschaft auf ein etabliertes Forschungsparadigma zurückgeführt werden: Das auf - der - Zunge - sitzen - Phänomen (Tip - of - the - tongue, TOT).
1966 haben Brown und McNeill das auf - der - Zunge - sitzen - Phänomen in ein wiederholbares Experiment umgesetzt. 11 Sie lasen den Probanden Wörterbuchdefinitionen vor und baten sie, das entsprechende Wort zu nennen. Wenn die Probanden beim Wort „sextant“ (Sextant) hängen blieben, nannten sie „secant“ (Sekante) oder „sexton“ (Kirchdiener). Sie konnten die Anfangsbuchstaben, die Anzahl der Silben und die Anzahl der „s“ genau angeben, konnten aber das Wort „sextant“ nicht nennen.
Unter Verwendung des „auf - der - Zunge - sitzen - Phänomens“ als Hilfsmittel können wir drei bisher unklare Aspekte des Stummseins der KI aufdecken.
Stummsein bedeutet nicht Vergessen
Wenn Menschen beim Wort „sextant“ hängen bleiben, wissen sie immer noch, dass das Wort existiert, was es bedeutet und wie es ungefähr klingt. Wenn MiniMax beim Wort „Jiaqi“ hängen bleibt, kann es immer noch die Identität, das Debütjahr, die Fernsehshows und die Hauptwerke von Ma Jiaqi beschreiben.
Dies ist ein kontraintuitiver Schluss: Das Modell hat in diesem Fehlerfall nicht vergessen, es kann es nur nicht abrufen. Bei der Bewertung des Modells sollten die Fähigkeit, etwas auszugeben, und das Wissen, ob etwas bekannt ist, getrennt gemessen werden.
Die technische Bedeutung ist klar. Die gängige Bewertungsmethode, die auf der Richtigkeit der Ausgabe basiert, besteht darin, eine Frage zu stellen und zu sehen, ob das Modell richtig antwortet. Das Modell kann an der Ausgabe wiederholt fehlschlagen, aber in seiner internen Repräsentation weiß es eigentlich genau Bescheid. Für diese Art von Fehlern ist eine spezielle Sondenbewertung erforderlich, um die interne Aktivierung des Modells und die Vollständigkeit der relevanten Repräsentationen zu überprüfen.
Häufigkeit und Verbindungsstärke sind entscheidend
Die 1991 vorgeschlagene Übertragungsdefizithypothese (Transmission Deficit Hypothesis) erklärt, warum ältere Menschen häufiger das auf - der - Zunge - sitzen - Phänomen erleben als jüngere Menschen. Der Schlüssel dieser Theorie ist nicht, dass das Wort nicht gelernt wurde, sondern dass es seit langem nicht verwendet wurde und die Verbindungsstärke zwischen den Knoten abgenommen hat.
Wenn man diesen Rahmen auf das Stummsein der KI anwendet, stimmt fast alles überein:
„Jiaqi“ wurde im Vortraining gesehen und hat eine normale Vektordistribution. Es wird im Nachtraining von häufig vorkommenden Token verdrängt, und die Verbindungsstärke wird relativ geschwächt. Dies entspricht dem Prozess, den Wörter in den Köpfen älterer Menschen durchlaufen, die zwar gehört, aber nicht oft verwendet werden.
Die technische Bedeutung ist ebenfalls klar. Die Lösung liegt nicht in der Hinzufügung weiterer Texte, denn im Vortraining wurde „Jiaqi“ bereits hunderttausende Male gesehen. MiniMax hat sich entschieden, jedem Token in der Vokabelliste mindestens eine Trainingschance zu geben, um die Verbindungsstärke seltener Token zu schützen.
Ersatzausgaben sind diagnostische Signale
Die ähnlichen Wörter, die Menschen im TOT - Zustand nennen, sind nicht zufällig. „Secant“ und „sexton“ treten auf, weil sie mit „sextant“ die gleiche Anfangssilbe und die gleiche Wortstruktur teilen. Dies ist ein Nebenprodukt der Aktivierungsausbreitung (spreading activation), bei der benachbarte Knoten des Zielwortes teilweise aktiviert werden, aber das Zielwort selbst nicht genug aktiviert wird.
Wenn die KI stumm ist und Wörter wie „Jiaxuan“ oder „Jiaqi“ ausgibt, ist der Mechanismus ähnlich. Dies sind die fehlerhaft aktivierten Nachbarn im Vektorraum um „Jiaqi“ herum: Sie sind entweder phonetisch ähnlich, teilen ein Zeichen oder treten in der chinesischen Idolnamengebung häufig zusammen auf.
In technischer Hinsicht ist die Beobachtung der fehlerhaften Ausgaben des Modells nützlicher als die reine Statistik der Richtigkeit. Die Art des Fehlers bestimmt, ob das Problem auf der Tokenisiererebene, der Repräsentationsebene oder der Decodierungsebene liegt. Wenn alle Fehler zu einer Genauigkeitszahl zusammengefasst werden, werden die diagnostischen Signale verworfen.
Das menschliche auf - der - Zunge - sitzen - Phänomen bietet ein fertiges, von einer halben Jahrhunderts Forschung geprägtes diagnostisches Vokabular, wie z. B. semantische Knoten, Übertragungsdefizit und Aktivierungsausbreitung. Diese Begriffe können direkt auf das neue Phänomen des Stummseins der KI angewendet werden.
Das Spektrum von KI - Fehlern erhält einen neuen Eintrag
Wenn man das „Stummsein“ in das Gesamtbild der KI - Fehlerforschung betrachtet, wird klar, dass es kein isoliertes Kuriosum ist, sondern ein neuer Punkt auf einer bereits anfänglich geformten Karte.
Die folgende Tabelle listet die wichtigsten Arten von KI - Fehlern auf, die von der Wissenschaft identifiziert, benannt und systematisch untersucht wurden.