Der Vater von GPT: KI in das Jahr 1930 zurückgeworfen - "Erfindet" Python ohne Codezeile gesehen

So etwas habe ich noch nie gesehen.

Können Sie das glauben? Ein KI-System, das an einem Punkt vor 95 Jahren existiert, hat Python-Code geschrieben. Der Vater von GPT hat mit 260 Milliarden Tokens ein „Antiquität“-KI-System erschaffen.

Eine KI, die nie einen Computer gesehen hat, hat eine moderne Programmiersprache geschrieben!

Dies ist keine Science-Fiction-Szenerie.

Heute hat Alec Radford, der Vater von GPT, zusammen mit seinem Team das aufsehenerregende „talkie“ vorgestellt –

Ein großes Modell mit insgesamt 13 Milliarden Parametern, das nur alte Literatur vor 1931 gelesen hat.

Die „Weltanschauung“ (gesamte Trainingsdaten) von talkie ist am 31. Dezember 1930 eingefroren.

In dieser Zeit gab es kein Internet, keine Wikipedia und auch keinen modernen Code.

Das neueste, was es gelesen hat, sind Patentbücher, wissenschaftliche Zeitschriften, Etikettenbücher und private Briefe aus vor fast einem Jahrhundert.

Aber diese „95 Jahre alte“ KI kann tatsächlich Python-Code schreiben.

Ohne Programmierkenntnisse

hat es Python geschrieben und die „Inverse Funktion“ verstanden

Die spektakulärste Entdeckung von talkie verbirgt sich in einer Reihe von Programmiertests.

Das Team von Alec Radford hatte die Idee, die Programmierfähigkeit von talkie mit HumanEval zu testen –

Es wurden ihm einige Python-Funktionen als Kontextbeispiele gegeben, und dann sollte es neue Programmierprobleme lösen.

Es ist zu beachten, dass in den Trainingsdaten von talkie kein einziger moderner Code enthalten ist. Selbst das Konzept des digitalen Computers existiert nicht in seinem „Wissenssystem“.

Aber das Ergebnis war erstaunlich. Durch Few-Shot-Learning konnte es tatsächlich korrekte Python-Programme schreiben.

Zurzeit kann es zwar nur einfache Einzeiliger Programme ausführen, wie z. B. die Addition von zwei Zahlen oder kleine Änderungen an den Kontextbeispielen vornehmen.

Alec Radford: Der zentrale Kopf hinter GPT, CLIP und Whisper

Aber ein Fall war besonders beeindruckend: Gegeben war eine Codierungsfunktion encode_shift für eine Rotationschiffre, deren Logik darin bestand, jedes Zeichen im Alphabet um fünf Stellen nach hinten zu verschieben.

Talkie hat selbst die entsprechende Decodierungsfunktion geschrieben, wobei die einzige Änderung ein Zeichen war: Das +5 wurde in -5 geändert, das Pluszeichen wurde durch ein Minuszeichen ersetzt.

Es hat tatsächlich die „Inverse Funktion“ verstanden: Wenn die Verschlüsselung eine Addition ist, dann ist die Entschlüsselung eine Subtraktion, das Konzept der inversen Operation.

Link: https://talkie-lm.com/chat

260 Milliarden Tokens, speziell für das Papier aus vor einem Jahrhundert

Warum hat das Team von Alec Radford so viel Mühe aufgewendet, um fast ein Jahrhundert alte physikalische Literatur manuell per OCR zu transkribieren, um ein „Antiquität“-KI-System zu trainieren?

Weil sie eine der zentralen Fragen im KI-Bereich beantworten möchten: Handelt es sich bei den Fähigkeiten von LLMs eher um Inferenz oder um Memorisation?

Talkie kann Python schreiben, was beweist –

LLMs können mit Wissen aus dem 19. Jahrhundert inferieren und nicht nur abrufen. Es muss gesagt werden, dass dies eine echte „Generalisierung“ ist!

Betrachten wir nun die Trainingskorpus von talkie, die als ein riesiges „Archäologieprojekt“ bezeichnet werden kann.

Ihre Trainingsdaten erreichen 260 Milliarden Tokens und stammen alle aus englischen Texten vor 1931, einschließlich Bücher, Zeitungen, Zeitschriften, wissenschaftliche Artikel, US-Patente und Rechtsfälle.

Es ist zu beachten, dass all diese Texte aus physischen Dokumenten gescannt und per OCR transkribiert werden mussten.

Die Wahl von 1930 als Enddatum hat einen praktischen Grund: Dies ist die Grenze des US-Public-Domain-Rechts.

Allerdings hat dies einen unerwarteten Engpass gebracht: Die Datenqualität.

Das Team hat ein Kontrollexperiment durchgeführt: Wenn man ein Modell mit alten Texten trainiert, die mit einem traditionellen OCR-System transkribiert wurden, und vergleicht es mit einem Modell, das mit denselben Texten trainiert wurde, die manuell transkribiert wurden, so beträgt die Lernrate des ersteren nur 30 % der des letzteren.

Einfache RegEx-Reinigung kann diesen Wert auf 70 % erhöhen, aber es besteht immer noch eine große Lücke.

Bei dem Experiment zur Bewertung der Leistung von talkie hat das Team auch ein „modernes Zwillingsmodell“ (talkie-web-13b-base) entwickelt.

Letzteres wurde mit modernen Netzwerkdaten von FineWeb trainiert, und beide Modelle haben die „gleiche Rechenleistung“ verwendet.

Offensichtlich performt talkie in Kernaufgaben der Sprachverstehen und mathematischen Inferenz ähnlich gut wie das moderne Zwillingsmodell.

Aber bei der Evaluierung des allgemeinen Wissens bleibt talkie hinterher, selbst wenn man die Fragen, die aus der Perspektive von 1930 „zeitlich inkonsistent“ sind, herausnimmt.

Das Team vermutet, dass dies stark mit der Datenqualität zusammenhängt.

Dafür plant das Radford-Team, ein „retro-OCR-System“ von Grund auf neu zu trainieren, das speziell für die Transkription von Texten vor 1931 verwendet werden soll.

Mit dem modernsten Claude 4.6

das älteste KI-System trainieren

Das „Post-Training“-Schema von talkie ist auch sehr interessant.

Um ein „Basis-Modell“, das nur alte Bücher gelesen hat, in einen chatfähigen Chatbot zu verwandeln, gibt es keine fertigen Daten für die Befehlseinstellung.

Das Team hat Befehle-Antwort-Paare aus strukturierten Nachschlagewerken vor 1930 extrahiert: Etikettenbüchern, Briefschreibanleitungen, Kochbüchern, Enzyklopädien und Gedichtsammlungen.

Dann wurde mit diesen „retro-Lernmaterialien“ die erste Runde des SFT durchgeführt.

Im anschließenden RLAIF-Schritt hat das Team Online-DPO verwendet, um die Befolgungsfähigkeit von talkie zu verbessern, wobei Claude Sonnet 4.6 als Richter fungierte.

Ein 2026er modernstes KI-System bewertet ein KI-System, das in 1930 „lebt“.

Im letzten Feinabstimmungsschritt hat das Team sogar Claude Opus 4.6 verwendet, um mehrrunde Dialogdaten zu generieren, um die Dialogfähigkeit von talkie zu verbessern.

Während des Trainings ist die Bewertung der Befolgungsfähigkeit von talkie durch Claude von 2,0 auf 3,4 (auf einer Skala von 1 bis 5) gestiegen.

Im letzten Schritt wird Claude Opus 4.6 verwendet, um mehrrunde synthetische Dialoge mit talkie zu führen, und dann wird eine weitere Runde von Rejectionsampling + SFT durchgeführt, um die Dialogfähigkeit zu verbessern.

Das Team hat auch einen ironischen Aspekt eingestanden: Das Training eines Modells, das eigentlich auf 1930 eingefroren sein sollte, mit einem modernen großen Modell ist an sich eine Art „Zeitkontamination“.

Ihr langfristiges Ziel ist es, das retro-Basis-Modell selbst als Richter zu verwenden, um eine vollständig „selbstaktivierende“ Post-Training-Pipeline zu realisieren.

Es ist erwähnenswert, dass die 7B-Version von talkie nach dem RL-Training einen lustigen Nebeneffekt gezeigt hat –

Es beginnt, in Listenform zu sprechen, was einfach von der „schlechten Gewohnheit“ moderner KI-Systeme übertragen wurde.

Die sauberste „Offenbuchprüfung“ in der KI-Branche

Das Forschungs-Team hat auch ein weiteres interessantes Experiment durchgeführt.

Sie haben fast 5.000 historische Ereignisbeschreibungen aus der Rubrik „Heute in der Geschichte“ der New York Times extrahiert und die „Überraschungsstufe“ von talkie für jedes Ereignis berechnet.