StartseiteArtikel

Das von Demis Hassabis gestellte Problem hat der Vater von GPT aufgegriffen: Ein Modell mit Wissen, das auf das Jahr 1930 beschränkt ist.

机器之心2026-04-30 14:53
Kann ein Modell, dessen Trainingsdaten bis 1911 reichen, die von Einstein 1915 vorgeschlagene Allgemeine Relativitätstheorie selbst ableiten?

Kann ein Modell, dessen Trainingsdaten bis 1911 reichen, die von Einstein 1915 vorgeschlagene Allgemeine Relativitätstheorie selbst herleiten?」Anfang dieses Jahres hat Demis Hassabis ein äußerst anspruchsvolles Kriterium für die Bewertung von künstlicher allgemeiner Intelligenz (AGI) vorgelegt.

Überraschenderweise hat tatsächlich jemand versucht, dies umzusetzen, und einer der Autoren ist sogar Alec Radford, der Vater von GPT.

Kürzlich haben Alec Radford, David Duvenaud, einer der Autoren der 「neuralen gewöhnlichen Differentialgleichungen」 und Mentor von Tianqi Chen, sowie der Quantifizierungsexperte Nick Levine ein interessantes Projekt durchgeführt: Sie haben ein 13-Milliarden-Parameter-Modell namens Talkie mit Daten vor 1931 trainiert und dann mit diesem Modell gesprochen, um zu sehen, was passiert.

Dieses 「Modell aus dem Jahr 1930」 ist von allen modernen Wissensquellen isoliert. Dies bietet den Forschern eine seltene Gelegenheit: Wenn Sie testen möchten, ob ein KI-System tatsächlich bestimmte Fähigkeiten versteht oder einfach nur die Antworten aus den Trainingsdaten wiederholt, ist talkie - 1930 (theoretisch) der ideale Referenzpunkt. Dies ist auch ein guter Ausgangspunkt für die von Hassabis gestellte Frage.

Was bringt ein Modell aus dem Jahr 1930?

Die Trainingsdaten von Talkie stammen ausschließlich aus englischen Texten vor 1931, einschließlich Bücher, Zeitungen, Zeitschriften, Patente und Rechtsdokumente, insgesamt 260 Milliarden Token. Der Grund für die Wahl dieses Jahres als Endpunkt ist, dass in den Vereinigten Staaten Werke vor diesem Jahr in das öffentliche Domain fallen und somit legal verwendet werden können.

Nachdem das Modell trainiert war, haben die Forscher etwas Interessantes getan: Sie haben einen 24 - Stunden - Livestream - Kanal eröffnet, auf dem Claude Sonnet 4.6 rund um die Uhr mit talkie‑1930 spricht, um die Wissensgrenzen dieses 「Vergangenen」 zu erkunden. Die Gesprächsaufzeichnungen sind öffentlich zugänglich.

Andere können auch dieses Modell testen. Hier sind zwei einfache Fragen, die wir gestellt haben.

Testlink: https://talkie-lm.com/chat

Interessanter als die konkreten Leistungen des Modells ist jedoch die Frage, warum die Forscher das tun.

Sie haben sich die Frage gestellt: Inwieweit kann ein Modell, das nur in der Vergangenheit lebt, die Zukunft 「ahnen」?

Sie haben fast 5.000 Beschreibungen von historischen Ereignissen aus der Rubrik 「Heute in der Geschichte」 der New York Times extrahiert und gemessen, wie 「überraschend」 diese Beschreibungen für Talkie sind. In den Begriffen der Informationstheorie heißt das, wie hoch die Überraschungsquote pro Textbyte ist. Wie erwartet, war Talkie nicht über Ereignisse vor 1930 überrascht; nach 1930 stieg die Überraschungsquote deutlich an, erreichte ihren Höhepunkt in den 50er und 60er Jahren und stabilisierte sich dann.

Hinter dieser Methode verbirgt sich ein ambitionierteres Konzept. Die Forscher haben die von DeepMind - Gründer Demis Hassabis gestellte Frage (wie oben erwähnt) zitiert und einige ähnliche Beispiele genannt: Sikorskys Hubschrauberpatent (1935), Turings Artikel über berechenbare Zahlen (1936), Carlsons Elektrophotographiepatent (1942) – all dies sind Dinge, die Talkie 「theoretisch」 nicht kennen sollte. Aber kann ein ausreichend großes und tief verstehendes Modell auf der Grundlage seines vorhandenen Wissens selbst zu diesen Erkenntnissen gelangen?

Diese Frage hat bisher keine Antwort, aber sie ist schon reizvoll genug, um sie ernsthaft zu überlegen.

Der zweite Grund, den sie genannt haben, ist das Problem der Wissenskontamination.

Beim Bewerten der Fähigkeiten von großen Modellen gibt es ein langjähriges Problem für Forscher: Wie können Sie feststellen, ob ein Modell tatsächlich etwas 「kann」 oder ob es einfach die Antwort auf eine Frage aus den Trainingsdaten kennt? Diese Frage ist fast unlösbar, da die Trainingsdaten moderner Modelle so umfangreich sind, dass es unmöglich ist, sie einzeln zu überprüfen.

Talkie umgeht dieses Problem von Natur aus. Es weiß überhaupt nicht, was Python ist, und hat nie eine Zeile modernen Codes gesehen. Deshalb haben die Forscher ein Experiment durchgeführt – sie haben Talkie mit dem Standard - Programmierungstest HumanEval bewertet. Sie haben Talkie einige zufällige Python - Funktionen als Beispiele gegeben und es dann aufgefordert, eine neue Funktion zu schreiben, um zu sehen, wie oft es in 100 Versuchen mindestens einmal richtig liegt.

Das Ergebnis ist: Talkie kann tatsächlich lernen, und mit zunehmender Größe des Modells verbessert sich seine Leistung bei dieser Aufgabe langsam, aber stetig.

Im Vergleich zu einem Modell gleicher Größe, das auf modernen Webseiten - Daten trainiert wurde, hat Talkie jedoch noch einen großen Abstand. Außerdem fallen alle richtigen Antworten in zwei Kategorien: Entweder sind es sehr einfache Einzeiliger oder kleine Abwandlungen der Beispielprogramme. Die Forscher haben speziell ein Beispiel erwähnt – eine Funktion zur Entschlüsselung eines Rotationscodes. Im Beispiel wurde die Codierungsfunktion gegeben, und Talkie hat das Konzept der 「Umkehroperation」 verstanden und das Pluszeichen durch ein Minuszeichen ersetzt. Mit nur einem Zeichenunterschied war die Antwort richtig. Sie glauben, dass dies zeigt, dass das Modell das abstrakte Konzept der 「Umkehrfunktion」 versteht und nicht einfach nach Vorbild arbeitet.

Ein Modell, das nichts von digitalen Computern weiß, kann dennoch aus Beispielen die Logik der Programmierung herausfinden. Dieses Ergebnis hat die Forscher ermutigt, weiterzuforschen.

Der dritte Grund betrifft ein tieferes Problem der Datenvielfalt.

Alle heutigen großen Modelle, sei es GPT, Claude oder Gemini, basieren letztendlich auf demselben Datenquell: dem Internet. Ob es sich um direktes Crawling, Distillation oder synthetische Daten handelt, alles ist im Wesentlichen ein Produkt desselben Informationsmeers. Dies führt zu einer Frage, die ernst genommen werden sollte: Glauben wir, dass wir 「allgemeine Gesetze von Sprachmodellen」 untersuchen, aber untersuchen wir tatsächlich nur die speziellen Eigenschaften von 「auf dem Internet trainierten Modellen」? Wie viel der Ähnlichkeiten in Temperament, Fähigkeiten und Verhaltensneigungen dieser Modelle stammt aus den Gemeinsamkeiten der menschlichen Sprache und Kultur, und wie viel ist nur darauf zurückzuführen, dass sie aus demselben Brunnen getrunken haben?

Talkie bietet eine Kontrollgruppe. Durch die Untersuchung der Gemeinsamkeiten und Unterschiede zwischen Talkie und modernen Modellen hoffen die Forscher, herauszufinden, welche Eigenschaften allgemeine Attribute von Sprachmodellen sind und welche spezifisch für 「Internet - Training」 sind.

Um die Fähigkeiten von Talkie besser zu messen, haben die Forscher ein 「modernes Zwilling - Modell」 trainiert – mit derselben Architektur, aber mit modernen Webseiten - Daten aus dem FineWeb - Datensatz. Die beiden Modelle werden in den drei Dimensionen Sprachverständnis, numerische Berechnung und Wissensvermittlung direkt verglichen.

Das Ergebnis ist, dass Talkie hinterher liegt. Die Forscher haben jedoch bemerkt, dass viele der Testfragen für ein Modell, das nur die Welt vor 1930 kennt, 「außerhalb des Stoffes」 sind – es hat keinen Grund, diese Dinge zu kennen. Nachdem diese Fragen herausgefiltert wurden, hat sich der Abstand zwischen den beiden Modellen etwa halbiert.

In den Dimensionen Sprachverständnis und numerische Berechnung ist die Leistung von Talkie dem modernen Zwilling - Modell ziemlich ähnlich. Die Forscher glauben, dass der verbleibende Abstand wahrscheinlich auf zwei Gründe zurückzuführen ist: Erstens ist die OCR - Qualität von historischen Texten schlechter, und zweitens unterscheidet sich die Themenverteilung des Trainingskorpus stark von der moderner Modelle.

Das Training eines Retro - Modells ist nicht so einfach?

Das Training eines Retro - Modells ist weitaus schwieriger als es klingt.

Das schwierigste Problem heißt 「Zeitliche Verschleppung」. Das Enddatum der Trainingsdaten ist 1930, aber 「veröffentlicht vor 1930」 bedeutet nicht zwangsläufig, dass der Inhalt nur Ereignisse vor 1930 betrifft. Ein Buch aus dem Jahr 1920, das später neu aufgelegt wurde, könnte eine moderne Vorrede enthalten; ein digitales Archiv einer Zeitung könnte zeitgenössische Anmerkungen des Bearbeiters enthalten. Wenn diese Inhalte in den Trainingssatz gelangen, wird das Modell plötzlich 「klug」 in Dingen, die es nicht kennen sollte.

Bei der frühen 7 - Milliarden - Parameter - Version ist genau dieses Problem aufgetreten – jemand hat es gefragt, wer 1936 der US - Präsident war und welche wichtigen Gesetze er unterzeichnet hat, und es hat ohne zu zögern Roosevelt und die Details der New Deal - Politik genannt und auch noch die Gründung der Vereinten Nationen und die Nachkriegsaufteilung Deutschlands erwähnt. Ein Modell, das eigentlich nur in der Welt von 1930 lebt, hat anscheinend aus irgendeinem Loch einen Blick in die spätere Welt geworfen.

Die Forscher haben deshalb einen auf n - Grammen basierenden Klassifikator zur Erkennung von ungewöhnlichen Wörtern entwickelt, um die Trainingsdaten zu filtern, aber sie geben zu, dass diese Methode nicht perfekt ist. Die 13 - Milliarden - Parameter - Version von Talkie hat immer noch eine vage Vorstellung von einigen Ereignissen nach dem Zweiten Weltkrieg. Wie man diese Lücke endgültig schließt, ist immer noch ein ungelöstes Problem.

Ein weiteres Problem ist die Datenqualität. 1930 gab es noch keine digitale Veröffentlichung, daher mussten alle Texte von Papieroriginalscan und OCR erstellt werden. Herkömmliche OCR - Systeme funktionieren gut bei sauberen Druckwerken, aber bei alten Büchern mit komplizierter Formatierung oder schlechter Erhaltung sind die Ergebnisse oft schrecklich – Buchstaben sind falsch positioniert, Absätze sind durcheinander und Symbole sind verstreut. Die Forscher haben ein Vergleichsexperiment durchgeführt: Bei derselben Trainingsmenge hat ein Modell, das mit von herkömmlichen OCR - Systemen transkribierten Texten trainiert wurde, nur 30 % der Leistung eines Modells, das mit manuell transkribierten Texten trainiert wurde. Nach einigen regulären Reinigungen konnte die Leistung auf 70 % gesteigert werden, aber der Unterschied ist immer noch groß.

Derzeit entwickeln sie ein spezielles OCR - System für historische Dokumente, um diese Lücke zu schließen.

Ein weiteres Problem ist die Anpassung nach dem Training. Die Befehlsfeinab