StartseiteArtikel

Die Fähigkeiten von KI haben nun ein Maß und Gewicht. Zhou Lexin, ein akademischer Neuzugang aus der Generation der 2000er, hat erneut in der Zeitschrift "Nature" veröffentlicht, mit zwei Artikeln in zwei Jahren.

果壳硬科技2026-04-03 11:42
Worin liegt die Besonderheit dieser Dissertation?

Die neueste Publikation in Nature ist eine Forschungsarbeit mit dem Titel "General scales unlock AI evaluation with explanatory and predictive power" (Allgemeine Skalen entriegeln die AI - Bewertung mit Erklärungs- und Vorhersagekraft). Das Forschungsteam besteht aus 26 Wissenschaftlern und Ingenieuren von Institutionen wie der Princeton University, der Universität von Cambridge, dem Microsoft Research, OpenAI, DeepSeek, Meta und der Polytechnische Universität Valencia.

Der erste Autor und Korrespondenzautor, Zhou Lexin, hat in seinen Identitätsinformationen gleichzeitig vier Institutionen angegeben: Princeton, die Universität von Cambridge, das Microsoft Research in Asien und die Polytechnische Universität Valencia. Zu den Korrespondenzautoren gehören auch Xie Xing vom Microsoft Research in Asien und José Hernández - Orallo von der Universität von Cambridge.

Dies ist eine der umfangreichsten und systematischsten Forschungsarbeiten zur AI - Bewertungsmethodik in den letzten Jahren.

Zwei Publikationen in Nature in zwei Jahren, der erste Autor ist ein Nach - 2000er

Das ist bereits Zhou Lexins zweite Publikation in Nature innerhalb von zwei Jahren.

Im September 2024 veröffentlichte der erst 23 - jährige Zhou Lexin als erster Autor seine erste Arbeit in Nature: "Larger and more instructable language models become less reliable" (Größere und leichter anweisbare Sprachmodelle werden weniger zuverlässig).

Diese Arbeit brachte eine These auf, die damals die gesamte AI - Szene in Aufruhr versetzte: Größere und neuere AI - Modelle sind paradoxerweise weniger zuverlässig. Damals analysierte er und sein Team mehrere führende AI - Modellsätze wie GPT, LLaMA und BLOOM und stellten fest, dass mit zunehmender Modellgröße und Einbeziehung von mehr menschlichen Rückmeldungen bei der Trainingsphase die Modelle bei der Beantwortung von Benutzern Fragen eher fehlerhafte Antworten lieferten. Noch seltsamer war, dass neuere Modelle (wie GPT - 4) bei Fragen, die über ihre Fähigkeiten hinausgehen, nicht mehr wie ältere Modelle "wussten, dass sie es nicht können" und daher die Fragen meideten, sondern eher bereit waren, fehlerhafte Antworten zu geben. Die Forscher nannten dieses Phänomen "Überconfidenz".

Sobald diese Arbeit veröffentlicht wurde, löste sie heftige Diskussionen aus. Auf Reddit allein waren mehr als 200.000 Nutzer an der Diskussion beteiligt.

Was sagt die neu veröffentlichte Arbeit?

Weniger als ein Jahr nach der Veröffentlichung der letzten Arbeit kehrte Zhou Lexin mit seiner zweiten Publikation in Nature zurück. Diesmal stellte er nicht nur Probleme fest, sondern entwickelte auch eine umfassende Lösung.

Der Titel der aktuellen Arbeit lautet "General scales unlock AI evaluation with explanatory and predictive power". Zu Beginn der Arbeit wird ein grundlegendes Problem aufgedeckt: Die bestehenden AI - Bewertungsmethoden, die darin bestehen, dass das AI - System Aufgaben löst und dann bewertet wird, können eigentlich nicht klären, welche Fähigkeiten das AI - System tatsächlich hat.

Wenn Sie beispielsweise sehen, dass ein AI - System in einem Mathematiktest 90 Punkte erzielt, was kann Ihnen diese Zahl sagen? Gar nichts.

Sie können daraus nicht ableiten, ob es eine andere Mathematikaufgabe lösen kann, und noch weniger vorhersagen, ob es Leseverständnis, Code - Schreiben, Bildanalyse und andere Aufgaben bewältigen kann. Der Grund ist einfach: Die Punktzahl ist nur eine Zahl, die das Ergebnis einer Mischung aus Fähigkeiten, Schwierigkeitsgrad der Prüfung, Aufgabenart und anderen Faktoren ist und nicht aufgelöst werden kann.

Deshalb sagen viele Leute, dass "die AI - Bewertung eine schwarze Kiste ist": Sie wissen nicht, warum das AI - System richtig liegt, noch warum es falsch liegt.

Die Lösung des Teams um Zhou Lexin besteht darin, jeder Aufgabe und jedem AI - System ein Label zu geben und ein einheitliches "Maßsystem" aufzubauen.

Konkret haben sie eine "allgemeine Skala" mit 18 Dimensionen entwickelt. Diese 18 "Maßstäbe" lassen sich grob in drei Kategorien einteilen:

Elementare Fähigkeitsskalen (11): Dazu gehören Grundfähigkeiten wie Aufmerksamkeitsscan, Inhaltsausdruck, Konzeptlernen und Abstraktion, logisches Denken, Metakognition (Wissen, ob man etwas kann) und Denkmodellierung.

Wissensskalen (5): Sie umfassen Wissen aus Bereichen wie Allgemeinwissen, Naturwissenschaften, angewandten Wissenschaften, formalen Wissenschaften und Sozialwissenschaften.

Schwierigkeitshilfsskalen (2): Ob die Aufgabe "außergewöhnlich" ist (je ungewöhnlicher, desto schwieriger) und die Länge der Aufgabe.

Nehmen wir beispielsweise an, mit ihrer Methode wird eine Mathematikaufgabe wie folgt markiert: Welche logische Denkfähigkeit ist erforderlich, welches Wissen aus welchem Bereich wird benötigt, ob die Aufgabe "außergewöhnlich" ist, wie lang die Aufgabe ist und so weiter. Dann wird auch das AI - Modell in denselben Dimensionen als "Fähigkeitsbild" markiert - beispielsweise hat ein bestimmtes Modell eine logische Denkfähigkeit von Stufe 4,5 und ein Wissensniveau von Stufe 3,8. Wenn man die beiden vergleicht, kann man vorhersagen, ob das AI - System diese Aufgabe lösen kann.

Der Kerngedanke dieser Methode besteht darin, nicht nur die Fähigkeiten des AI - Systems zu bewerten, sondern auch den Schwierigkeitsgrad jeder Prüfaufgabe zu markieren und dann beide unter einheitlichen Standards zu vergleichen.

Die Forscher haben umfangreiche Experimente mit 15 führenden AI - Modellen und 20 Benchmark - Tests (die mehrere Bereiche wie Mathematik, Leseverständnis, Wissenschaft und Sprache umfassen) durchgeführt und insgesamt über 16.000 Aufgaben und fast 300.000 markierte Daten analysiert. Die Ergebnisse sind aufmunternd:

Vorhersage innerhalb der Verteilung (Testaufgaben stammen aus derselben Quelle wie die Trainingsaufgaben): Der auf der Skala basierende Prädiktor erreichte einen AUROC von 0,84 (Ein Maß für die Fähigkeit, zwischen Erfolg und Misserfolg zu unterscheiden) und einen Kalibrierungsfehler von nur 0,01. Dies bedeutet, dass bei der Vorhersage der Wahrscheinlichkeit, dass ein AI - System eine Aufgabe richtig löst, nicht nur die Beurteilung genau ist, sondern auch die Wahrscheinlichkeitsabschätzung sehr zuverlässig ist.

Vorhersage außerhalb der Aufgabenverteilung (Vorhersage der Leistung des AI - Systems bei neuen Aufgaben): Die Genauigkeit sank nur leicht auf 0,81 und ist immer noch weit besser als andere Methoden.

Vorhersage außerhalb der Benchmark - Verteilung (Vorhersage der Leistung des AI - Systems bei einem völlig neuen Benchmark): Die Genauigkeit blieb bei 0,75.

Im Vergleich dazu erzielten Vorhersagemethoden, die auf Text - Embeddings (wie GloVe) oder direktem Finetuning von Sprachmodellen basieren, bei diesen Aufgaben deutlich schlechtere Ergebnisse, insbesondere bei der Vorhersage außerhalb der Verteilung. Dies zeigt, dass die neue Methode eine stärkere Generalisierungsfähigkeit hat und weniger dazu neigt, Muster in den Trainingsdaten "auswendig zu lernen".

Prozess zur Erklärung und Vorhersage der Leistung von neuen AI - Systemen und Benchmark - Tests: Der obere Teil ist der Systemprozess: Ein neues AI - System wird im ADeLe - Paket ausgeführt, die Dimensionsmerkmalskurve wird gezeichnet und das Fähigkeitsbild wird extrahiert. Optional kann ein einfacher Bewertungsalgorithmus trainiert werden. Der untere Teil ist der Aufgabenprozess: Die DeLeAn - Regeln werden mit einem Standard - Sprachmodell auf eine neue Aufgabe angewendet, ein Bedarfs - Histogramm und ein Bild werden erzeugt. Mit Hilfe des Bewertungsalgorithmus kann die Leistung des Systems bei der neuen Aufgabe vorhergesagt werden.

Was wurde noch entdeckt?

Außer der Entwicklung der Bewertungsmethode enthüllt die Arbeit auch einige überraschende Ergebnisse.

Erstens "schummeln" viele Benchmark - Tests. Die Forscher analysierten 20 führende AI - Benchmark - Tests und stellten fest, dass die meisten Tests nicht das messen, was sie behaupten zu messen. Beispielsweise behauptet ein Mathematiktest, "mathematische Denkfähigkeit" zu testen, aber in Wirklichkeit ist die Anforderung an die Denkfähigkeit nicht sehr hoch, sondern vielmehr die Anforderung an spezifisches Wissen aus einem bestimmten Bereich. Mit anderen Worten, diese Tests testen möglicherweise nur, ob das AI - System eine bestimmte Aufgabe lösen kann, und nicht, ob es die eigentlichen Fähigkeiten besitzt. Noch gravierender ist, dass viele Tests das Problem der "Kontamination" haben - das AI - System hat möglicherweise ähnliche Aufgaben während des Trainings gesehen, was zu überhöhten Punktzahlen führt.

Zweitens bedeutet ein größeres Modell nicht unbedingt besser. Die Forscher entdeckten den Effekt der "marginalen Abnahme" bei der Skalierung großer Modelle. Im Vergleich zu seiner 2024 veröffentlichten Arbeit, in der er behauptete, dass "größere Modelle schlechter sind", korrigierte Zhou Lexin seine Formulierung: Je größer das Modell, desto geringer der Nutzen, und die Trainingsmethode ist möglicherweise wichtiger als die Größe. Wenn die Anzahl der Parameter des Modells bereits sehr groß ist (z. B. über 7 Milliarden Parameter), wird die Verbesserung der Fähigkeiten mit zunehmender Größe immer geringer. Wichtiger noch ist, dass einige Modelle, die die "Chain - of - Thought" - Technologie verwenden (d. h. sie zeigen den Denkprozess vor der Antwort, wie OpenAI o1 und DeepSeek - R1), bei der logischen Denkfähigkeit eine weitaus größere Verbesserung erzielen als bei reinem Parameteranstieg.

Warum ist diese Arbeit wichtig?

Diese Arbeit löst ein Problem, das jedermann bekannt ist, aber niemand lösen konnte: Wie kann man die Fähigkeiten eines AI - Systems wirklich "sehen"? Dieses Problem ist direkt mit der sicheren und zuverlässigen Einführung von AI in reale Anwendungsfälle verbunden.

Der aktuelle Branchenstandard besteht darin, einen Benchmark - Test (z. B. ein Mathematik - Aufgabenpool) durchzuführen, das AI - System die Aufgaben lösen zu lassen, eine Punktzahl zu vergeben und dann zu verkünden: "Unser Unternehmen hat wieder gewonnen". Aber diese Bewertungsmethode hat drei fatale Probleme:

Erstens kann man nicht erklären, warum das AI - System verliert. Die Punktzahl sagt Ihnen nicht, welche Fähigkeiten das AI - System fehlen.

Zweitens sind verschiedene Tests nicht vergleichbar. Sind 90 Punkte in Mathematik und 90 Punkte in Leseverständnis gleich?

Drittens kann man die Leistung bei neuen Aufgaben nicht vorhersagen. Sie wissen, dass das AI - System Mathematikaufgaben lösen kann, aber wissen Sie, ob es Code schreiben kann?

Die Methode, die das Team um Zhou Lexin entwickelt hat, ist wie ein "Maßstab" für die AI - Fähigkeiten, der die obigen drei Probleme tatsächlich löst. Die Forscher haben sogar den Effekt der "marginalen Abnahme" bei der Skalierung großer Modelle entdeckt.

Diese Methode kann nicht nur zur wissenschaftlicheren Bewertung von AI verwendet werden, sondern auch in der praktischen Implementierung eingesetzt werden: Unternehmen können vorab beurteilen, ob ein bestimmtes AI - System für eine bestimmte Aufgabe geeignet ist, und Sicherheitsbehörden können vorhersagen, wo das AI - System möglicherweise "stolpert".

Was macht diese Arbeit so beeindruckend?

Dies ist keine beliebige "AI - Ranglisten - Forschung".

Erstens löst sie ein reales Problem. Die Schwierigkeiten bei der AI - Bewertung sind keine Theorie, sondern das Vertrauen und die Interpretierbarkeit von AI sind Probleme, die die gesamte Branche interessieren. Regierungen, Unternehmen und Aufsichtsbehörden aller Länder fragen sich: Wie können wir wissen, ob ein AI - System vertrauenswürdig ist? Diese Arbeit bietet einen möglichen Lösungsrahmen.

Zweitens liefert sie praktikable Werkzeuge. Die Arbeit enthält nicht nur Konzepte, sondern auch konkrete Ressourcen: Detaillierte Bewertungsstandards mit 18 Dimensionen (DeLeAn), eine Datenbank mit 16.000 markierten Aufgaben (ADeLe), Open - Source - Code und eine Plattform. Diese Ressourcen sind jetzt alle Open - Source, und andere Teams können sie direkt nach dem Lesen der Arbeit nutzen. Die Open - Source - Plattform für Code und Daten befindet sich hier: https://github.com/Kinds-of-Intelligence-CFI/ADELE

Außerdem sind die empirischen Ergebnisse überzeugend. Die Übereinstimmung zwischen menschlichen und AI - Markierungen beträgt 0,86, und das Vorhersagemodell übertrifft die Baseline bei neuen Testsets bei weitem. Aber die Arbeit hat auch Einschränkungen. Sind 18 Dimensionen ausreichend? Haben GPT - 4o als "Bewerter" systematische Abweichungen? Wie kann die Skala erweitert werden, wenn die zukünftigen AI - Systeme die aktuelle Skalenobergrenze (5+) überschreiten? Die Autoren diskutieren diese Fragen in der Arbeit offen und bieten eine Open - Source - Plattform an, damit die Community gemeinsam weiterentwickeln kann.

Der erste Autor Zhou Lexin, Bildquelle: Zhou Lexins persönliche Website

Zhou Lexin, der erste und Korrespondenzautor, ist derzeit Doktorand am Department für Informatik der Princeton University. Er studiert unter der Leitung von Professor Peter Henderson und arbeitet eng mit Professor Tom Griffiths, einem Kognitionswissenschaftler, zusammen. Seine Forschungsinteressen liegen im Bereich zwischen Informatik und Kognitionswissenschaft. Er hat in mehreren Spitzeninstitutionen, darunter dem Microsoft Research in Asien, OpenAI, Meta AI und der Europäischen Kommission, Praktika absolviert. Diese Erfahrungen haben ihm sowohl Einblick in die akademischen Neuerungen als auch in die praktischen Bedürfnisse der Industrie und der Politikverantwortlichen vermittelt.

In einer Zeit der schnellen Entwicklung von AI ist dies das erste Mal, dass jemand systematisch, in großem Maßstab und reproduzierbar die AI - Bewertung von einem "Wettkampfsport" in ein "Standard - Messsystem" verwandelt hat. Früher haben wir die Ranglisten wie die Olympischen Ergebnisse betrachtet - es wurde uns nur gesagt, wer am schnellsten war, aber nicht, warum. Jetzt haben wir endlich eine "Gesundheitsstandards - Tabelle".

Für die Nutzer bedeutet dies, dass in Zukunft, wenn Sie einen Bewertungsbericht eines AI - Produkts lesen, es möglicherweise nicht mehr "Gesamtscore 92,3" heißt, sondern ein klares Profil:

"Dieses Modell hat eine logische Denkfähigkeit von Stufe 4,1 und ist geeignet für die Analyse von Rechtsdokumenten mittlerer Komplexität. In Bezug auf offenes Wissen hat es ein Niveau