StartseiteArtikel

Die weltweit führenden großen Sprachmodelle wurden binnen eines Tages brutal geschlagen. Bei der schwierigsten Prüfung erreichte der Mensch die volle Punktzahl, während das erste platzierte KI-Modell nur 0,2% der Punkte erzielte.

新智元2026-03-26 19:58
Heute Nacht hat sich die gesamte KI-Branche erschüttert. Sobald der weltweit schwierigste AGI-Test ARC-AGI-3 online ging, brachte er die weltweit besten KI-Systeme zum Schweigen. Ein Mensch absolvierte den Test mit voller Punktzahl, während das stärkste Modell, Opus 4.6, lediglich 0,2 % erreichte, noch nicht einmal 1 %. Die KI ist damit binnen einer Nacht in die "Urzeiten" zurückgeworfen worden.

Heute hat diese Nachricht den gesamten KI - Kreis erschüttert.

Wie erwartet ist endlich der weltweit einzige noch nicht gesättigte Agenten - Benchmark ARC - AGI - 3 erschienen, der direkt die weltweit führenden Large Language Models (LLMs) geschlagen hat.

In diesem Test erreichte der Mensch einen Score von 100%, während die KIs im Allgemeinen weniger als 1% erreichten.

Diese Kluft ist höher als der Mount Everest.

Am schlimmsten war es für den einstigen "Exempel Schüler" Opus 4.6, der im Vorgänger - Test noch 69,2% erreichte. Vor ARC - AGI - 3 hat es sich entlarvt und nur 0,2% erreicht.

Dieser einstige "Genie", der alle Ranglisten dominiert hat, konnte nicht einmal einen Punkt erreichen, selbst wenn er geraten hat.

Dieser Spiegel zeigt die tiefsten Risse in der gegenwärtigen KI - Fähigkeit.

In einem kürzlichen Interview meinte Huang, dass wir bereits die Künstliche Allgemeine Intelligenz (AGI) erreicht haben. Aber ARC - AGI - 3 zeigt, dass die heutige KI möglicherweise noch nicht einmal 1% der AGI erreicht hat.

Wie extrem ist ARC - AGI - 3?

Seine Vorgänger ARC - AGI - 1 und ARC - AGI - 2 waren bereits berühmte "Teufelstests" im KI - Kreis.

In diesen Tests musste die KI einige Beispiele beobachten und dann die Regeln für die Gittertransformation ableiten, um neue Aufgaben zu lösen.

Klingt nicht schwer? Aber diese Dinge, die wie Kindergarten - Verbindungsaufgaben aussehen, haben viele Large Language Models (LLMs) schon in den Wahnsinn getrieben.

Bei ARC - AGI - 3 hat sich die Schwierigkeit auf eine andere Ebene verschoben: von "statischen Aufgaben" zu "interaktiven Spielen".

Über 150 handgefertigte interaktive Spielumgebungen mit über 1.000 Leveln.

Jedes Spiel hat seine eigene interne Logik, verborgene Regeln und Durchführungsbedingungen. Aber es gibt keine Anleitungsdokumente, keine natürlichen Sprachhinweise und niemand sagt dir, dass "der linke Knopf die Tür öffnet" oder dass "du das Level schaffst, wenn du drei rote Quadrate sammelst".

Der KI - Agent wird hineingeworfen und kann nur das aktuelle Bild sehen, eine Aktion auswählen, das Ergebnis beobachten und dann den nächsten Schritt entscheiden.

Es muss sich wie ein blinder Mann am Elefanten orientieren, Schritt für Schritt erkunden und dann in seinem "Gehirn" ein Modell zusammenbauen, wie "diese Welt möglicherweise funktioniert".

Das sind genau die vier Dinge, die die ARC Prize Foundation testen möchte.

Exploration: Kann man durch aktive Interaktion mit der Umgebung wichtige Informationen sammeln?

Modellierung: Kann man die verstreuten Beobachtungen zu einem Weltmodell zusammenfassen, das die zukünftigen Zustände vorhersagen kann?

Zielerfassung: Kann man sich selbst entscheiden, "was mein Ziel sein sollte", wenn niemand Anweisungen gibt?

Planung und Durchführung: Kann man einen Handlungsplan erstellen und ihn anhand der Umweltfeedback jederzeit korrigieren?

Die "geometrische Progression" der Demütigung: Woher kommt die 0,2%?

Das Bewertungskriterium ist ebenfalls brutal.

Die Bewertung von ARC - AGI - 3 berücksichtigt nicht, "ob man das Spiel geschafft hat", sondern "die Effizienz", und zwar im Vergleich zum Menschen.

Dies ist in der Geschichte der KI - Benchmarks ein erster.

Angeregt von Chollets Artikel "Über die Messung von Intelligenz" hat das ARC Prize - Team die "Intelligenz" in eine Umwandlungsrate umgesetzt:

Wie effizient kannst du Informationen aus der Umgebung sammeln? Wie schnell kannst du diese Informationen in korrekte Handlungen umsetzen?

Nehmen wir an, ein Mensch löst das Spiel in 10 Schritten, und die KI braucht 100 Schritte. Was ist dann der Score der KI?

Nicht 10%, sondern 1%.

Die Formel lautet: (Anzahl der menschlichen Schritte / Anzahl der KI - Schritte)². Wenn ein Mensch 10 Schritte und die KI 100 Schritte braucht, dann ist es (10/100)² = 0,01 = 1%.

Wenn die KI 200 Schritte braucht, ist diese Zahl 0,25%; bei 500 Schritten ist es 0,04%.

Damit sind alle "Machtmöglichkeiten" der KI versperrt.

Bisher konnte die KI durch Ausprobieren aller möglichen Aktionen immer den richtigen Weg finden.

Aber in diesem Bewertungssystem fällt der Score dramatisch, wenn du einen Schritt mehr ausprobierst.

Jetzt weißt du, was es bedeutet, dass Opus 4.6 nur 0,2% erreicht hat -

Nehmen wir an, ein Mensch löst ein bestimmtes Spiel in 10 Schritten. 0,2% = 0,002, die Quadratwurzel ist ungefähr 0,0447, und 10 ÷ 0,0447 ≈ 224 Schritte.

Das ist nicht mehr "dumm", sondern eher wie jemand, der im Labyrinth ewig im Kreis läuft.

Als diese Kluft so stark gezeigt wurde, waren viele Menschen, die dachten, dass die AGI schon in greifbarer Nähe ist, schockiert.

350 Schritte vs. ein paar Klicks: Das Gesamtbild der Punkteliste

Vor der offiziellen Veröffentlichung hat ARC - AGI - 3 eine 30 - tägige Entwickler - Vorschau durchgeführt.

Drei öffentliche Spiele reichen von Kartennavigation über Mustererkennung bis hin zur Wasserstandsregulierung. Die Aufgaben sind unterschiedlich, aber sie haben einen gemeinsamen Punkt: Für Menschen sind sie einfach, für KIs sind sie schwierig.

Über 1.200 menschliche Spieler haben an dem Test teilgenommen und über 3.900 Spiele gespielt.

Die meisten Menschen haben nicht nur problemlos die Spiele geschafft, sondern auch Spaß gehabt. Einige hartnäckige Spieler haben sogar die theoretisch optimalen Schritte erreicht.

Der menschliche Baseline - Score ist 100%. Bei den KIs lagen alle führenden Large Language Models (LLMs) unter 1%.

Der Sieger der Vorschauperiode heißt StochasticGoose und kommt von Tufa Labs.

Es ist kein Large Language Model (LLM), sondern ein auf einem Convolutional Neural Network (CNN) basierender Aktionslern - Agent, der einfaches Reinforcement Learning verwendet, um vorherzusagen, welche Aktionen zu Bildänderungen führen. Mit einem Endscore von 12,58% hat es den höchsten Score aller teilnehmenden Systeme erreicht.

Aber selbst dieser Sieger hat in einem Wasserstandsregulierungsspiel am Anfang fast 350 nutzlose Klicks gemacht.

350 Schritte. Ein Mensch braucht nur ein paar Klicks, um das Problem zu lösen.

Noch unintuitiver ist, dass die Top - drei der Rangliste alle Nicht - LLM - Lösungen sind - CNN, regelbasierte Zustandsgraph - Exploration und trainingsfreie Frame - Graph - Suche.

Eine auf CNN basierende Lösung hat um mehr als 12 Prozentpunkte bessere Ergebnisse als die GPT - 5.x - Serie. Die Agenten, die auf führende Large Language Models (LLMs) zugreifen, liegen dagegen oft am Ende der Rangliste, und einige stürzen sogar häufig ab.

Die KI hat sich selbst in die Enge getrieben

Das ARC - Team hat ein besonders interessantes Phänomen entdeckt.

Einer der Hauptfehler der KI ist: "Sie denkt, sie spielt ein anderes Spiel".