Wendepunkt bei der schwierigsten Prüfung der Welt: Außenseiter-AI überschreitet 36%-Marke, Spitzenmodelle scheitern

Symbolica AI erzielte am ersten Tag der ARC-AGI-3 eine Leistung von 36,08%, weit über den anderen Modellen.

【Einführung】Gestern hat ARC-AGI-3 die weltweit führenden großen Modelle völlig ausgeschaltet. Doch eine bisher unbekannte Firma hat eine sensationelle Nachricht verbreitet: Ihr KI-System hat bereits am ersten Tag eine Leistung von 36,08 % erzielt! Worauf stützt sich dieses schwarze Pferd, um die undurchdringliche Mauer der weltweit schwierigsten KI-Prüfung zu durchbrechen? Ist es ein echter Durchbruch oder steckt hinter den Kulissen etwas anderes?

Sensationeller Wendepunkt!

Gestern ist die schwierigste Prüfung für KI, ARC-AGI-3, aufgetaucht und hat binnen eines Tages die weltweit großen Modelle massiv geschlagen.

Das stärkste und populärste Modell, Opus 4.6, hat nur 0,2 % erreicht, was einfach nur erbärmlich ist. Gleichzeitig hat der Mensch mit einer vollen Punktzahl deutlich besser abgeschnitten.

Dies hat die Zuschauer überrascht: Sowohl Huang als auch der Erfinder des AGI-Konzepts sind der Meinung, dass wir jetzt bereits bei AGI angelangt sind. Ist es tatsächlich so, dass wir AGI noch so weit entfernt sind?

Überraschenderweise wurde ARC-AGI-3 binnen eines Tages geknackt!

Gerade hat eine Firma namens Symbolica angekündigt:

Mit dem Agentica-Framework haben wir bei der ARC-AGI-3-Prüfung bereits am ersten Tag eine Leistung von 36,08 % erzielt und damit die CoT-Modell-Baseline um Längen geschlagen.

Von 182 Leveln haben sie bereits 113 erfolgreich gemeistert. Von 25 verfügbaren Spielen haben sie 7 abgeschlossen.

Die weltweit schwierigste Prüfung wurde durchbrochen!

Symbolica schlägt am ersten Tag überraschend mit 36 % durch

Während die Menschen noch über die erbärmlichen 0,2 % von Opus 4.6 schütteln und sogar anfangen zu zweifeln, ob „AGI nur ein Traum großer Firmen“ ist, hat sich ein überraschender Wendepunkt ereignet.

Warum kann das Agentica-Framework von Symbolica bereits am Tag der Veröffentlichung von ARC-AGI-3 eine erstaunliche Leistung von 36,08 % erzielen?

Agentica (Symbolica) ist ein spezielles Intelligenzsystem für ARC-AGI-3, das auf Symbolica aufbaut.

Man muss bedenken, dass vor der fast sadistischen Bewertungsformel von ARC-AGI-3 – (Menschliche Schritte / KI-Schritte)^2 – die führenden großen Modelle noch im Nebel stehen. Die 36,08 % sind eine echte Überlegenheit.

Um zu verstehen, warum Symbolica gewinnt, muss man zuerst verstehen, wie Opus 4.6 und GPT-5.4 verloren haben.

Der größte Unterschied zwischen ARC-AGI-3 und den beiden vorherigen Generationen besteht darin, dass es kein „statisches Betrachten und Beschreiben von Bildern“ ist, sondern ein interaktives Black-Box-Spiel.

Wenn ein auf reiner LLM basierendes Intelligenzsystem in das Spiel eintritt, hat es das fatale Problem, dass es Versuche unternimmt, Assoziationen statt Logik und Mustererkennung statt Experimente zu verwenden.

Wenn ein großes Modell in einer unbekannten Umgebung ist, versucht es, mit seinem riesigen vortrainierten Wissensspeicher „zu erfinden“. Wenn es rote Quadrate und blaue Linien sieht, denkt es vielleicht an „Sokoban“ oder „Wasserspiegelausgleich“ und gibt dann basierend auf dieser falschen Annahme wild CoT aus.

Wenn die Annahme falsch ist, wird es nicht anhalten und nachdenken, sondern weiter auf dem falschen Weg gehen, bis die Schritte aufgebraucht sind und die Punktzahl auf Null fällt.

ARC-AGI-3 zielt genau auf diese Schwächen von KI ab und misst in einer Umgebung, die 100 % von Menschen lösbar ist, drei Fähigkeiten von KI:

Effizienz der Fähigkeitserwerbung im Laufe der Zeit
Fähigkeit zur Langzeitplanung bei spärlicher Rückmeldung
Anpassungsfähigkeit, die über mehrere Schritte hinweg und erfahrungsgesteuert ist

Das Agentica-Framework von Symbolica geht einen völlig anderen technologischen Weg!

Agentica unterstützt von Haus aus eine Architektur mit mehreren Intelligenzsystemen und ist in der Konstruktion parallelisierbar. Es zerlegt automatisch komplexe Aufgaben in Teilprobleme und weist die Arbeit an Teilintelligenzsysteme zur parallelen Bearbeitung zu.

Das bedeutet, dass das Intelligenzsystem effizient voranschreiten und die Aufgabe schneller erledigen kann!

Agentica ist ein typsicheres KI-Framework, das es ermöglicht, LLM-Intelligenzsysteme nahtlos mit Code zu integrieren: einschließlich Funktionen, Klassen, aktiven Objekten und sogar dem gesamten SDK.

Bereits zuvor hat Symbolica mit seiner starken Fähigkeit zur Langzeitlogik bei ARC-AGI-2 einen SOTA-Erfolg erzielt, und das Agentica SDK hat hierfür einen großen Beitrag geleistet.

Der Kerngeheimnis: Arcgentica RLM harness

Auf der GitHub-Seite haben wir in der Datei IDEA.md das Geheimnis des Agentica-Frameworks entdeckt – das ARC-AGI-3-Intelligenzsystem-Framework (Agent Harnesses).

GitHub-Adresse: https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnesses ist derzeit ein absolutes Stichwort und wird in den offiziellen Blogs von Anthropic und in den Diskussionen von Branchengrößen ständig erwähnt.

Wenn 2025 der Beginn der Goldenen Ära der Intelligenzsysteme war, wird 2026 sich auf Intelligenzsystem-Frameworks (Agent Harnesses) konzentrieren.

Ein Intelligenzsystem-Framework ist eine Infrastruktur, die um ein KI-Modell herum aufgebaut ist, um langlaufende Aufgaben zu verwalten, aber es ist selbst kein Intelligenzsystem.

Diesmal hat Agentica das Spielprinzip von Grund auf verstanden und mehrere Levelrätsel gelöst, ohne irgendeine spezielle Spielhinweis zu haben.

Was macht das auf dem Agentica SDK basierende Arcgentica RLM-Framework so besonders?

Erstens, die Spielunabhängigkeit.

ARC-AGI-3 ist so schwierig, weil es alle natürlichen Sprachhinweise entfernt. Menschen können die Level meistern, weil wir physikalische Intuition haben.

Deshalb hat Agentica die extremste Strategie der „Spielunabhängigkeit“ (Game-agnostic) gewählt.

Das Intelligenzsystem weiß nicht, was die Farben bedeuten, was die Aktionen bewirken oder was die Gewinnbedingungen sind. Es leitet alles nur aus der Interaktion mit dem Spiel und der Beobachtung der Veränderungen ab.

Dieser leere Zustand ist sogar zu seinem Vorteil geworden.

Zweitens, das Modell des „Koordinators + spezialisierte Teilintelligenzsysteme“.

Der Spitzenkoordinator greift nie direkt in das Spiel ein. Er weist die Aufgaben an Teilintelligenzsysteme zu, sammelt Wissen und entscheidet über die nächsten Aktionen.

Die spezialisierten Teilintelligenzsysteme umfassen: Entdecker, Theoretiker, Tester und Lösungsmacher (explorers, theorists, testers, solvers)

Wenn es beginnt, das Raster zu betrachten, wird sein Kontext mit Pixeldaten gefüllt, und es verliert die Fähigkeit zur strategischen Überlegung. Die Teilintelligenzsysteme berichten in Form kurzer Textsummarien, nicht mit Rohdaten.

Dieser raffinierte Entwurf der dezentralen Strategiestruktur vermeidet die schwerwiegenden Mängel von Modellen wie Opus 4.6, bei denen „das gleiche Gehirn gleichzeitig Pixel betrachtet, Regeln merkt und Aktionen steuert“.

Drittens, der Mechanismus des „geteilten Gedächtnisses“.

Während des Spiels teilen alle Intelligenzsysteme eine Datenbank namens „memories“. Die Teilintelligenzsysteme notieren während der Arbeit bestätigte Fakten (Szenenlayout, Mechanismen, Gewinnbedingungen) und Hypothesen (und markieren diese eindeutig).

Neue Intelligenzsysteme fragen das Gedächtnis ab, bevor sie starten, so dass sie das kollektive Wissen übernehmen können.

Viertens, der Mechanismus des „Levelwechsels“.

Levelwechsel: Wenn ein Level gelöst ist, wird das nächste Level direkt in der gleichen Aktion geladen, und das zurückgegebene Bild zeigt bereits das neue Level.

Nur wenn alle Level gemeistert sind, wird state=WIN ausgelöst; der Abschluss eines einzelnen Levels wird anhand der Zunahme von „levels_completed“ festgestellt.

Fünftens, Agentica hat eine strenge Verwaltung des Handlungsbudgets, und jeder Token muss sinnvoll eingesetzt werden.

Die Gesamtzahl der Aktionen für alle Level ist begrenzt (ca. 800 Mal). Der Scheduler verteilt über „make_bounded_submit_action(limit)“ die Aktionstoleranz an die einzelnen Teilintelligenzsysteme. Das System fordert die Intelligenzsysteme auf, Wiederholungen von Aktionen zu vermeiden, es sei denn, sie sind tatsächlich feststeckengekommen.

Außerdem werden gezielte

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade jetzt hat es einen gewaltigen Wendepunkt bei der schwierigsten Prüfung der Welt gegeben. Das Außenseiter-AI hat die 36%-Marke überschritten, während die Spitzenmodelle alle zusammen fehlgeschlagen haben.

Symbolica schlägt am ersten Tag überraschend mit 36 % durch

Der Kerngeheimnis: Arcgentica RLM harness