StartseiteArtikel

Apple behauptet vehement, dass KI nicht denken kann. Ein ehemaliger High-Level-Manager von OpenAI widerspricht direkt: Die Künstliche Allgemeine Intelligenz (AGI) ist schon da, aufhören Sie mit eurem Eifersuchtssäuregeschwätz!

新智元2025-06-30 14:48
Es gibt derzeit Kontroversen über die Engpässe bei der KI-Inferenz. Apple stellt OpenAI in Zweifel und sieht die Annäherung an die AGI positiv.

Kürzlich hat eine Studie von Apple Wellen geschlagen und die grundlegenden Annahmen über die aktuelle KI-Schlussfolgerungsfähigkeit in Frage gestellt. Der ehemalige Forschungsleiter von OpenAI hingegen behauptet: Die Ära der allgemeinen künstlichen Intelligenz (AGI) ist bereits in greifbarer Nähe. Wer hat Recht? Wie weit ist die AGI noch entfernt?

Kürzlich hat Apple eine Studie veröffentlicht, die eine heftige Debatte darüber ausgelöst hat, ob KI wirklich schlussfolgern kann.

Sie hat eine dringende Frage aufgeworfen: Haben die aktuellen Schlussfolgerungsmodelle bereits ihre Leistungsgrenze erreicht?

Zur gleichen Zeit vertritt Bob McGrew, der ehemalige Forschungsleiter von OpenAI, eine völlig andere Meinung. In der Podcast-Sendung "Training Data" hat er erklärt: Die entscheidenden Durchbrüche für die allgemeine künstliche Intelligenz (AGI) sind bereits erzielt worden. Das Jahr 2025 wird das Jahr der KI-Schlussfolgerung sein.

Handelt es sich bei dieser Debatte um eine notwendige Reflexion oder um "Sauerapfel-Syndrom" aus technischer Angst? Hat Apple die Illusion aufgedeckt oder ist es wirklich ein "saurer Apfel"?

Steht die KI-Schlussfolgerung vor einem Engpass?

Die KI steht an einem wichtigen Wegkreuz.

In den letzten Jahren sind Sprachmodelle rasant vorangeschritten. Jetzt sind neue "Schlussfolgerungsmodelle" aufgetaucht, wie beispielsweise OpenAIs o1, DeepSeek-R1 und Claude 3.7 Sonnet Thinking.

Sie setzen nicht nur auf Größe, sondern behaupten, komplexere "Denkmechanismen" integriert zu haben: Bei der Schlussfolgerung sind ihre Rechenmethoden flexibler, mit dem Ziel, die Grenzen traditioneller Modelle zu überschreiten.

Klingt beeindruckend, aber viele sorgfältige Studien weisen darauf hin, dass die KI möglicherweise bereits an ihre Leistungsgrenze gestoßen ist.

Dies wirft nicht nur Zweifel an ihrer gegenwärtigen Effektivität auf, sondern lässt auch befürchten, ob die Schlussfolgerungsmodelle weiterhin evolvieren können.

Die Versprechen der Schlussfolgerungsmodelle

Im Vergleich zu früheren Sprachmodellen sind die großen Schlussfolgerungsmodelle (Large Reasoning Models, kurz LRMs) völlig anders.

Früher basierten die Modelle hauptsächlich auf der Vorhersage des nächsten Wortes, während die Schlussfolgerungsmodelle drei "Superkräfte" erlernt haben:

(1) Denkpfad: Sie können wie Menschen Schritt für Schritt ableiten (z. B. beim Lösen von Mathematikaufgaben Schritte aufschreiben)

(2) Selbstreflexion: Sie können überprüfen, ob ihre Antworten richtig sind

(3) Intelligente Rechenleistungszuweisung: Bei schwierigen Aufgaben "denken" sie automatisch länger nach

Die zentrale Idee ist einfach und überzeugend:

Lösen Menschen komplexe Probleme nicht durch schrittweise Überlegung und Schlussfolgerung?

Warum sollte die KI nicht auch diese Methode lernen, um klüger und besser in der Problemlösung zu werden?

Tatsächlich stimmt das! OpenAIs o1-Modell hat die mathematischen Benchmark-Rekorde aufgebrochen und seine Vorgänger weit hinter sich gelassen. Bei Aufgaben wie Code-Schreiben und Forschung haben auch andere Schlussfolgerungsmodelle enorme Fortschritte gemacht.

Die gesamte KI-Community ist aufgeregt, und viele glauben, dass ein "neues Paradigma" hereinkommt:

Zukünftig muss nicht mehr nur Geld und Daten in das Training investiert werden. Wenn man der KI beim "Denken" mehr Zeit gibt, kann man völlig neue Fähigkeiten freischalten!

Diese aufmunternden Fortschritte werfen auch eine praktische Frage auf: Sind sie wirklich so stark, wie wir es uns wünschen?

Realer Test: Funktionieren die Schlussfolgerungsmodelle wirklich?

Obwohl die Schlussfolgerungsmodelle ein positives Aussehen haben, haben Tests von drei unabhängigen Forschungsgruppen uns etwas Wasser auf den Flügeln gegeben -

Unter strengen Bedingungen hat das reale Verhalten dieser Modelle viele Probleme aufgedeckt, aber es hat auch ihre Fortschritte gezeigt.

Diese drei Tests sind:

(1) Apples kontrolliertes Experiment;

(2) Ein Test der Planungsfähigkeit von KI an der Arizona State University;

(3) Ein teilweiser Widerspruch des ARC-Tests gegen die These "Je größer das Modell, desto stärker".

Apples kontrolliertes Experiment

Derzeit ist Apples Studie "Die Illusion des Denkens" am stärksten umstritten.

Sie konzentriert sich auf spielartige Rätsel, wie z. B. das Türme von Hanoi, Schachspiel-Puzzles und Flussprobleme.

Der Vorteil dabei ist, dass die Schwierigkeit beliebig eingestellt werden kann und die KI daran gehindert wird, durch "Auswendiglernen von Aufgabenbanken" zu betrügen.

Sie haben drei völlig verschiedene Zustände entdeckt, die für das Verständnis der Schlussfolgerungsmodelle sehr aufschlussreich sind:

Aufgaben geringer Komplexität: Traditionelle Sprachmodelle performen besser und verbrauchen weniger Token, was zeigt, dass der Schlussfolgerungsmechanismus nicht immer nützlich ist;

Aufgaben mittlerer Komplexität: Die Schlussfolgerungsmodelle haben deutliche Vorteile, was beweist, dass sie tatsächlich echte Fähigkeiten über die einfache Mustererkennung hinaus besitzen;

Aufgaben hoher Komplexität: Die Leistung aller Modelle bricht vollständig zusammen. Möglicherweise liegt es nicht an "zu wenig Rechenleistung", sondern an strukturellen Engpässen.

Link zur Studie: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

Was noch seltsamer ist, haben die Forscher auch ein unverständliches Phänomen entdeckt: Je schwieriger die Aufgabe, desto mehr "legen" diese Schlussfolgerungsmodelle "die Arme in den Schoß", und ihre "geistige Anstrengung" nimmt stattdessen ab.

Das ist wie ein Schüler, der bei einer schwierigen Aufgabe nicht versucht, die Aufgabe mehrmals zu lösen, sondern einfach den Stift wegwirft.

Natürlich ist das nicht alles schlechtes Neuigkeiten: Zumindest bei Aufgaben mittlerer Schwierigkeit können die Schlussfolgerungsmodelle in gewissem Maße die alte Methode der "auswendigen Abspeicherung" von LLMs überwinden.

Beweise für die Planungsfähigkeit

Schon letztes Jahr hat Professor Subbarao Kambhampati von der Arizona State University und andere Forscher die "Planungsfähigkeit" von Schlussfolgerungsmodellen eingehend untersucht.

Subbarao Kambhampati, derzeit Professor an der School of Computing and Augmented Intelligence der Arizona State University

Er hat das o1-Preview-Modell mit dem PlanBench-Tool getestet, und die Ergebnisse zeigen:

Bei einfachen Blocksworld-Aufgaben beträgt die Genauigkeit des Modells 97,8%, was ein sehr signifikanter Fortschritt ist.

Leistung und durchschnittliche Zeit von OpenAIs o1-Serie großer Schlussfolgerungsmodelle und Fast Downward bei 600 Instanzen in den Bereichen Blocksworld, Mystery Blocksworld und Randomized Mystery Blocksworld

Im Vergleich zu den frühen Modellen, die fast "die Hälfte verloren" haben, ist dies ein qualitativer Sprung.

Aber er hat auch ein überraschendes Phänomen festgestellt: Selbst wenn man dem Modell genau sagt, was es tun soll und die Algorithmen-Schritte angibt, wird seine Leistung nicht besser.

Dies zeigt, dass obwohl die Schlussfolgerungsmethoden dieser Modelle komplexer geworden sind, sie möglicherweise immer noch nicht mit der logischen Schlussfolgerung von Menschen übereinstimmen.

Mit anderen Worten, sie "schlussfolgern", aber auf eine andere Weise als Menschen.

Link zur Studie: https://www.arxiv.org/abs/2409.13373

ARC-Benchmark: Der Prüfstein für KI-Schlussfolgerung

Um die entscheidende Lücke zwischen "leicht für Menschen" und "schwer für KI" hervorzuheben, hat François Chollet, der Vater von Keras, zusammen mit Mike Knoop das Abstract and Reasoning Corpus (ARC) initiiert.

Beispiel für den ARC-AGI-1-Test: Links werden Eingabe/Ausgabe-Paare angezeigt, um die Art der Aufgabe zu verstehen. In der Mitte ist das aktuelle Test-Eingabegitter. Rechts sind die Steuerelemente, mit denen das entsprechende Ausgabegitter erstellt werden kann

Diese Aufgabe ist sehr schwierig. Im Jahr 2020 konnten nur etwa 20 % der Aufgaben gelöst werden, bis 2024 stieg der Anteil auf 55,5 %. Hinter diesem Fortschritt stehen die Schlussfolgerungsmodelle und die technologische Entwicklung.

Höchstpunktzahl des ARC-AGI-1 im Laufe der Zeit

Unter dem Einfluss des ARC-Preises sind viele wichtige Technologien entstanden, wie z. B. die Testzeit-Feinabstimmung (test-time fine-tuning) und die Deep Learning-gesteuerte Programm-Synthese.

Aber es gibt auch ein Signal, auf das man achten sollte: Der ARC-Test ist nicht überzeugt von der These "Je größer das Modell, desto stärker".

Mit anderen Worten, das "blinde" Aufstocken von Rechenleistung und Parametern reicht nicht mehr aus, um die Ergebnisse weiter zu verbessern.

Dies zeigt, dass obwohl die Schlussfolgerungsmodelle tatsächlich Durchbrüche gebracht haben, um eine menschliche allgemeine Intelligenz zu erreichen, die aktuelle Architektur noch weit nicht ausreicht.

Zukünftige Fortschritte erfordern möglicherweise eine grundlegende Neuorientierung oder sogar eine Neukonstruktion der Modellstruktur.

Scaling ist nicht mehr die einzige Lösung.

Übereinstimmende Kritik: Theorie und Empirie stimmen überein

Diese Studien sind besonders bemerkenswert, weil sie die Ansichten von Forschern wie Gary Marcus bestätigen, die diese Ansichten seit Jahren vertreten.

Schon 1998 hat Marcus darauf hingewiesen: Neuronale Netzwerke sind gut darin, in ihrem "trainierten Bereich" zu funktionieren, aber sobald sie auf völlig neue Probleme stoßen, bricht ihre Leistung zusammen.

Jetzt liefern eine Reihe von empirischen Studien starke Beweise für seine The