StartseiteArtikel

Ehemaliger chinesischer Forscher von DeepMind kündigt und ruft: Alle im KI-Bereich haben die falsche Richtung eingeschlagen.

新智元2026-05-25 08:06
Ein ehemaliger Forscher von Google DeepMind hat seinen Job verlassen und einen ausführlichen Artikel veröffentlicht, in dem er den derzeit am stärksten unterschätzten Engpass in der KI-Branche aufzeigt. Er meint, dass alle bestehenden Benchmarks und Sicherheitsbewertungen implizit davon ausgehen, dass die nächste Generation von Modellen nur eine Verbesserung der aktuellen Modelle sei. Wenn die Modelle jedoch in einen völlig neuen Bereich von Fähigkeiten eintreten, wird die gesamte Bewertungsinfrastruktur stillschweigend zusammenbrechen.

Wie lange kann die AI-Trainingsphase tatsächlich dauern?

Dies ist die Frage, die im gesamten Tech-Sektor im Jahr 2026 gestellt wird.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4 – jede führende Laborgruppe steckt weiterhin Millionen in die Entwicklung der nächsten Generation.

Immer mehr Menschen beginnen jedoch zu fragen: Wann endet dieser Weg?

Jede Gruppe hat ihre eigene Antwort –

Hinter jeder Antwort stehen Investoren, Ingenieure und eine Firma mit Billionen-Euro-Umsatz.

Aber am 17. Mai 2026 veröffentlichte ein junger Forscher namens Lun Wang – am Tag seines Ausscheidens aus Google DeepMind – einen 4000-Wort-Artikel auf seinem persönlichen Blog.

Er sagte: Alle haben die falsche Richtung eingeschlagen.

Der echte Engpass liegt weder in der Rechenleistung, noch in den Daten, noch in der Energieversorgung, noch in der Architektur.

Der echte Engpass ist – die Evaluation.

Am gleichen Tag enthielt seine Kündigungsankündigung auf X keine Beschwerden oder Gerüchte, sondern nur einen Satz –

Am Ende dieser Reise habe ich über das Thema geschrieben, über das ich so lange nachgedacht habe: die Evaluation.

An diesem Tag diskutierten die Tech-Headlines noch über andere Themen – die multimodale Inferenz von GPT-5.5, den 1M-Kontext von Claude Opus 4.7, die Agent-Engineering von Gemini 3 und ob die synthetischen Daten an ihre Grenzen stoßen.

90 % der Aufmerksamkeit der gesamten AI-Branche richtet sich auf das Training.

Niemand diskutiert auf der Titelseite über die Evaluation.

Doch dieser Forscher, der gerade aus einem der weltweit besten AI-Labore stammt, sagt, dass der echte Engpass in den anderen 10 % liegt.

Was ist die Evaluation?

Um diesen Blogbeitrag zu verstehen, muss man zunächst verstehen, was die AI-Branche unter Evaluation versteht.

Evaluation (kurz Eval in der Branche) – kurz gesagt: Man gibt einem AI-Modell eine Prüfung und sieht, wie gut es abschneidet.

Aber die AI-Evaluation im Jahr 2026 ist weitaus komplexer als nur eine Prüfung. Sie besteht mindestens aus drei Ebenen:

Erste Ebene: Fähigkeits-Benchmark (Referenzmessung).

Dies ist die Abiturprüfung der KI.

- GPQA: Doktorandenstufe in naturwissenschaftlichen Schlussfolgerungen

- SWE-bench: Praktische Software-Engineering-Aufgaben

- ARC-AGI: Abstrakte Schlussfolgerung und Generalisierung

- Humanity's Last Exam: wörtlich genommen – der letzte Test der Menschheit

Bei jeder Präsentation eines neuen Modells einer großen Firma werden in der Präsentation die Prozentsätze angezeigt, um die es in diesen Benchmarks besser abschneidet als das vorherige Modell und die Konkurrenz.

Diese Zahlen sind das BIP der AI-Branche.

Zweite Ebene: Sicherheits-Evaluation (SafetyEval). KI muss nicht nur in der Lage sein, Aufgaben zu lösen, sondern auch sicher funktionieren.

Lügt sie?

Lehrt sie Benutzern, wie man Bomben baut?

Nimmt sie ohne Erlaubnis Benutzerdaten?

Dritte Ebene: Rot-Team (Red-teaming).

Eine Gruppe von Menschen, die sich bewusst als Bösewichte ausgeben und sich bemühen, das Modell dazu zu bringen, Dinge zu sagen und zu tun, die es nicht sollte, und dann die Sicherheitslücken an das Trainings-Team melden.

Diese drei Ebenen zusammen bilden das Qualitätskontrollsystem der AI-Labore im Jahr 2026. Jedes neue Modell muss diese drei Prüfungen bestehen.

Klingt ziemlich vollständig, oder?

Lun Wang fällt im Blog eine Urteilsstellung:

Die meisten Benchmarks, Sicherheits-Evaluierungen und Rot-Team-Protokolle basieren auf der Annahme, dass das nächste Modell nur eine verbesserte Version des aktuellen Modells ist.

Wenn es etwas anderes ist, wird die gesamte Evaluierungs-Infrastruktur stillschweigend zusammenbrechen.

Dies ist der erste Stein in diesem Artikel.

Er trifft auf eine Blindstelle der gesamten AI-Branche.

Emergenz und Eureka-Momente: Die Evaluation hat sich bereits zweimal blamieren lassen

Lun Wang träumt nicht nur. Er führt im Blog zwei Beispiele aus der AI-Geschichte an – die Evaluation hat sich bereits zweimal blamieren lassen, aber die meisten Fachleute haben es nicht bemerkt.

Erstes Beispiel: Emergenzfähigkeiten.

Im Jahr 2022 veröffentlichte Jason Wei und seine Mitarbeiter eine Studie, die die weitere Entwicklung der KI beeinflusste – sie stellten fest, dass ein Modell auf einer bestimmten Größe plötzlich neue Fähigkeiten erlernt.

Beispiel: Wenn Sie ein Modell mit 7 Milliarden Parametern trainieren, kann es keine few-shot Lernfähigkeiten ausführen.

Wenn Sie ein Modell mit 70 Milliarden Parametern trainieren, kann es plötzlich few-shot Lernfähigkeiten ausführen.

Das gleiche Trainingsverfahren, die gleichen Daten, nur eine Stufe größer – die Fähigkeit geht von 0 auf 1, nicht von 0,3 auf 0,7.

CoT (Chain of Thought) und Befehlsfolge sind so entstanden.

Was bedeutet das für die Evaluation?

Es bedeutet, dass alle Benchmarks diese Fähigkeit nicht vorhersagen können, bevor die Größe einen kritischen Punkt überschreitet.

Sie können GPQA ausführen, aber die Punktzahl bleibt unverändert.

Sobald Sie auf die nächste Stufe trainieren, springt die Punktzahl plötzlich.

Zweites Beispiel: Grokking (Eureka-Moment).

Im Jahr 2022 veröffentlichte das Team von Alethea Power bei OpenAI ein kontra-intuitives Phänomen –

Und nach 1.000.000 Schritten – springt die Genauigkeit im Testdatensatz plötzlich auf 99 %.

Dies wird Grokking genannt – das Netzwerk lernt plötzlich, zu generalisieren, nachdem es lange Zeit die Trainingsdaten memorisiert hat.

Der Unterschied zwischen Emergenz und Grokking: Emergenz tritt in der Größenordnung auf (je mehr Parameter, desto plötzlicher), Grokking tritt in der Trainingszeit auf (je länger das Training, desto plötzlicher).

Aber für die Evaluation bedeutet beides dasselbe:

Ihre Prüfung kann nicht vorhersagen, wann die nächste Aufgabe auftaucht.

Dann tat Lun Wang etwas sehr Kluges im Artikel –

Er führte bewusst die Gegnerposition ein.

Im Jahr 2023 veröffentlichte Rylan Schaeffer von Stanford und seine Mitarbeiter einen Artikel in NeurIPS mit einer provokanten Überschrift – „Sind die Emergenzfähigkeiten von Large Language Models eine Täuschung?“

Ihre Argumentation: Die vermeintlich plötzlich auftretenden Fähigkeiten sind wahrscheinlich nicht das Ergebnis einer plötzlichen Verbesserung des Modells, sondern eher das Ergebnis einer diskreten Messung wie exact-match (exakte Übereinstimmung) –

Wenn das Modell von 0 % Genauigkeit auf 5 % steigt, wird dies von der diskreten Messung nicht erkannt; auch der Anstieg von 5 % auf 50 % wird nicht erkannt; aber der Sprung von 50 % auf 100 % wird von der diskreten Messung als plötzlicher Anstieg angezeigt.

Wenn Sie auf eine kontinuierliche Messung umstellen, ist die Fähigkeitskurve glatt.

Viele Leute, die Schaeffers Artikel gelesen haben, denken: Gut, Emergenz ist ein Missverständnis, die Evaluation ist in Ordnung, Ende.

Lun Wang denkt anders. Er schrieb im Artikel:

Ich denke, dass das Problem nicht gelöst ist – im Gegenteil, es macht mein Argument schärfer.

Warum? Weil –

Wenn wir nicht einmal wissen, ob die vergangene Emergenz eine echte Phasenänderung oder ein Messartefakt war,

wie können wir uns darauf verlassen, dass wir die nächste Emergenz vorhersehen können?

Egal, welche Erklärung Sie glauben, die Schlussfolgerung ist dieselbe: Unsere Werkzeuge haben uns getäuscht, und wir wissen nicht, wie.

Dies ist der klügste Angriff im Artikel. Er vermeidet nicht die Gegnerposition, sondern stärkt sein eigenes Argument mit ihr.

Die Evaluation ist die Grundlage aller Prozesse

Wenn Sie denken, dass Lun Wang nur über akademische Fragen spricht – Sie irren sich.

Er wirft in der Mitte des Artikels einen Satz auf, der auch für Laien verständlich ist:

Wenn Sie die Evaluation richtig durchführen, können Sie das Training richtig durchführen.

Schauen wir uns diese logische Kette an:

1. Training = Minimierung der Verlustfunktion (oder Maximierung der Belohnung) eines Modells.

2. Optimierung = Die Verlustfunktion selbst. Wie intelligent ein Modell ist, hängt davon ab, wie gut die Verlustfunktion definiert ist.

3. Verlustfunktion = Ergebnis der Evaluation. Wenn Sie möchten, dass ein Modell ehrlicher wird, müssen Sie zunächst ein Maß für Ehrlichkeit haben.

4. Falsche Evaluation = Falsche Verlustfunktion = Falsches Trainingsziel = Das trainierte Modell löst die falschen Aufgaben.

Die Richtung dieser Kette ist zur Quelle hin

Skalierungsentscheidung ← Sicherheitsmetrik ← RLHF ← Trainingssignal ← Evaluation (Soll man 1 Milliarde in die nächste Generation investieren?) (Ist es sicher?) (Hat es gelernt, was man will?) (Was lernt es?) (Was messen wir eigentlich?)

Alle schauen auf das rechte Ende – die Skalierungsentscheidung.

Lun Wang sagt, dass das Problem am linken Ende liegt – die Evaluation.

Wenn die Evaluation falsch ist, baut sich die gesamte Kette auf einem falschen Fundament auf.

Das Schlimmste ist, dass Sie es nicht sofort bemerken – denn alle Ihre internen Daten stimmen, aber alle wurden mit einem falschen Maßstab gemessen.

Hier tritt ein altbekanntes Phänomen auf: Das Goodhart-Gesetz.

Es besagt: Wenn ein Maßstab zum Ziel wird, ist er kein guter Maßstab mehr.

Lun Wang verwendet es in seinem Blog, um über KI zu sprechen –