Halbjährliche Rückschau auf die Großen Modelle 2025: O3, Agent und Skalierungsgesetz
Anfang oder Ende jedes Jahres erstellen einige Wissenschaftler, Unternehmer oder Branchen-Experten eine Zusammenfassung und Prognose für ihre jeweiligen Bereiche. In der Ära der Large Language Models, in der "ein Tag in der Welt der KI drei Jahre in der realen Welt entspricht", sind solche Rückblicke und Ausblicke von enormem Referenzwert.
Kürzlich hat Nathan Lambert, ein Machine-Learning-Forscher und Leiter der Post-Training-Einheit am Allen Institute for Artificial Intelligence, in einem persönlichen Blogbeitrag eingehend über Themen wie "Die Suchfunktion von o3", "Fortschritte bei Agenten und Modellen" und "Verlangsamung des Wachstums (Scaling)" diskutiert.
Er schrieb: "Da die Veröffentlichungsgeschwindigkeit neuer Modelle nachlässt, ist es an der Zeit, uns zu überlegen, welche Ergebnisse wir in diesem Jahr erzielt haben und wohin die Zukunft führt."
Bild | Nathan Lambert
Nach seiner Meinung hat o3 eine einzigartige Suchfähigkeit gezeigt, was beweist, dass OpenAI einen technologischen Durchbruch bei der Verbesserung der Zuverlässigkeit von Such- und anderen Werkzeugen in Inferenzmodellen erzielt hat. "Die beste Beschreibung, die ich über seine unermüdliche Suche nach spezifischen Informationen gehört habe, ist, dass er wie ein 'ausgebildeter Hund, der sein Ziel gespürt hat' wirkt."
Er sagte auch, dass künftig mehr KI-Modelle Ähnlichkeiten mit Anthropics Claude 4 aufweisen werden. Obwohl die Verbesserungen in den Benchmark-Tests gering sind, sind die Fortschritte in der praktischen Anwendung erheblich. "Kleine Anpassungen an einem Modell können Agenten wie Claude Code viel zuverlässiger erscheinen lassen."
Darüber hinaus sagte er, als er das Problem der "Grundlegenden Stagnation" des Pre-Training-Scaling-Gesetzes erwähnte, "Neue Skalierungsebenen werden möglicherweise erst alle paar Jahre erreicht oder gar nicht,", je nachdem, wie glatt die Kommerzialisierung der KI verläuft.
Trotzdem hält er nicht davon, dass 'Pre-Training als Wissenschaft nicht mehr wichtig ist'. Gemini 2.5 ist ein Gegenbeispiel.
Academic Headlines hat den gesamten Text unter Beibehaltung der ursprünglichen Bedeutung zusammengefasst. Hier ist der Inhalt:
Original-Link: https://www.interconnects.ai/p/summertime-outlook-o3s-novelty-coming
Der Sommer ist traditionell eine relativ ruhige Zeit in der Tech-Branche. OpenAI scheint diesem Trend voll und ganz zu folgen. Seine Open-Source-Modelle "brauchen mehr Zeit" für die Optimierung, und die Veröffentlichung von GPT-5 scheint immer wieder verschoben zu werden. Dies wären offensichtlich große Neuigkeiten, aber ich bin nicht sicher, ob wir sie vor August sehen werden.
Ich werde diese kurze Pause in der KI-Veröffentlichung nutzen, um zurückzublicken und die Zukunft vorauszusehen. Hier ist, was Sie wissen sollten.
o3: Technologischer Durchbruch jenseits von Scaling
Die vorherrschende Meinung über OpenAIs o3-Modell ist, dass sie "die Rechenressourcen für das Reinforcement Learning erweitert haben", was zu einigen seltsamen, völlig neuen Überoptimierungsproblemen geführt hat. Dies stimmt, und der Livestream der Veröffentlichung repräsentiert immer noch einen Durchbruch - nämlich die Skalierung von Daten und Trainingsinfrastruktur durch das Reward-validierte Reinforcement Learning (RLVR).
Über die einzigartige Sucherfahrung, die o3 bietet, wird nicht viel diskutiert. Bei einer normalen Abfrage kann o3 Dutzende von Websites durchsuchen. Die beste Beschreibung, die ich über seine unermüdliche Suche nach spezifischen Informationen gehört habe, ist, dass er wie ein "ausgebildeter Hund, der sein Ziel gespürt hat" wirkt. o3 vermittelt das Gefühl, dass es Informationen auf eine völlig andere Weise finden kann als alle bestehenden Modelle.
Es ist bemerkenswert, dass es bereits mehrere Monate seit seiner Veröffentlichung im April 2025 vergangen ist, und noch keine anderen führenden Labore ein ähnliches Modell herausgebracht haben. In einem Umfeld, in dem die Veröffentlichungen zwischen Labors (insbesondere OpenAI und Google) scheinbar völlig synchronisiert sind, beeindruckt mich die anhaltende Suchfähigkeit von o3 immer noch.
Das Kernproblem ist, wann ein anderes Labor ein Modell von gleicher Qualität veröffentlichen wird. Wenn dieser Trend bis zum Ende des Sommers anhält, wird dies bestätigen, dass OpenAI einen technologischen Durchbruch bei der Verbesserung der Zuverlässigkeit von Such- und anderen Werkzeugen in Inferenzmodellen erzielt hat.
Zum Vergleich sollten wir uns ein grundlegendes Problem der offenen und akademischen Gemeinschaft stellen, nämlich wie man ein von o3 inspiriertes Modell baut (mit einer tatsächlichen Suchfähigkeit, die eher GPT-4o oder Claude 4 entspricht):
1. Es ist von entscheidender Bedeutung, RL-Daten zu finden, die ein Modell zur Suche motivieren können. In RL-Experimenten ist es einfach, ein Modell dazu zu bringen, in der Systemanweisung zu suchen. Aber im Laufe des Trainings sollte das Modell schnell lernen, aufhören, es zu nutzen, wenn das Werkzeug nicht praktikabel ist. In dieser Hinsicht ist OpenAI sehr gut, insbesondere in Kombination mit Deep Researchs RL-Trainingserfahrung (ich habe erfahren, dass sein Training auf o3 basiert). Außerdem würde mich eine Forschungsarbeit, die eine erweiterte RL-Trainingsmethode im Stil von DeepSeek R1 zeigt und eine konsistente Werkzeugnutzung in einer großen Datensubmenge aufrechterhält, sehr beeindrucken.
2. Der zugrunde liegende Suchindex ist ebenfalls sehr wichtig. OpenAIs Modelle laufen auf der Bing-Backend-Infrastruktur. Anthropic nutzt die Brave-API, aber die Leistung ist schlecht (viele SEO-Spam-Informationen). Das Erstellen eines akademischen Baselines mithilfe dieser APIs bringt zusätzliche Rechenkosten mit sich. Sobald es eine zuverlässige offene Baseline gibt, können wir interessante wissenschaftliche Forschungen anstellen, wie z.B. welche Modelle am besten auf unbekannte Datensätze verallgemeinern können - eine Schlüsselmerkmale bei der Bereitstellung von Modellen auf lokal sensiblen Daten (z.B. in der Medizin oder der Bankbranche).
Wenn Sie noch nicht mit o3 gesucht haben, sollten Sie es unbedingt tun.
Die Leistung von Agenten wird stark verbessert
Die Produkt-Market-Fit von Claude Code (zusammen mit Claude 4) ist ausgezeichnet. Es ist die perfekte Kombination - stabil und effizient, die Benutzererfahrung (UX) passt perfekt zum Bereich... Es ist einfach eine Freude, es zu nutzen.
In diesem Kontext habe ich ständig nach Möglichkeiten gesucht, darüber zu schreiben. Ein Problem ist, dass ich kein Kernnutzer von Claude Code und anderen Programmierassistenten (wie Codex und Jules) bin. Ich entwickle nicht regelmäßig in komplexen Code-Bibliotheken - ich bin eher ein Forschungsmanager und Problemlöser in einer Organisation, als ein Entwickler, der ständig in einem einzigen Repository entwickelt - daher habe ich keine praktischen Tipps darüber, wie man Claude Code optimal nutzt, und keine Erfahrungen, die Ihnen helfen würden, "das Gefühl von AGI" zu bekommen.
Was ich kenne, sind Modelle und Systeme. Einige grundlegende Fakten über führende Modelle lassen die Entwicklungstrends der Fähigkeiten von Agenten ziemlich optimistisch erscheinen.
Das Neue an LLM-basierten Agenten ist, dass sie mehrere Modellaufrufe erfordern, manchmal sogar mehrere Modelle und verschiedene Prompt-Konfigurationen. Bisher wurden die Modelle, die in Chatfenstern verwendet wurden, für die Ausführung linearer Aufgaben und die Rückgabe der Ergebnisse an den Benutzer entwickelt, ohne komplexes Gedächtnis oder Umfeld zu verwalten.
Das Hinzufügen einer realen Umgebung zu einem Modell erfordert, dass das Modell mehr Aufgaben ausführt, und diese Aufgaben sind oft breiter gefächert. Beim Bau dieser Agentensysteme gibt es zwei Arten von Engpässen:
(1) Das Modell kann nicht alle Aufgaben lösen, die wir von einem Agenten erwarten, und (2) Das Modell versagt in einigen Details der Aufgabenausführung.
Bei Agenten, die bereits erste Fortschritte gemacht haben, wie Claude Code und Deep Research, treten die meisten Probleme in der zweiten Kategorie auf. Die Labore lösen das Problem, indem sie wiederkehrende Ausnahmen in der praktischen Anwendung identifizieren. Dies kann sich darin äußern, dass die Zuverlässigkeit bei einigen langschwänzigen alltäglichen Aufgaben nur 50% beträgt. In einem solchen Fall können die Labore normalerweise leicht neue Daten generieren und sie in das Weiter-Training des Modells einbeziehen, um die Zuverlässigkeit dieser Teilaufgabe auf fast 99% zu erhöhen. Da die Labore derzeit hauptsächlich durch Post-Training anstatt durch großangelegtes Pre-Training die Leistung verbessern, benötigt es viel weniger Zeit, diese Verbesserungen zu integrieren als in den letzten Jahren.
Das Wichtigste ist, wie alles zusammenwirkt. Viele komplexe Aufgaben können durch kleine Störungen blockiert werden. In einem solchen Fall können kleine Anpassungen an einem Modell Agenten wie Claude Code viel zuverlässiger erscheinen lassen, obwohl die Spitzenleistung des Modells sich nicht wesentlich ändert. Das Gleiche gilt für Deep Research.
Deshalb erwarte ich, dass die Agenten, die wir derzeit nutzen, zufällig und erheblich an Leistung gewinnen werden.
Was ich derzeit nicht sicher weiß, ist, wann neue Agentenplattformen auftauchen werden. Ein Faktor ist das Produktproblem, der andere ist das Leistungsproblem. Die Entwicklung neuer Agentenplattformen, die bereits ein Produkt-Market-Fit (PMF) erreicht haben, kann etwas zufällig verlaufen, aber Plattformen, die PMF erreicht haben, können wie wir es gewohnt sind, durch führende Modelle erheblich verbessert werden.
Dies ist ein neuer Weg für die Branche, der eine andere Art der Informationsvermittlung nutzen wird. Künftig werden mehr KI-Modelle Ähnlichkeiten mit Anthropics Claude 4 aufweisen. Obwohl die Verbesserungen in den Benchmark-Tests gering sind, sind die Fortschritte in der praktischen Anwendung erheblich. Dieser Trend wird Auswirkungen auf Politik, Bewertung und Transparenz haben. Um zu beurteilen, ob der technologische Fortschritt anhält, ist eine feinere Analyse erforderlich, insbesondere wenn Kritiker die Gelegenheit nutzen, dass die Bewertungsindikatoren stagniert sind, um zu behaupten, dass die KI nicht mehr effektiv ist.
Ähnlich wie bei o3 sollten Sie Claude Code ausprobieren, auch wenn Sie nicht oft programmieren. Es kann schnell interessante Demos und unabhängige Websites erstellen. Im Vergleich zu vollautomatischen Agenten wie Codex hat es derzeit einen großen Vorteil in der Benutzerfreundlichkeit.
Die Skalierungsgeschwindigkeit der Modelle verlangsamt sich
Im Jahr 2025 haben die von führenden KI-Labors veröffentlichten Modelle in der Regel keine weitere Zunahme der Gesamtparameteranzahl gezeigt. Beispielsweise hat Claude 4 die gleiche API-Preisgestaltung wie Claude 3.5. OpenAI hat nur eine Forschungs-Vorschauversion von GPT-4.5 veröffentlicht. Gemini hat seine Ultra-Version noch nicht herausgebracht. Innerhalb dieser Labore gibt es noch mehr nicht veröffentlichte Modelle, die größer sind.
Es ist zu beachten, dass viele dieser Modelle möglicherweise etwas kleiner sind, z.B. könnte Claude 4 Sonnet etwas kleiner sein als Claude 3.5 Sonnet, was auf die Effizienzsteigerung in der Pre-Training-Phase zurückzuführen ist. Diese marginalen technologischen Fortschritte haben erhebliche Auswirkungen auf den Preis und die Inferenzgeschwindigkeit, insbesondere langfristig, aber dies ist nicht der Kern meiner Argumentation.
Das Wichtigste ist, dass die Leistungssteigerung von GPT-5 hauptsächlich durch die Erweiterung bei der Inferenz erreicht wird, anstatt einfach auf einem "größeren einzelnen Modell" zu beruhen. Über Jahre hinweg wurden wir immer wieder gesagt, dass "das Labor mit der größten Trainingsclusteranlage den Wettlauf gewinnen wird, weil es Vorteile bei der Skalierung hat". Deshalb hat Musk das riesige xAI-Cluster gebaut. Heute hat das größte Cluster nur einen Vorteil in der gesamten Forschungs- und Entwicklungsgeschwindigkeit.
Auf der Ebene der Benutzeranforderungen ist die Skalierung im Wesentlichen nicht mehr attraktiv. Künftig könnten die Labore möglicherweise wieder auf dieses Gebiet achten, wenn sie auf äußerst herausfordernde Probleme stoßen, die die Benutzer lösen müssen. Obwohl die Trainingskosten von GPT-4.5 etwa 100 Mal höher sind als die von GPT-4, ist die Verbesserung in den üblichen Benutzerindikatoren nur marginal signifikant.
Was wir sehen, ist eine massive Effizienzsteigerung für die Modellgrößen, die die Benutzer mögen. In der Branche haben sich auch einige Standards etabliert:
1. Mikromodelle (Tiny models), wie Gemini Flash Lite oder GPT 4.1 Nano;
2. Kleine Modelle (Small models), wie Gemini Flash und Claude Haiku;
3. Standardmodelle (Standard models), wie GPT-4o und Gemini Pro;
4. Große Modelle (Big models), wie Claude Opus und Gemini Ultra.
Diese Modelle haben relativ vorhersagbare Preispunkte, Latenzzeiten und Leistungsniveaus. Mit der Reife der Branche sind solche Standards von entscheidender Bedeutung!
Im Laufe der Zeit wird die Effizienzsteigerung neue Standards hervorbringen. Wir werden die breite Verbreitung von Modellen wie Gemini Ultra und GPT-4.5 (GPT-5) sehen, aber die zukünftige Entwicklung ist noch unklar. Derzeit werden neue Skalierungsebenen möglicherweise "alle paar Jahre" erreicht oder gar nicht, je nachdem, wie glatt die Kommerzialisierung der KI verläuft.
Skalierung als Faktor für die Produktdifferenzierung war 2024 nicht mehr effektiv. Dies bedeutet jedoch nicht, dass Pre-Training als Wissenschaft nicht mehr wichtig ist. Der jüngste Bericht über Gemini 2.5 zeigt dies deutlich:
Die Modelle der Gemini 2.5-Serie haben erhebliche Fortschritte bei der Verbesserung der Stabilität des großen Trainings, der Signalübertragung und der Optimierungsdynamik erzielt. Im Vergleich zu den früheren Gemini-Modellen haben sie in der Pre-Training-Phase eine signifikante Leistungssteigerung erreicht.
Dieser Artikel stammt aus dem WeChat-Account "Academic Headlines",