StartseiteArtikel

GPT-5 Kontroversen, Offener Quellcode jagen einander, Leistungssprung: Das Jahresbericht von Epoch AI enthüllt die beschleunigte Entwicklung der KI-Fähigkeiten

36氪的朋友们2025-12-25 11:35
Nach Mitteilungen vom 25. Dezember zeigt der Jahresbericht der gemeinnützigen Organisation Epoch AI, die sich auf Künstliche-Intelligenz-Benchmarking spezialisiert hat, dass insgesamt die Fähigkeiten von KI-Modellen schnell verbessert werden.

Nachrichten vom 25. Dezember: Der Jahresbericht der gemeinnützigen Organisation Epoch AI, die sich auf Künstliche-Intelligenz-Benchmarks spezialisiert hat, zeigt, dass sich die Fähigkeiten von KI-Modellen insgesamt rasant verbessern.

Spitzen internationale Modelle wie GPT und Gemini haben sich bei der Expertenschwierigkeitsstufe des mathematischen Benchmarks FrontierMath ausgezeichnet bewährt. Dennoch erreichten sie nicht die volle Punktzahl bei den wirklich schwierigen Aufgaben, was darauf hinweist, dass noch Verbesserungspotenzial bei der logischen Schlussfolgerung besteht. Gleichzeitig hat der Fortschritt bei der logischen Schlussfolgerung und der verstärkten Lernfähigkeit von KI die Wachstumsgeschwindigkeit fast verdoppelt und die Kosten erheblich gesenkt. Viele Modelle können inzwischen auf Consumer-Hardware laufen.

Vor diesem Hintergrund haben auch die chinesischen Open-Source-Großmodelle Fortschritte gemacht, aber es besteht immer noch eine deutliche Lücke im Vergleich zu den internationalen Spitzenmodellen. Bei den FrontierMath-Tests erzielten die meisten chinesischen Modelle fast keine Punkte. Nur DeepSeek-V3.2 erreichte etwa 2 %. Dies zeigt, dass die chinesischen Modelle zwar aufholen, aber immer noch vor Herausforderungen stehen, wenn es um die Lösung wirklich komplexer Probleme geht.

01 Die "siebenmonatige Aufholjagd" chinesischer Modelle: Die Open-Source-Kraft formt die Landschaft neu

Die höchsten Punktzahlen chinesischer Modelle liegen immer noch etwa sieben Monate hinter dem globalen Spitzenstand.

Bei den neuesten FrontierMath-Bewertungen von Epoch AI haben die chinesischen Open-Source-Modelle beeindruckende Ergebnisse erzielt. FrontierMath ist ein von Fachmathematikern sorgfältig entworfener mathematischer Benchmark von hoher Schwierigkeit, der die wichtigsten Zweige der modernen Mathematik wie Zahlentheorie, Reelle Analysis, Algebraische Geometrie und Kategorientheorie umfasst. Der vollständige Datensatz enthält 350 Aufgaben, darunter 300 in der Basisstufe (Stufe 1 - 3) und 50 extrem schwere Aufgaben (Stufe 4). Um diese Aufgaben zu lösen, müssen Forscher oft Stunden oder sogar Tage investieren.

Das FrontierMath-Aufgaben-Set

Das FrontierMath-Aufgaben-Set ist in öffentliche und private Aufgaben aufgeteilt: Die ersten 10 Aufgaben der ersten 3 Stufen der Basisaufgaben sind der Öffentlichkeit zugänglich, die restlichen 290 Aufgaben bilden den privaten Datensatz; von den 50 extrem schwierigen Aufgaben der Stufe 4 sind 2 öffentlich zugänglich, die restlichen 48 gehören zum privaten Datensatz.

Die Bewertungsergebnisse zeigen, dass die höchsten Punktzahlen chinesischer Modelle bei den Aufgaben der Stufe 1 - 3 immer noch etwa sieben Monate hinter dem globalen Spitzenstand liegen. Dieser Unterschied mag groß erscheinen, aber in der Geschichte der KI-Entwicklung bedeutet es, dass die chinesischen Modelle in erstaunlicher Geschwindigkeit die Lücke zu Top-Labors wie OpenAI und Anthropic schließen. Vor nur zwei Jahren wurde die Lücke zwischen Open-Source-Modellen und den geschlossenen Spitzenmodellen in Jahren gemessen, während heute die Leistungslücke zwischen dem besten Open-Source-Modell, das auf Consumer-GPU laufen kann, und dem absoluten Spitzenstand weniger als ein Jahr beträgt.

Besonders bemerkenswert ist die Stufe 4 des Aufgaben-Sets - 50 extrem schwere mathematische Aufgaben, die "Tage zum Lösen benötigen". DeepSeek V3.2 (Thinking) ist das einzige chinesische Modell, das in dieser Stufe nicht-null Punkte erzielt hat, indem es eine Aufgabe richtig gelöst hat (etwa 2 %). Obwohl dies auf den ersten Blick wenig erscheint, hat es eine große symbolische Bedeutung: Es zeigt, dass chinesische Modelle das Potenzial haben, Spitzenmathematikprobleme zu meistern. Selbst die Modelle o3 und o3-mini von OpenAI erreichen nur einstellige Genauigkeiten bei diesen Aufgaben.

Technisch gesehen hat DeepSeek durch die Innovationen in der Multi-Head Latent Attention (MLA), der Mixture of Experts (MoE)-Architektur und der Multi-Token-Prediction erreicht, dass das Modell bei nur einem Zehntel des Rechenleistungsbedarfs ein ähnliches Vor-Training wie Meta Llama 3 erreicht. Das daraufhin veröffentlichte Inferenzmodell R1 ist in seiner Leistung mit dem o1 von OpenAI vergleichbar, aber die Entwicklungskosten betragen nur einen Bruchteil davon. Dies bestätigt die Ansicht von Epoch AI: Der Haupttreiber für die Senkung der KI-Trainingskosten ist nicht die billige Hardware, sondern die Optimierung der Algorithmen und die Verbesserung der Daten.

Die Bewertungen von Epoch AI wurden mithilfe von Drittanbieter-APIs durchgeführt (DeepSeek mit Fireworks, die anderen Modelle mit Together), um die Sicherheit des FrontierMath-Aufgaben-Sets zu gewährleisten. Epoch AI hat analysiert, dass einige Drittanbieter-APIs die Punktzahlen der Modelle geringfügig beeinflussen können, wobei neu veröffentlichte Modelle stärker betroffen sind. Dies bedeutet, dass die tatsächlichen Fähigkeiten chinesischer Modelle möglicherweise stärker sind, als die öffentlichen Bewertungen zeigen.

Die Methode zur Lösung der FrontierMath-Aufgaben ist ebenfalls interessant: Die Modelle müssen eine Python-Funktion answer zurückgeben, die die Lösung liefert. Die Lösung ist normalerweise eine Ganzzahl oder ein sympy-Objekt. Die Modelle können nachdenken, Python-Code ausführen und bei Sicherheit die Lösung einreichen. Jede Aufgabe hat strenge Markierungsbeschränkungen (eine harte Obergrenze von 1.000.000 Markierungen), und das Bewertungssystem protokolliert die Einreichungen und gibt Punktzahlen.

Die Daten zeigen auch einen Trend: Die Zeitspanne, in der eine Spitzen-KI-Fähigkeit von ihrer Entstehung bis zur breiten Verfügbarkeit vergeht, beträgt weniger als ein Jahr. Dies bietet den chinesischen Modellen sowohl die Möglichkeit, die Spitze einzuholen, als auch Herausforderungen, da die Spitze selbst weiterhin rasant voranschreitet und das Aufholen niemals ein Ende hat.

02 Der "Rüstungswettlauf" der globalen Spitzenmodelle: Von GPT-5 bis Gemini 3

Bei der Veröffentlichung von GPT-5 im Jahr 2025 gab es in Teilen des Marktes "Enttäuschung". Im Vergleich zu Zwischenversionen wie Claude 3.7 und Gemini 2.5 schien die Leistungssteigerung begrenzt. Dennoch zeigen die Daten von Epoch AI, dass der Sprung von GPT-5 gegenüber GPT-4 fast so groß ist wie der von GPT-4 gegenüber GPT-3:

·MMLU: +43%

·MATH: +37%

·TruthfulQA: +40%

·HumanEval: +67%

·GPQA Diamond: +55%

·MATH Level 5: +75%

·Mock AIME 24 - 25: +84%

Der Grund für die geringere "Beeindruckung" liegt in der erhöhten Veröffentlichungsfrequenz: Von GPT-3 bis GPT-4 vergingen etwa zwei Jahre, während es von GPT-4 bis GPT-5 nur ein Jahr dauerte. Der Markt war bereits von Zwischenmodellen wie Claude 3.7, Gemini 2.5 und o1 "gesättigt", und die Erwartungen an GPT-5 waren dementsprechend höher.

Das Modell Gemini 3 Pro hatte bei den FrontierMath-Bewertungen auch Schwierigkeiten, hauptsächlich aufgrund von API-Stabilitätsproblemen. Bei den Aufgaben der Stufe 1 - 3 erreichte es eine Genauigkeit von 38 %, verlor aber aufgrund von API-Fehlern 10 Punkte; bei den extrem schwierigen Aufgaben der Stufe 4 betrug die Genauigkeit 19 %, wobei 3 Aufgaben durch API-Fehler beeinträchtigt wurden. Epoch AI hat mindestens 10 Mal wiederholt, um die Strenge der Bewertung zu gewährleisten. Dies zeigt, dass die API-Stabilität ein wichtiger Faktor für die Leistung von Spitzenmodellen geworden ist.

Das Modell Grok 4 von xAI hatte noch schwerere Netzwerk- und Timeout-Probleme: Bei 8 von 48 Aufgaben der Stufe 4 (16 %) konnte keine Bewertung vorgenommen werden. Epoch AI hat spezielle Regeln angewandt, um diese Probleme zu behandeln, und die Redaktion hat sich vollkommen unabhängig verhalten, um die Transparenz der Bewertung zu gewährleisten.

Darüber hinaus zeigt die Forschungs- und Entwicklungsausgaben von OpenAI die tatsächliche Kostenstruktur: Von den 5 Milliarden US-Dollar Rechenleistungshaushalt im Jahr 2024 wurden 90 % für experimentelles Training und Grundlagenforschung verwendet, nicht für die endgültig veröffentlichte Version von GPT-4.5 oder andere Modelle. Dies zeigt, dass die Kernkosten für die Entwicklung von Spitzenmodellen nicht das "Erstellen des Modells" sind, sondern das "Verstehen, wie man es macht". Deshalb kann DeepSeek mit geringeren Kosten eine ähnliche Leistung erreichen, da es auf den Erkenntnissen von Top-Labors aufbaut.

03 Die beschleunigte Fähigkeitsentwicklung von KI-Modellen: Die Fortschrittgeschwindigkeit der Spitzenmodelle verdoppelt sich

Die Fähigkeiten von KI-Modellen steigen in bisher nie dagewesener Geschwindigkeit an.

Neueste Daten zeigen, dass die Fähigkeiten von KI-Modellen in bisher nie dagewesener Geschwindigkeit ansteigen. Laut der Analyse des Epoch Capabilities Index (ECI) von Epoch AI ist die Fortschrittgeschwindigkeit der Spitzenmodelle in verschiedenen Benchmarks seit April 2024 fast doppelt so hoch wie in den vorherigen zwei Jahren. Genauer gesagt, betrug die jährliche Fähigkeitszunahme vor einem bestimmten Zeitpunkt etwa 8 Punkte, während sie danach auf etwa 15 Punkte stieg, was eine deutliche Beschleunigung anzeigt.

Diese Beschleunigung verläuft parallel zu einigen wichtigen Veränderungen: Inferenzmodelle (wie o1 von OpenAI und R1 von DeepSeek) sind rasant aufgestiegen, während Top-Labors verstärkt in die verstärkte Lernfähigkeit investiert haben. Dies zeigt, dass sich das Entwicklungsmuster von KI ändert: Es wird nicht mehr nur auf umfangreiches Vor-Training gesetzt, sondern auf eine Kombination aus Vor-Training, Inferenzrechnungen und verstärkter Lernfähigkeit, um die Modellfähigkeiten zu verbessern.

Die ECI-Rangliste der globalen Hauptmodelle

Der Bericht von Epoch AI verfolgt 149 Spitzenmodelle von Ende 2021 bis Ende 2025, einschließlich aller Kern-Spitzenmodelle. Die Analyse verwendet ein stückweise lineares Modell, um den Trend der Fähigkeitsentwicklung der Spitzenmodelle über die Zeit zu beschreiben, und hat den besten "Brechpunkt" auf April 2024 festgelegt. Die Fähigkeitswachstumsraten vor und nach diesem Brechpunkt betragen 8,2 Punkte pro Jahr bzw. 15,3 Punkte pro Jahr, was einer Beschleunigungsrate von etwa 1,86 Mal entspricht. Die statistische Analyse zeigt, dass dieses Beschleunigungssignal robust und signifikant ist und die tatsächliche Entwicklungsgeschwindigkeit besser widerspiegelt als ein einfaches lineares Modell.

Dies bedeutet, dass nach 2024 die Leistungssteigerung der Spitzenmodelle nicht nur in absoluten Zahlen zunimmt, sondern auch die Iterationsgeschwindigkeit höher ist. Die Investitionen von führenden Labors in Rechenleistung, Algorithmen und Trainingsdaten werden direkt ihre Fähigkeit bestimmen, die Spitze zu halten. Gleichzeitig stellt dies höhere Anforderungen an Open-Source-Teams: Um in kürzerer Zeit die geschlossenen Modelle einzuholen, müssen sie ständig ihre Algorithmen und Trainingsstrategien optimieren.

Kurz gesagt, die Geschwindigkeit der KI-Fähigkeitssteigerung nimmt zu, der Rhythmus des globalen KI-Wettbewerbs wird komprimiert, und es ist schwierig, einen Vorsprung über einen langen Zeitraum aufrechtzuerhalten.

04 Die zehn wichtigsten KI-Trends in 2025: Technologische, wirtschaftliche und gesellschaftliche Auswirkungen

Im vergangenen Jahr 2025 hat Epoch AI 36 Datenanalysen und 37 Newsletter veröffentlicht, insgesamt 70 Kurzstudien über KI. Welche Inhalte waren am beliebtesten? Die Jahresrückschau zeigt, dass die Lesezahlen und Interaktionsdaten dieser Analysen und Newsletter uns die Kernrichtungen der zehn wichtigsten Trends aufzeigen.

Unter diesen beliebtesten Studien sind die ersten fünf die Datenanalysen, die von den Lesern am meisten beachtet wurden. Sie enthüllen die wichtigsten Branchentrends wie den Fortschritt der KI-Fähigkeiten, die Verteilung der Rechenleistung und die Kostenänderungen. Die folgenden fünf Studien spiegeln die Trends in Politik, gesellschaftlicher Anwendung und Branchenpraxis wider.

Dies bedeutet, dass die zehn wichtigsten Trends dieses Jahres nicht einfach von Forschern festge