StartseiteArtikel

Yao Shunyu's Google Debut: New Gemini Model Shatters SOTA Records, Only 7 Humans Left to Defend Carbon-Based Programming

量子位2026-02-13 15:27
Spezialisiert sich auf die Bereiche von Wissenschaftsforschung und Ingenieurwesen.

Angesichts des heftigen Angriffs von Claude Opus 4.6 und GPT Codex 5.3 hat Google mit einem Schlag eine umfassende Verbesserung des Gemini 3 Deep Think vorgenommen.

Auf Codeforces, einer Benchmark-Testplattform für verschiedene Wettbewerbs-Programmierherausforderungen, hat es eine erstaunliche Elo-Punktzahl von 3.455 erreicht, was dem 8. Platz weltweit entspricht.

Jetzt liegt nur noch die Programmierkompetenz von sieben Menschen weltweit vor ihm. Der bisherige Höchstwert von 2.727 Elo wurde vor einem Jahr von o3 erreicht.

Die Stärke von Gemini 3 Deep Think reicht jedoch noch weiter. Es hat direkt ARC-AGI-2 – ein anerkanntes, führendes Benchmark für die Testung der logischen Fähigkeiten von KI – auf beispiellose 84,6 % gebracht.

Man muss bedenken, dass die besten bisherigen Modelle zwischen 60 % und 70 % lagen, und Claude Opus 4.6 erreichte nur 68,8 %.

Bei der Human Last Exam (HLE) hat Gemini 3 Deep Think ebenfalls einen neuen State-of-the-Art (SOTA) erreicht und 48,4 % erzielt.

Die Offizielle Bekanntgabe besagt, dass die neue Version von Deep Think ein speziell von Google entwickeltes Inferenzmodell ist, das darauf abzielt, die Grenzen der KI voranzutreiben und die modernen Herausforderungen in den Bereichen Wissenschaft, Forschung und Technik zu bewältigen.

Ein weiterer „Legende“ – der legendäre Preisträger für die besten Studenten der Physik an der Tsinghua-Universität, Shunyu Yao, ist im vergangenen September 2025 bei Google DeepMind gestartet und beteiligt sich auch an der Entwicklung des neuen Deep Think-Modells.

Die neue Version von DeepThink ist bereits in das Labor eingezogen

Wie stark ist die Leistung der verbesserten Version von Gemini 3 Deep Think?

Sein Ehrgeiz reicht nicht nur darauf hinaus, Benchmark-Tests zu gewinnen, sondern es will in die Bereiche Forschung und Technik eintreten und Ingenieuren bei der Bewältigung komplexer Aufgaben helfen.

Die neue Version von Deep Think kann Skizzen analysieren, komplexe Formen modellieren und direkt physische Dateien für den 3D-Druck generieren. Hier ist ein Laptop-Ständer, den es gedruckt hat:

Der Google-VP Josh Woodward hat die gedruckten Ergebnisse auf X gepostet, und es scheint, dass die Skizze ziemlich genau wiedergegeben wurde:

Die Mathematikerin Lisa Carbone von der Rutgers University hat mit Hilfe von Gemini 3 Deep Think eine hoch spezialisierte mathematische Dissertation begutachtet.

Das Ergebnis war, dass Gemini 3 Deep Think erfolgreich einen feinen logischen Fehler erkannt hat, der in den vorherigen manuellen Peer-Reviews nicht entdeckt wurde.

Das Wang An Laboratory der Duke University hat die Technologie von Gemini 3 Deep Think genutzt, um die Herstellungsmethode für das Wachstum komplexer Kristalle zu optimieren, um neue Halbleitermaterialien zu entdecken.

Das Ergebnis war, dass Gemini 3 Deep Think erfolgreich ein Verfahren entwickelt hat, das die Herstellung von Filmen mit einer Dicke von über 100 Mikrometern ermöglicht, was bisherige Methoden nicht erreicht haben.

Der Forscher XiaoKang Chen des DeepSeek Multimodal Teams hat auf X auch angegeben, dass Gemini 3 Deep Think sehr gut darin ist, langschwänzige Aufgaben im Bereich der Wissenschaft zu bewältigen.

Er hat Deep Think ein Bild einer komplexen Molekülstruktur eingegeben, und das Modell hat anschließend die Molekülformel korrekt berechnet.

Drei neue SOTA-Erfolge und eine Reduzierung der Inferenzkosten um 82 %

Im vergangenen Jahr hat die spezielle Version von Deep Think bereits Goldmedaillen bei internationalen Wettbewerben wie der IMO gewonnen. Jetzt hat die neu verbesserte Version von Deep Think in mehreren anspruchsvollen Benchmark-Tests den State-of-the-Art (SOTA) vollständig übertroffen:

Ohne die Verwendung von Tools hat es in der HLE einen neuen SOTA von 48,4 % erreicht;

Im ARC-AGI-2-Test hat es ein beispielloses Ergebnis von 84,6 % erzielt, das von der ARC Prize Foundation verifiziert wurde;

Auf Codeforces hat es eine erstaunliche Elo-Punktzahl von 3.455 erreicht;

Bei der Internationalen Mathematik-Olympiade 2025 hat es das Niveau einer Goldmedaille erreicht.

ARC-AGI-2 wird als die „Turing-Test“ der KI-Branche bezeichnet und zielt darauf ab, die Fähigkeit eines Modells zu messen, neuartige, noch nie gesehene logische Aufgaben zu bewältigen.

Man muss bedenken, dass die erste Version von Deep Think, die im Dezember letzten Jahres veröffentlicht wurde, noch nur 45,1 % erreichte. Innerhalb von weniger als drei Monaten ist der Wert auf 84,6 % gestiegen, was besser als Opus 4.6 ist.

Im ARC-AGI-1 hat Gemini 3 Deep Think 96 % erreicht, was die maximale Punktzahl ist.

Während die Leistung steigt, sinken auch die Inferenzkosten stark. Die erste Version von Deep Think hat pro Aufgabe 77,16 US-Dollar gekostet. Durch diese Verbesserung wurden die Kosten um 82 % gesenkt, und es werden nur noch 13,62 US-Dollar pro Aufgabe benötigt.

Da sowohl ARC-AGI-1 als auch ARC-AGI-2 von Gemini übertroffen wurden, baut die ARC Prize jetzt bereits ARC-AGI-3 …

Außer in Mathematik und Programmierung zeigt die verbesserte Version von Deep Think auch in breiten wissenschaftlichen Bereichen wie Chemie und Physik hervorragende Leistung.

Bei der Internationalen Physik-Olympiade und der Internationalen Chemie-Olympiade 2025 hat Gemini 3 Deep Think im schriftlichen Teil das Niveau einer Goldmedaille erreicht.

Darüber hinaus hat es auch Fähigkeiten in der höheren theoretischen Physik gezeigt und im CMT-Benchmark-Test 50,5 % erreicht.

Chinesische Forscher an der Spitze: Die stärkste logische KI-Modell schaffen

In dem Entwicklungsteam von Gemini 3 Deep Think gibt es viele chinesische Forscher.

Zu den Kernmitgliedern gehört der chinesische Wissenschaftler Yi Tay aus der Generation der 95er, der in dem Gemini-Team an der Forschung zu verstärktem Lernen und logischen Fähigkeiten arbeitet.

Früher hat er im Google Brain-Projekt frühe Projekte zu großen Sprachmodellen wie PaLM-2, UL2 und Flan-2 mit geleitet.

Nach mehr als drei Jahren Arbeit im Google Brain hat Yi Tay zwischen 2023 und 2024 kurzzeitig Google verlassen und als Mitbegründer ein Unicorn-KI-Start-up namens Reka gegründet.

Reka AI wurde von Forschern aus DeepMind, Google und Meta gegründet, und das Ziel war es, leistungsstarke und effiziente Basis-Modelle zu schaffen. Jetzt entwickelt es auch Tools für die Benutzeroberfläche, Anwendungslogik und andere Anwendungen.

Nach anderthalb Jahren als Unternehmer kehrte Yi Tay zurück in das Google DeepMind und arbeitet jetzt als leitender Forscher an der Forschung zu Künstlicher Intelligenz und großen Sprachmodellen.

Shunyu Yao, ein ehemaliger Student der Tsinghua-Universität, der im vergangenen Jahr von Anthropic zu Google DeepMind gewechselt ist, hat ebenfalls an der Entwicklung des neuen Deep Think-Modells mitgewirkt.

Shunyu Yao studierte Physik an der Tsinghua-Universität und hat den höchsten Stipendienpreis für Studierende der Tsinghua-Universität erhalten (der höchste Stipendienpreis, der an hervorragende Studierende der Tsinghua-Universität verliehen wird).

Während seines Bachelor