Nach Gemini 3 hat Jeff Dean, der Chefwissenschaftler von Google, die drei Schlüsselsignale von KI erklärt.
Gemini 3, ein weiterer stärkster Modell taucht auf.
Aber was hat sich im Vergleich zum letzten Mal tatsächlich geändert? Haben die Benchmark-Werte um ein paar Prozentpunkte gestiegen, oder ist die KI wirklich etwas anderes geworden?
Nach der Veröffentlichung von Gemini 3 hielt Jeff Dean am 22. November einen Vortrag an der Stanford University. Er resümierte die Entwicklung der KI in den letzten 15 Jahren, beginnend mit neuronalen Netzen, TPU, Transformer bis hin zu spärlichen Modellen und Destillationstechniken, und zeigte schließlich die einzigartigen Fähigkeiten von Gemini 3 auf.
Im Vortrag sprach Jeff Dean nicht über Benchmark-Zahlen und machte auch keine Produktwerbung. Er sagte:
Warum sollte die KI wie das Gehirn funktionieren?
Warum sollte die KI von der Fähigkeit, zu sprechen, zur Fähigkeit, zu handeln, übergehen?
Warum geht es bei der nächsten Generation von KI nicht um die Anzahl der Parameter, sondern um die Effizienz?
Aus Jeff Deans Sicht ist Gemini 3 nicht nur ein größeres Modell, sondern es hat die Art und Weise, wie KI eingesetzt wird, grundlegend verändert.
Diese drei Einschätzungen sind die wirklichen Signale hinter dieser Veröffentlichung.
Signal 1: Vom Wettlauf um Größe zum Gehirn-ähnlichen Modell
Zu Beginn des Vortrags ging Jeff Dean direkt auf ein Problem ein: Traditionelle KI-Modelle sind sehr verschwenderisch.
Er sagte:
"In traditionellen neuronalen Netzen aktiviert man für jedes Beispiel das gesamte Modell, was sehr verschwenderisch ist. Eine bessere Methode wäre, ein sehr großes Modell zu haben, aber nur 1 % bis 5 % davon bei jeder Aktivierung zu nutzen."
Stellen Sie sich vor, Sie hätten ein riesiges Modell, das Fähigkeiten in Bildverarbeitung, Sprache, Mathematik, Programmierung usw. beinhaltet. Bei der traditionellen Methode muss das gesamte Modell aufgerufen werden, unabhängig von der gestellten Frage. Das wäre so, als würde man jedes Mal, wenn man das Licht einschaltet, alle Geräte in der Wohnung starten. Jeff Deans Idee ist es, nur den für die Aufgabe benötigten Teil des Modells auszuführen. Bei der Bildverarbeitung wird nur das visuelle Modul verwendet, bei der Programmierung nur das Programmierungsmodul.
Er verglich es mit dem Gehirn: Wenn Sie in einer Englischstunde sitzen, verwendet das Gehirn den Teil, der für die Sprachverarbeitung zuständig ist. Beim Fahren schaltet das Gehirn diesen Teil aus und konzentriert sich stattdessen auf die Steuerung des Körpers und die Beobachtung der Straße. KI-Modelle sollten auch so funktionieren.
Diese Idee wurde nicht erst für Gemini 3 entwickelt.
Schon vor einigen Jahren hat Jeff Dean sein Team dazu angeregt, in diese Richtung zu forschen und hat es mit dem Namen Pathways-Architektur versehen. Das Kernziel dieser Architektur ist es, ein riesiges Modell zu erstellen, das dennoch effizient arbeitet, sodass bei jeder Inferenz nur ein kleiner Teil der Pfade aktiviert wird.
Google hat dies mit der "Mixture of Experts" (MoE)-Technik erreicht:
Das Modell enthält viele Expertenmodule.
Einige sind gut in der Bildverarbeitung, andere in der Sprachverarbeitung, wieder andere in der Informationsfusion.
Nachdem die Eingabedaten eingehen, entscheidet das System automatisch, welche Experten aufgerufen werden sollen.
Wie gut ist das Ergebnis? Die von Jeff Dean im Vortrag gezeigten Daten sind erstaunlich: Mit dem gleichen Rechenbudget kann die MoE-Architektur ein Modell trainieren, dessen Effektivität um das 8-fache gesteigert ist.
Und Gemini 3 ist die neueste Umsetzung dieser Philosophie.
Es lädt nicht mehr alle Gewichte auf einmal, sondern ruft die Expertenmodule bedarfsgerecht auf.
Das Ergebnis ist: Stärkere Leistung, niedrigere Kosten und die Fähigkeit, mehrere Aufgaben gleichzeitig zu bearbeiten. So wie Ihr Gehirn: Bei der Bearbeitung komplexer Probleme arbeiten mehrere Bereiche zusammen, bei einfachen Aufgaben wird nur ein kleiner Teil verwendet.
Was bedeutet dieser Wandel?
Zukünftige Spitzenmodelle werden nicht mehr Alleskönner sein, sondern spezialisierte Teams, die zusammenarbeiten.
Der Schlüssel im Wettbewerb um die beste KI liegt nicht mehr darin, wer das größte Modell hat, sondern wer die Tools besser nutzen kann.
Signal 2: Warum sollte die KI nicht nur antworten?
Wenn im ersten Abschnitt darüber gesprochen wurde, wie das Modell intern klüger wird, geht es im zweiten Abschnitt darum, dass es nun auch für Sie tätig werden kann.
Am Vortragsort demonstrierte Jeff Dean ein Beispiel: Ein Benutzer hat eine Reihe von Familienrezepten, einige in koreanischer Handschrift, andere auf Englisch, alle als alte Fotos mit Knickern und Ölflecken.
Die Anforderung des Benutzers war einfach: Eine zweisprachige Rezept-Website erstellen.
Was hat dann Gemini 3 getan? Schritt 1: Alle Texte auf den Fotos scannen und erkennen; Schritt 2: In eine zweisprachige Version übersetzen; Schritt 3: Die Website-Layout automatisch generieren; Schritt 4: Jedem Rezept ein KI-generiertes Bild hinzufügen.
Während des gesamten Prozesses hat der Benutzer nur einen Satz gesagt.
Dies ist der Unterschied zwischen einem traditionellen Assistenten und einem intelligenten Agenten. Ein Assistent gibt einfach eine Antwort auf Ihre Frage, während ein Agent das Ziel versteht, die Aufgabe selbst aufteilt, Tools nutzt und die gesamte Aktionskette ausführt.
Jeff Dean sagte:
Die KI soll nicht nur auf Sie antworten, sondern auch handlungsfähig sein.
Der technische Durchbruch hinter dieser Fähigkeit ist: Stärkendes Lernen in überprüfbaren Bereichen.
Was bedeutet das?
Nehmen wir die Programmierung als Beispiel:
- Die KI generiert einen Code.
- Das System überprüft automatisch: Kann der Code kompiliert werden?
- Wenn ja, gibt es eine Belohnung; wenn nein, eine Strafe.
- Darüber hinaus: Hat der Code die Unittests bestanden?
- Wenn ja, gibt es eine höhere Belohnung.
Das gleiche Prinzip gilt auch für die Mathematik:
- Die KI generiert einen Beweis.
- Das System überprüft den Beweis mit einem Beweisprüfer.
- Bei einem richtigen Beweis gibt es eine Belohnung, bei einem falschen wird der Fehler im Beweis angegeben.
Jeff Dean sagte: Dieser technische Durchbruch ermöglicht es dem Modell, den Raum der möglichen Lösungen wirklich zu erkunden. Mit der Zeit wird es immer besser darin, diesen Raum zu erkunden.
Wie erstaunlich ist das Ergebnis? Gemini hat bei der Internationalen Mathematikolympiade (IMO) 2025 fünf von sechs Aufgaben gelöst und eine Goldmedaille gewonnen.
Wie beeindruckend ist dieses Ergebnis?
Man muss bedenken, dass erst vor drei Jahren, im Jahr 2022, KI-Modelle in der mathematischen Logik noch sehr schwach waren.
Damals erreichte das fortschrittlichste Modell in der Branche nur eine Genauigkeit von 15 % bei GSM8K (einem Benchmark-Test für Mittelstufenschulmathematik). Wie schwierig waren die Testaufgaben? Beispiel: Sean hat fünf Spielzeuge und bekommt an Weihnachten noch zwei. Wie viele Spielzeuge hat er jetzt?
Bei diesen einfachen arithmetischen Aufgaben aus der Grundschule erreichte die damalige KI nur eine Genauigkeit von 15 %.
Und jetzt kann Gemini Aufgaben der Internationalen Mathematikolympiade lösen, die zu den schwierigsten Problemen in der Weltmeisterschaft für Mathematikgenies gehören.
Von der Grundschularithmetik zur Olympiade-Goldmedaille in weniger als drei Jahren.
Dieser Sprung zeigt, dass die KI nicht nur besser darin geworden ist, Fragen zu beantworten, sondern dass sie auch echte Problemlösefähigkeiten hat. Sie kann selbstständig erkunden, versuchen, überprüfen und bis zur richtigen Lösung kommen.
Konkret benötigt ein Agent drei Schlüsselfähigkeiten:
Zustandswahrnehmung: Verstehen, was Sie wollen und den aktuellen Fortschritt verstehen
Toolkombination: Fähigkeit, externe Tools wie Suchmaschinen, Taschenrechner, APIs usw. aufzurufen
Mehrstufige Ausführung: Anpassen des Plans basierend auf Rückmeldungen und wiederholtes Versuchen, bis die Aufgabe abgeschlossen ist
Und Gemini 3 kann durch die tiefe Integration in die Google-Ekosysteme reale Systeme wie Kalender, E-Mail und Cloud-Services verbinden und diese Fähigkeiten tatsächlich nutzen.
Wie im vorherigen Beispiel der Rezept-Website: Sie müssen nicht sagen "erst die Texte erkennen, dann übersetzen, dann layouten". Sie müssen nur sagen "erstelle eine Website", und Gemini 3 erledigt alle Schritte selbst.
Dies ändert die Arbeitsweise jeder Person:
Früher mussten Sie der KI jeden Schritt sagen.
Jetzt müssen Sie nur das Ziel nennen, und der Rest wird von der KI erledigt.
Ihre Rolle hat sich von Nutzer zu Leiterin/Leiter verändert.
Signal 3: Was bestimmt, ob die KI verbreitet werden kann?
Wenn die Pathways-Architektur das Modell klüger macht und das Agentensystem es handlungsfähig macht, ist das dritte Signal am leichtesten zu übersehen, aber möglicherweise am wichtigsten: Die KI muss tatsächlich erschwinglich sein.
Jeff Dean erzählte an der Stanford University eine Geschichte aus dem Jahr 2013.
Damals hatte Google gerade ein hervorragendes Spracherkennungsmodell entwickelt, das eine viel niedrigere Fehlerrate als die bestehenden Systeme hatte. Jeff Dean machte eine Berechnung: Was würde passieren, wenn 100 Millionen Menschen anfingen, täglich drei Minuten mit ihrem Smartphone zu sprechen?
Die Antwort war: Google müsste die Anzahl seiner Server verdoppeln.
Das heißt, eine Verbesserung einer Funktion würde den gesamten Serverressourcen des Unternehmens verdoppeln.
Dies ließ Jeff Dean erkennen: Es reicht nicht, nur ein gutes Modell zu haben. Es muss auch erschwinglich sein.
So wurde der TPU geboren.
1. TPU: Hardware, die für Effizienz entwickelt wurde
Im Jahr 2015 wurde der erste TPU in Betrieb genommen. Er wurde speziell für maschinelles Lernen entwickelt und hat eine Aufgabe erfüllt: Die lineare Algebra mit niedriger Genauigkeit auf die Spitze getrieben.
Was war das Ergebnis?
Er war 15 bis 30 Mal schneller als die damaligen CPU und GPU und hatte eine 30- bis 80-fache Energieeffizienz.
Das bedeutet, dass Funktionen, die zuvor eine Verdoppelung der Server erforderlich hätten, jetzt mit einem kleinen Teil der vorhandenen Hardware realisiert werden können.
Beim neuesten siebten Generation Ironwood TPU hat ein einzelner Pod 9.216 Chips. Im Vergleich zum ersten Generation maschinellen Lern-Supercomputer-Pod (TPUv2) hat sich die Leistung um das 3.600-fache und die Energieeffizienz um das 30-fache verbessert.
Jeff Dean betonte besonders, dass diese Verbesserungen nicht nur auf dem Fortschritt der Chiptechnologie beruhen, sondern dass Google die Energieeffizienz von Anfang an als Kernziel festgelegt hat.
2. Destillation: Kleine Modelle lernen die Fähigkeiten großer Modelle
Hardware ist eine Seite der Medaille, Algorithmen sind die andere.
Jeff Dean, Geoffrey Hinton und Oriol Vinyals haben gemeinsam an einer Technik namens "Destillation" geforscht.
Der Kerngedanke ist: Ein großes Modell fungiert als Lehrer und lehrt ein kleines Modell.
Bei einer Spracherkennungsaufgabe machten sie ein Experiment:
- Mit 100 % der Trainingsdaten erreichte man eine Genauigkeit von 58,9 %.
- Mit nur 3 % der Trainingsdaten sank die Genauigkeit auf 44 %.
- Aber wenn man die Destillationstechnik anwandte, konnte man mit nur 3 % der Daten eine Genauigkeit von 57 % erreichen.
Sie erreichten also mit 3 % der Daten ein Ergebnis, das nahezu dem von 100 % der Daten entsprach.
Jeff Dean sagte:
"Man kann ein sehr großes Modell trainieren und dann mit der Destillation ein viel kleineres Modell so ausstatten, dass es eine Leistung erreicht, die dem des großen Modells sehr nahe kommt."
Das ist der Grund, warum Gemini sowohl eine führende Leistung als auch die Verwendung auf Mobiltelefonen erreichen kann. Das große Modell wird in der Cloud trainiert, das kleine Modell lernt durch Destillation und wird auf das Mobiltelefon deployt. Es hat nur ein Zehntel der Parameter, behält aber über 80 % der Fähigkeiten bei.
3. Die echte Schwelle: Kann die Technologie unter realen Bedingungen umgesetzt werden?
Aber der technische Durchbruch ist nur der erste Schritt. Jeff Dean ist der Meinung, dass die KI, um weltweit verbreitet zu werden, realistischeren Problemen gegenüberstehen muss: Ist die Energieversorgung ausreichend? Ist die Stromversorgung stabil? Ist das Netzwerk verfügbar? Können die Geräte die KI unterstützen?
Das ist auch der Grund, warum Google die KI in aufstrebenden Märkten wie Südostasien fördert. In diesen Regionen gibt es möglicherweise keine starke Stromversorgung und Serverinfrastruktur, aber durch Effizienztechniken wie TPU und Destillation können die Menschen dennoch unter den bestehenden Bedingungen die KI nutzen.
Googles Strategie besteht nicht darin, zu warten, bis die Bedingungen perfekt sind, sondern die Technologie an die Realität anzupassen.
Die dahinter liegende Logik hat den Fokus der gesamten Branche verändert.
Früher ging es darum:
- Wie stark ist dieses Modell?
- Wie viele Parameter hat es? Wie viele Token?
Jetzt ist es wichtig:
- Kann es auf meinem Gerät verwendet werden?
- Wie niedrig können die Kosten gedrückt werden?
- Kann es offline verwendet werden?
Im nächsten Wettlauf geht es nicht um die Anzahl der Parameter, sondern um die Effizienz der Umsetzung.
Abschluss | Vom Modell zum System
Betrachtet man die Leistungsdaten, handelt es sich um ein Modellupgrade.
Betrachtet man Jeff Deans Denkweise, handelt es sich um einen Paradigmenwechsel.
Von der Notwendigkeit, die Serveranzahl zu verdoppeln, im Jahr 2013 bis zur Gewinnung der Goldmedaille bei der IMO 2025 hat Jeff Dean immer die gleiche Frage beantwortet:
Wie kann man die KI sowohl stark als auch nutzbar machen?
Die Antwort liegt in drei Veränderungen:
Es geht nicht darum, wer das größte Modell hat, sondern wer es klüger gestaltet (Pathways)
Es geht nicht darum, wer die genauesten Antworten gibt, sondern wer tatsächlich tätig werden kann (Agent)
Es geht nicht darum, wer die meisten Parameter hat, sondern wer