Der Leiter der Vorhersage von Gemini 3 warnt: Der Modellkrieg hat sich von Algorithmen auf Engineering verlagert. Synthetische Daten sind zum Kern des generationalen Sprungs geworden. Die geheime Waffe, mit der Google OpenAI und Meta übertrumpft, wird enthüllt.
Ende 2025 hat der "Endkampf" in der Branche der Large Language Models offiziell begonnen. Die verschiedenen Anbieter haben ihre besten Waffen vorgeführt. In diesem heftigen Wettstreit hat sich Gemini 3 mit absoluter Überlegenheit herauskristallisiert und bereits bei seiner Premiere die Erwartungen in der Branche übertroffen.
Am 18. November hat Gemini 3 mehrere autoritative Benchmark-Tests "erledigt". Mit der Reputation als "weltstärkstes multimodales Verständnis", "Intelligentestes Agens mit tiefster Interaktion" und "Rätselbeherrscher" hat es alle ähnlichen Modelle weltweit übertroffen. Google-Chef Sundar Pichai hat es persönlich unterstützt und es als "das intelligenteste Modell bisher" bezeichnet. Sobald die Nachricht bekannt wurde, hat sich die gesamte KI-Branche in Aufruhr versetzt. Alle fragten sich: Was verbirgt sich hinter der Stärke von Gemini 3?
Schon am Tag der Veröffentlichung gab es erste Hinweise auf die Antwort. Oriol Vinyals, Vizepräsident für Forschung und Deep Learning bei Google DeepMind, hat direkt auf Twitter "spoiled": "Die Kerngeheimnisse der Stärke von Gemini 3 sind ganz einfach: Besseres Pre-Training und Besseres Post-Training." Diese offene Äußerung hat "Pre-Training" und "Post-Training" sofort zum Kern der Diskussion in der Branche gemacht.
In letzter Zeit ist Sebastian Borgeaud, einer der Leiter des Pre-Trainings von Gemini 3 und Mitautor der bahnbrechenden Studie RETRO erstmals in einem Podcast aufgetaucht und hat die Laborlogik hinter diesem Spitzenmodell ausführlich erklärt. Aus seiner Sicht ist der Sprung von Gemini 3 keine einzelne bahnbrechende Innovation, sondern das Ergebnis kontinuierlicher Optimierungen in unzähligen Details: "Wir finden fast täglich Möglichkeiten, das Modell zu verbessern. Das gesamte Team arbeitet mit Hochdruck."
Wichtiger noch ist, dass Sebastian Borgeaud einen Kernwandel benannt hat: Google entwickelt nicht mehr einfach nur "Modelle", sondern hat sich auf die Entwicklung von "Systemen" konzentriert. Diese Ansicht stimmt genau mit der des Mitbegründers und CEO von DeepMind, Demis Hassabis, überein. Hassabis hat zuvor öffentlich erklärt, dass die Stärke von Gemini 3 auf der tiefen Integration von "Forschung, Engineering und Infrastruktur" beruht.
Die Geheimnisse von Gemini 3 spiegeln indirekt die tiefgreifende Veränderung in der heutigen Branche wider: Die KI hat die Skalierungsphase der "unendlichen Daten" verlassen und ist in eine neue Phase der "begrenzten Daten" eingetreten. Dieser Trend ist irreversibel und zwingt die gesamte Branche, die Innovationsrichtung neu zu überdenken. Aus Sicht von Sebastian Borgeaud werden synthetische Daten, Inferenzpfade, lange Kontexte, kontinuierliches Lernen, End-to-End-Suchtraining sowie ein zuverlässiges Evaluierungssystem gemeinsam den zukünftigen Entwicklungspfad der KI-Branche bestimmen.
Bereits im klassischen Chinchilla-Projekt hat das DeepMind-Team die Schlüsselregel erkannt: Bei einer festgelegten Trainingsrechenleistung ist es besser, die Datenmenge schneller zu erweitern als die Modellgröße blindlings zu vergrößern. So kann man ein besseres Modell trainieren. Diese Erkenntnis ist auch heute noch von großer praktischer Bedeutung, da sie direkt die Effizienz der Inferenzdienste und die Nutzungskosten nach dem Training des Modells bestimmt und eine der Kernüberlegungen für Unternehmen bei der Umsetzung von KI ist.
Als erfahrener Forscher, der von der Verstärkungslernen zur Repräsentationslernen gewechselt hat, verfügt Sebastian Borgeaud über fundierte Kenntnisse im Pre-Training: Von der Transformer-Architektur über BERT, XLNet bis hin zur ersten Large Language Model-Studie von DeepMind, Gopher, hat seine reiche Forschungsgeschichte ihm einen einzigartigen "Forschungsgeschmack" verliehen, der auch für die Pre-Training-Breakthroughs von Gemini 3 eine Vorbedingung war.
Im Hinblick auf die Debatte in der Branche über die These "Das Pre-Training Scaling Law ist tot" hat Sebastian Borgeaud eine klare Antwort gegeben: "Die Größe spielt immer noch eine Rolle, aber das Gewicht der Architekturinnovation und der Dateninnovation hat deutlich zugenommen und ist sogar noch wichtiger geworden."
Wie kann man also in der Situation begrenzter Daten bessere Modellleistungen erzielen? Synthetische Daten sind zu einer beliebten Lösung in der Branche geworden, aber Sebastian Borgeaud ist sehr vorsichtig: "Es ist sicherlich ein interessanter Ansatz, aber man muss äußerst vorsichtig sein."
Aus seiner Sicht besteht das Kernrisiko synthetischer Daten nicht darin, dass sie "keine Wirkung haben", sondern dass man "nicht bemerkt, wenn sie falsch eingesetzt werden". Sobald die Datenverteilung abweicht, scheint das Modell seine Antwortfähigkeit zu verbessern, aber es kann in eine "Eigenwelt" geraten. Deshalb hat er ein solides Verfahren vorgeschlagen: Nachdem synthetische Daten mit einem starken Modell generiert wurden, müssen sie durch kleine, kontrollierte Ablationsexperimente auf ihre Nutzen und potenziellen Nebenwirkungen überprüft werden.
Trotzdem bleibt eine zentrale Frage unbeantwortet: "Kann ein Modell, das mit synthetischen Daten trainiert wurde, seine 'Lehrmeister' übertreffen?"
Es ist erwähnenswert, dass Googles Modelltraining von Anfang an Daten aus verschiedenen Quellen integrierte, was auch die multimodalen Vorteile von Gemini 3 begründete.
Sebastian Borgeaud hat auch angegeben, dass DeepMind an der Innovation der "Post-Transformer-Architektur" arbeitet und sich für "natürliche Modelle" sehr enthusiastisch ist. Obwohl die Entwicklungskosten dieser Modelle hoch sind, lohnt sich die Investition in den langen Lauf. Darüber hinaus können sie die reichen Erfahrungen aus der Pre-Training-Phase des diesjährigen Trends zur Verstärkungslernenskalierung nutzen, um eine technologische Synergieeffekt zu erzielen.
In der zweiten Hälfte des Podcasts hat Sebastian Borgeaud das Thema auf die Hotspots des nächsten Pre-Trainings gewechselt. Er ist der Meinung, dass das Pre-Training nicht mehr auf dem einzigen Weg von "größer, länger, teurer" fortgesetzt wird, sondern sich auf die Architekturinnovation konzentrieren wird:
Lange Kontexte und Aufmerksamkeitsmechanismen sind die Schlüsselvariablen dabei. Je länger der Kontext ist, desto mehr Informationen kann das Modell während der Inferenz nutzen, und desto breiter sind die Grenzen seiner Fähigkeiten.
In der langfristigeren Perspektive besteht die Möglichkeit, die Suche und das Retrieval tiefer in das Training zu integrieren und ein End-to-End-differenzierbares Lernen zu implementieren, damit das Modell die Fähigkeit zum "Retrieval" in seine eigenen Fähigkeiten integriert, anstatt nach der Veröffentlichung externe Tools hinzuzufügen. Er ist der Meinung, dass die Skalierung der Verstärkungslernen diesen Prozess vorantreiben könnte, aber es wird Jahre dauern, bis sich stabile Architekturen und Trainingsmethoden etablieren.
Ein weiterer Schwerpunkt ist das kontinuierliche Lernen. Sebastian Borgeaud sagt direkt, dass das Wissen eines Basis-Modells nach Abschluss des Pre-Trainings weitgehend festgelegt ist. Wenn morgen neue Forschungsergebnisse veröffentlicht werden, aktualisiert das Modell sich nicht von selbst. Derzeit ist die praktikabelste Lösung in der Branche die Integration von Retrieval in die Inferenz der Produkte. Dadurch können die neuesten Informationen in Echtzeit in den Kontext eingefügt werden, und das Modell kann auf Grundlage dieser Informationen die Inferenz durchführen, um die häufige Neutrainierung des Basis-Modells zu vermeiden und das Problem des veralteten Wissens zu lindern.
Dies stimmt mit der Idee des RETRO-Projekts überein, bei dem das Wissen in einer externen Datenbank gespeichert wird und das Modell für die Inferenz zuständig ist. Er ist der Meinung, dass die Methode des Retrieval-Enhancement erst in den letzten Jahren reif geworden ist und in den nächsten Jahren möglicherweise in Spitzenmodellen wie Gemini tiefer integriert werden wird. Ein weiteres Ziel ist die Veränderung der Trainingsmethode, damit das Modell kontinuierlich auf dem Datenstrom der realen Welt trainiert werden kann und eine echte "kontinuierliche Aktualisierung" erreicht.
Sebastian Borgeaud hat auch die Evaluierung herausgegriffen und sie als das Kernproblem der Pre-Training-Phase bezeichnet. "Wenn das Evaluierungssystem nicht auf dem neuesten Stand ist, kann man leicht in die Falle der 'scheinbaren Verbesserung' geraten und nicht unterscheiden, ob das Modell richtig verbessert wurde oder ob es Probleme mit den Daten gibt." Deshalb hat Google intern ein eigenes Evaluierungssystem aufgebaut. Da externe Benchmarks leicht kontaminiert werden können, ist es wichtig, ein internes Evaluierungsfeld zu behalten.
Er ist der Meinung, dass die Evaluierung zwei Hürden überwinden muss: Erstens, ob die auf kleinen Modellen bewährten Verbesserungen auch auf große Modelle übertragen werden können; zweitens, ob die Vorteile in der Pre-Training-Phase auch in der Post-Training-Phase in reale, nutzbare Fähigkeiten umgewandelt werden können.
Schließlich kann man auch die Nutzungskosten nicht außer Acht lassen. Mit der stetigen Zunahme der Nutzerzahl wird der Inferenz-Budget immer empfindlicher. Die Pre-Training-Phase muss auch für die "Umsetzung" verantwortlich sein und die Kosten senken und die Ressourcen schonen, während die Modellfähigkeiten verbessert werden.
Was die bisherige Leistung von Gemini 3 angeht, sagt Sebastian Borgeaud direkt "übertroffen meine Erwartungen". Er ist der Meinung, dass das Modell tatsächlich immer intelligenter wird. Dieser Fortschritt zeigt sich nicht nur in den Spitzenplätzen in den Benchmark-Tests, sondern auch in der praktischen Nutzung in realen Arbeitsumgebungen.
Was die Zukunft betrifft, prognostiziert er, dass Gemini in der Wissenschaftsforschung besser eingesetzt werden wird und möglicherweise sogar einen Nobelpreis für bedeutende Entdeckungen gewinnen könnte. Gleichzeitig wird es auch immer stärker in das tägliche Leben der Menschen integriert und verschiedene praktische Probleme lösen.
"Der Fortschritt hat kein Ende. Zumindest in den nächsten 12 Monaten wird dieser Beschleunigungsimpuls nicht nachlassen." Dies ist seine Vorhersage für die Zukunft.
Im Podcast wurden weitere Details hinter dem Training von Gemini 3 und die interessanten Ansichten von Sebastian Borgeaud geteilt. Wir haben diesen Inhalt übersetzt und unter Beibehaltung der ursprünglichen Bedeutung gekürzt und zusammengefasst, um es unseren Lesern zugänglich zu machen.
Die "Geheimrezepte" der Stärke von Gemini 3: Besseres Pre-Training und Besseres Post-Training
Matt Turck: Ich möchte mit einem Tweet von Oriol Vinyals beginnen. Oriol ist Vizepräsident für Forschung und Deep Learning bei Google DeepMind und Mitverantwortlicher für Gemini. Bei der Veröffentlichung von Gemini 3 hat er gesagt, dass das Geheimnis hinter dem Modell sehr einfach sei: Besseres Pre-Training und Besseres Post-Training. Angesichts des Sprungs von Gemini 3 gegenüber dem bisherigen Stand der Technik klingt das sehr bescheiden. Was denken Sie? Ist es in gewisser Weise wirklich so einfach?
Sebastian Borgeaud: Ich bin nicht sicher, ob man das als Geheimnis bezeichnen kann. Aus meiner Sicht ist es ganz normal. Manchmal erwarten die Leute, dass zwischen einer Gemini-Version und der nächsten eine große Veränderung auftritt, die einen großen Unterschied macht. Nach meiner Erfahrung gibt es vielleicht ein oder zwei Dinge, die einen größeren Beitrag leisten, aber insgesamt ist es die Summe vieler Veränderungen und vieler Arbeiten eines sehr großen Teams, die Gemini 3 so viel besser als die früheren Versionen machen. Ich denke, dies wird ein wiederkehrendes Thema sein: Veröffentlichungen wie die von Gemini 3 sind das Ergebnis der Zusammenarbeit eines großen Teams.
Matt Turck: Was bedeutet dies für den Fortschritt in der KI? Von außen scheint es, dass man nur ein paar "Schrauben" gedreht hat, um diesen Sprung zu erreichen. Was bedeutet dies für die Zukunft? Was können wir uns als Nächstes erwarten?
Sebastian Borgeaud: Es gibt zwei Aspekte. Erstens ist es immer noch erstaunlich, wie viele Fortschritte wir auf diese Weise erzielen können, und der Fortschritt nimmt nicht ab. Es gibt viele "Schrauben", viele Verbesserungen, und wir finden fast täglich Dinge, die das Modell besser machen können. Zweitens bauen wir nicht mehr nur ein Modell, sondern ein System. Manchmal haben die Leute den Eindruck, dass wir nur ein neuronales Netzwerk trainieren, aber tatsächlich bauen wir auch das gesamte System um das Netzwerk herum.
Matt Turck: Das, was die Leute am meisten interessiert, ist: Was bedeutet dies für den echten Fortschritt in der KI? Wir müssen nicht tief in die Diskussion über "AGI" eintauchen, aber wie sollen wir den Fortschritt der Modelle verstehen: Ist es ein Weg zur KI oder nur eine Verbesserung der Leistung auf einem bestimmten Benchmark? Was macht Sie glauben, dass das Kernmodell immer intelligenter wird?
Sebastian Borgeaud: Die Leistung auf den Benchmarks steigt tatsächlich kontinuierlich, und die Gestaltung der Spitzenbenchmarks wird immer schwieriger. Selbst für mich als jemand mit einem Hintergrund in Informatik dauert es eine ziemlich lange Zeit, um einige der Fragen zu beantworten, die das Modell beantworten kann. Dies ist die Benchmark-Perspektive. Wir evaluieren regelmäßig und behalten die Testdaten sehr sorgfältig auf. Aber die Leute befürchten oft, dass das Modell auf die Benchmarks überangepasst wird oder sogenanntes "Benchmaxing" (Score-Cheating) betrieben wird. Ich denke, dass diese Bedenken nicht sehr begründet sind.
Ein weiterer Aspekt, der mir mehr Vertrauen gibt, ist: Innerhalb der Firma nimmt die Zeit, in der die Leute die Modelle zur Steigerung ihrer Produktivität nutzen, stetig zu. Jedes neue Modell kann offensichtlich neue Dinge tun und bietet in der Forschung und im täglichen Engineering mehr Unterstützung als das vorherige. Dies zeigt auch, dass das Modell immer leistungsfähiger wird und sehr nützliche Dinge macht.
Matt Turck: Wenn Sie den Blick weit wegnehmen, überrascht Sie die gegenwärtige Situation noch? Aus Ihrer Sicht sind wir im Vergleich zu Ihren Erwartungen vor einigen Jahren voraus, auf Kurs oder zurückgeblieben?
Sebastian Borgeaud: Es ist leicht, nachträglich zu sagen, dass alles "auf Kurs" war. Wenn ich mir ehrlich bin, denke ich, dass wir weiter vorangekommen sind, als ich ursprünglich gedacht habe. Als ich 2019 oder 2020 mit der Arbeit an Large Language Models begann, war es schwer zu glauben, dass wir heute in einer solchen Skala arbeiten würden und dass die Modelle die Fähigkeiten hätten, die sie jetzt haben. Wenn man damals die Scaling Laws betrachtet hätte, wiesen sie tatsächlich in diese Richtung, und einige Leute haben stark an sie geglaubt. Aber ich bin nicht sicher, ob ich damals gewagt hätte, darauf zu wetten, dass alles so kommen würde, wie es heute ist.
Eine daraus resultierende Frage ist: Wenn der Fortschritt in den nächsten fünf Jahren so weitergeht wie in den letzten fünf Jahren, wohin wird uns das führen? Ich denke, dass in