StartseiteArtikel

Zergliederung von Gemini 3: Die perfekte Umsetzung des Skalengesetzes und die Macht der "All-Modalität"

硅谷1012025-11-24 11:52
Das Comeback von Google

Es ist zweifellos, dass das neueste von Google vorgestellte Gemini 3 das künstliche Intelligenz-Landschaft in Silicon Valley erneut auf den Kopf gestellt hat. Während OpenAI und Anthropic in einem heftigen Kampf stehen, hat Google dank seiner tiefen Infrastruktur und des Ansatzes der nativen Multimodalität von einem "Verfolger" zu einem "Spitzenreiter" geworden.

Dieses Mal hat Gemini 3 nicht nur einen neuen Sprung in der Multimodalität erreicht, sondern wird auch als die äußerste Umsetzung des Skalierungsgesetzes von Google angesehen.

Silicon Valley 101 hat am 20. November eine Live-Übertragung veranstaltet und vier Gäste eingeladen, die sich an der Spitze der künstlichen Intelligenz-Forschung und -Anwendung befinden:

  • Tian Yuandong, ehemaliger Forschungsdirektor von Meta FAIR und KI-Wissenschaftler
  • Chen Yubei, Assistentprofessor an der Universität von Kalifornien, Davis und Mitbegründer von Aizip
  • Gavin Wang, ehemaliger Meta AI-Ingenieur, verantwortlich für die Nachbearbeitung von Llama 3 und die Multimodalitätsschlussfolgerung
  • Nathan Wang, erfahrener KI-Entwickler und Stipendiat von Silicon Valley 101

Wir versuchen, durch die Veröffentlichung von Gemini 3 einige Schlüsselfragen über die Zukunft der künstlichen Intelligenz zu beantworten: Wo liegt die Stärke von Gemini 3? Was hat Google richtig gemacht? Wie wird sich das globale Wettbewerbsgeschehen bei den großen Modellen verändern? Wohin geht die Zukunft der LLMs? Und was interessieren die führenden KI-Labore außerhalb der LLMs?

Nachfolgend sind die zusammengefassten Ansichten unserer Gäste aus der Live-Übertragung. Wenn Sie den vollständigen Inhalt der Live-Übertragung sehen möchten, können Sie sich die Wiedergaben auf unserem YouTube- und Bilibili-Kanal ansehen.

01 Praxis-Test: Wo liegt die Stärke von Gemini 3?

Innerhalb von 48 Stunden nach der Veröffentlichung von Gemini 3 wurden alle Ranglisten schnell aktualisiert. Im Gegensatz zu früheren Modellen, die nur in einer einzigen Dimension (z. B. Code oder Text) verbessert wurden, wird Gemini 3 als ein echtes "natives Multimodalitätsmodell" angesehen. Wie wird sich diese Verbesserung der technischen Parameter für die Benutzer in der Praxis auswirken?

Quelle: LM Arena

Chen Qian: Alle haben in den letzten Tagen intensiv Gemini 3 getestet. Ist es wirklich so dominant wie die Ranglisten zeigen? Können Sie Beispiele geben, wo es besonders gut ist?

Nathan Wang: Ich habe in den letzten Tagen hauptsächlich drei Produkte genutzt: die Haupt-App von Gemini, Google AntiGravity für Entwickler und das heute neu veröffentlichte Nano Banana Pro.

Ehrlich gesagt, fühlt sich AntiGravity für mich sehr viel wie eine integrierte Entwicklungsumgebung (IDE) in der Agentik-Zeit an. Der Unterschied zu Cursor oder Claude Code besteht darin, dass es die Benutzeroberfläche in "Manager View" (Manager-Perspektive) und "Editor View" (Editor-Perspektive) aufteilt.

Früher, wenn wir in Cursor Programmiercode geschrieben haben, fühlten wir uns immer noch als diejenigen, die den Code schreiben, auch wenn uns die KI half. Aber in AntiGravity lässt die Manager-Perspektive dich das Gefühl haben, dass du der Manager bist, der da sitzt, und darunter 8 bis 10 Agenten arbeiten für dich. Du kannst beobachten, wie sie sich aufteilen, einige schreiben Programme, andere führen Unit-Tests durch.

Das beeindruckendste ist seine Browser-Nutzungsfunktion. Wenn ich beispielsweise eine Frontend-Webseite geschrieben habe, hat es eine Funktion namens Screenshot Pro, die sehr gute Ergebnisse erzielt. Es kann direkt den Chrome-Browser aufrufen, um die Webseite zu öffnen und "ansehen", um die Seite zu testen. Wenn du es anweist, eine Datei hochzuladen oder auf eine Schaltfläche zu klicken, kann es wie ein Mensch handeln. Dies bedeutet, dass das Testen und die Entwicklung vollständig automatisiert werden und zu einer integrierten Entwicklungsumgebung werden.

Außerdem hat Nano Banana Pro ein großes Problem bei der Erstellung von Präsentationen gelöst. Früher, wenn ich die KI dazu aufforderte, eine Präsentation zu erstellen, z. B. "Erkläre die Entwicklung von Gemini von Version 1.0 bis 3.0", war die logische Kette oft unterbrochen. Aber diesmal habe ich es getestet, und es hat nicht nur die Logik klar strukturiert, sondern auch sehr komplexe Diagramme erstellt. Ich denke, dass die meisten Softwareprogramme für die Erstellung von Präsentationen auf dem Markt bald von ihm ersetzt werden könnten.

Tian Yuandong: ehemaliger Forschungsdirektor von Meta FAIR und KI-Wissenschaftler

Tian Yuandong: Ich habe die Gewohnheit, dass ich immer zuerst überprüfe, ob ein neues Modell "Romane fortsetzen" kann, wenn es veröffentlicht wird. Dies ist meine persönliche Messlatte, da es außer mir nicht viele Leute gibt, die es so testen. Daher wird es sicherlich nicht überangepasst sein, was objektiv ist.

Vor ein oder zwei Jahren schrieb das Modell Romane in einem "amtlichen Stil". Egal, was man ihm als Anfang gab, es schrieb immer in einem offiziellen Ton, der völlig aus dem Kontext gerissen war. Bei Gemini 2.5 habe ich festgestellt, dass seine Schreibweise besser geworden ist. Wenn ich ihm beispielsweise eine Szene in einer Ruine gebe, beschreibt es es sehr detailliert: wie die Wände einstürzen, wie die Umgebung verlassen ist. Es schreibt wie ein Literaturstudent, aber die Handlung ist flach und nicht sehr aufregend.

Aber diesmal hat mich Gemini 3 überrascht. Es hat nicht nur eine gute Schreibweise, sondern versteht auch "Wendungen" in der Handlung. Die von ihm entworfenen Handlungsabläufe sind sehr interessant. Ich habe sogar gedacht: "Hm, das ist eine gute Idee. Vielleicht kann ich sie für meinen eigenen Roman verwenden." Dies ist das erste Mal, dass ich das Gefühl habe, dass die KI mir bei der Handlungsentwicklung Inspiration gibt, und nicht nur mit feinen Worten um sich wirft. Es scheint, dass es die tieferen Motive des Autors versteht.

Aber wenn es um wissenschaftliche Brainstorming geht, bleibt es wie bisher. Wie kann man es beschreiben? Es ist wie ein neu eingetragener Doktorand, der viel weiß. Wenn man es fragt, weiß es alles und kann viele neue Begriffe und mathematische Werkzeuge nennen. Man denkt: "Wow, das habe ich noch nie gesehen. Das ist großartig." Aber wenn man es auffordert, ein Problem im Detail zu besprechen oder zu beurteilen, welcher Weg erfolgversprechender ist, kann es dies nicht tun. Es fehlt ihm die Intuition und die tiefe Denkweise, die nur von erfahrenen menschlichen Forschern besessen wird. Daher ist es immer noch ein erstklassiger "Aufgabenlöser", aber in Bezug auf kreatives Denken haben wir bisher noch keine grundlegende Verbesserung gesehen.

Gavin Wang: Ich muss zuerst sagen, dass die Macht von Google als großer Konzern wirklich beeindruckend ist. Das Ökosystem ist so komplett. Auf technischer Ebene interessiere ich mich am meisten für den ARC-AGI-2-Test. Dieser Test ist sehr interessant, da er nicht das Gedächtnis für große Datenmengen misst, sondern das Few-Shot-Learning (Lernen mit wenigen Beispielen) oder sogar das Meta-Lernen. Der Gründer dieses Tests glaubt, dass das Wiederholen von Daten keine Intelligenz ist. Die echte Intelligenz besteht darin, dass man nach einem oder zwei Beispielen schnell ein Muster erkennen kann.

Früher hatten alle auf dieser Rangliste nur einstellige Prozentzahlen oder maximal zehn bis zwanzig Prozent. Gemini 3 hat plötzlich über 30 Prozent erreicht. Dies ist ein qualitativer Sprung. Ich denke, dass dies seiner Multimodalitätsschlussfolgerung zu verdanken ist.

Früher, bei der Chain-of-Thoughts (Denkkette), redete das Modell für sich allein und arbeitete nur in der Sprachebene in einer einzigen Modalität. Aber Gemini 3 ist ein natives Multimodalitätsmodell. Es kombiniert visuelle, codebasierte und sprachliche Daten während des Vorhersageprozesses. Wenn es schließt, kann es möglicherweise die Bilder auf dem Bildschirm betrachten und gleichzeitig logische Schlussfolgerungen in der Sprachebene ziehen. Diese multimodale Reaktion eröffnet viele neue Möglichkeiten.

Chen Yubei: Assistentprofessor an der Universität von Kalifornien, Davis und Mitbegründer von Aizip

Chen Yubei: Ich war in den letzten Tagen zu beschäftigt, um es selbst zu testen, aber ich habe die ersten Handberichte von verschiedenen Gruppen unseres Teams gesammelt. Es gibt einige interessante negative Rückmeldungen.

Zuerst die Rückmeldungen von der Vision-Gruppe. Bei einigen internen Tests haben sie festgestellt, dass die Leistung von Gemini 3 bei der visuellen Verständnis von realen Szenen tatsächlich zurückgegangen ist. Das klingt ziemlich paradox, oder?

Genauer gesagt, wenn es um reale Szenen wie Sicherheitskameras oder Türklingeln geht und es darum geht, das Verhalten der Benutzer und potenzielle Gefahrenereignisse zu analysieren, ist seine Leistung schlechter als die des Vorgängers. Sie haben sich die technische Dokumentation von Gemini 3 angesehen und festgestellt, dass es nur einen Test in der Dokumentation gibt, der sich auf das visuelle Verständnis von realen Szenen bezieht, und dieser Test deckt nicht solche komplexen Szenen ab.

Dies zeigt eigentlich ein generelles Problem in der Branche: Es besteht eine große Lücke zwischen den öffentlichen Testbenchmarks und den tatsächlichen Anwendungen. Wenn alle versuchen, ihre Modelle für die Ranglisten zu optimieren, kann ihre Leistung in den tatsächlichen Produkten möglicherweise abnehmen.

Außerdem haben die Studenten der Coding-Gruppe mir auch gesagt, dass sie bei der wissenschaftlichen Schreibung und der unterstützenden Programmierung eher an Gemini 2.5 gewöhnt sind. Obwohl die Länge der Schlussfolgerungen von Gemini 3 um das Zwei- bis Dreifache erhöht wurde, scheint es immer noch nicht so stabil wie OpenAIs GPT-5 Pro zu sein, wenn es um extrem komplexe Aufgaben wie das wiederholte Suchen und die Integration von zwanzig Jahren Finanzberichten geht. Natürlich könnte dies daran liegen, dass es sich um eine frühe Version handelt und wir die Prompts noch nicht richtig verstanden haben.

02 Das technische Geheimnis von Google: "Tiefes Denken" oder "Übermacht"?

Google ist von einem Nachhänger zu einem Gleichsetzer und sogar Überholer geworden. Der Leiter des Gemini-Projekts hat einmal erwähnt, dass das Geheimnis darin liegt, dass "die Vor- und Nachbearbeitung verbessert wurden". Hinter dieser scheinbar offiziellen Antwort verbirgt sich welches technische Roadmap von Google? Ist es der Sieg des Algorithmus selbst oder die brute Macht der Rechenleistung?

Tweet von Oriol Vinyals, Chefwissenschaftler von Google DeepMind, auf der X-Plattform

Chen Qian: Google hat diesmal nicht nur aufgeholt, sondern sogar überholt. Der Leiter des Gemini-Projekts hat auf der Pressekonferenz erwähnt, dass die neue Version "die Vor- und Nachbearbeitung verbessert" hat. Bedeutet dies, dass das Skalierungsgesetz noch nicht an seine Grenzen gestoßen ist? Was ist das geheime Waffe von Google?

Tian Yuandong: Ehrlich gesagt, ist die Aussage "die Vor- und Nachbearbeitung verbessert" fast bedeutungslos (lacht). Denn die Entwicklung von Modellen ist ein Systemprojekt. Wenn die Daten besser sind, die Architektur etwas verbessert wird und die Stabilität der Bearbeitung erhöht wird, wird das Endergebnis natürlich besser.

Aber ich interessiere mich eher dafür, wenn die Vorbearbeitung gut genug ist, das Modell selbst sehr "klug" wird, dann wird es in der Nachbearbeitungsphase wie ein begabter Schüler agieren. Mit nur wenigen Beispielen kann es alles verstehen, und man muss es nicht so viel lehren. Bisher scheint die Basisleistung von Gemini 3 tatsächlich sehr stark zu sein.

Was das geheime Waffe angeht, habe ich einige Gerüchte gehört, dass Google endlich einige Fehler in seinem Trainingsablauf behoben hat. Natürlich sind dies nur Gerüchte und können nicht bestätigt werden. Aber für ein Unternehmen wie Google, wenn es keine Fehler in der Technik macht und alle Details perfektioniert, wird das Skalierungsgesetz seine Wirkung entfalten.

Gavin Wang: ehemaliger Meta AI-Ingenieur, verantwortlich für die Nachbearbeitung von Llama 3 und die Multimodalitätsschlussfolgerung

Gavin Wang: Gestern habe ich versucht, mit Gemini 3 zu sprechen und es gefragt: "Warum bist du so stark?" (lacht). Es hat mir erklärt und ein Konzept namens "Baum der Gedanken" erwähnt.