StartseiteArtikel

Google Nano Banana hat das Internet in Sturm gefasst. Entlarven Sie das Team dahinter.

机器之心2025-08-29 15:04
Die Funktion des "alternierenden Generierens" wird eingeführt, um die Fähigkeiten des Modells bei der Weltwissenverarbeitung und kreativen Interpretation zu verbessern.

Die Funktion der "alternierenden Generierung" wurde eingeführt, um die Fähigkeiten des Modells bei der Weltwissenverarbeitung und kreativen Interpretation zu stärken.

Kann man auch aus Bananen einen Anzug machen? Google hat es tatsächlich geschafft!

In der neuesten Ausgabe der Google Developer Show hat das Google DeepMind-Team erstmals das Gemini 2.5 Flash Image vollständig vorgestellt – ein neues Modell mit nativer Bildgenerierungs- und -bearbeitungsfähigkeit.

Es kann nicht nur schnell hochwertige Bilder generieren, sondern auch die Szene in mehrfachen Dialogen konsistent halten, was ein bisher unbekanntes Interaktionserlebnis bietet und eine SOTA-Stufe (State of the Art) in der Bildgenerierung darstellt.

Das dahinterstehende Forschungs- und Entwicklungsteam sowie das Produktteam stellten sich ebenfalls erstmals vor.

Wer steckt hinter dem Team?

Logan Kilpatrick

Logan Kilpatrick ist ein Senior Product Manager bei Google DeepMind und verantwortlich für die Produktentwicklung von Google AI Studio und der Gemini API.

Er genießt einen hohen Ruf in der AI-Entwicklergemeinschaft. Er war zuvor Leiter der Developer Relations bei OpenAI und ist unter dem bekannten Spitznamen "LoganGPT" bekannt. Vor seinem Wechsel zu Google war er Maschinenlerningenieur bei Apple und Berater für Open-Source-Politik bei der NASA.

Bei Google leitete Kilpatrick die Einführung der lokalen Bildgenerierungsfunktion von Gemini 2.0 Flash, die es Entwicklern ermöglicht, Bilder durch natürliche Sprachaufforderungen zu generieren und zu bearbeiten. Zu den Highlights dieser Funktion gehören die mehrfache dialoggesteuerte Bildbearbeitung, die alternierende Generierung von Bildern und Text sowie die Weltwissensbasierte Bildgenerierung.

Kilpatrick teilt auch regelmäßig Produktupdates und Ressourcen für Entwickler auf X und ist somit eine informelle Sprecherin für Google AI.

Er absolvierte sein Studium an der Harvard University und der University of Oxford. Früher hat er bei der NASA Software für Mondrover entwickelt und bei Apple Maschinenlernmodelle trainiert. Er hat eine positive Einstellung zur Programmiersprache Julia und sagte 2024, dass es "immer wahrscheinlicher" sei, direkt zum künstlichen Superintelligenz (ASI) zu gelangen, ohne auf die Zwischenschritte zu achten.

Kaushik Shivakumar

Kaushik Shivakumar ist ein Forschungsingenieur bei Google DeepMind und konzentriert sich auf die Forschung und Anwendung von Robotik, Künstlicher Intelligenz und multimodalen Lernen.

Er absolvierte seinen Bachelor in Informatik an der University of California, Berkeley, und absolvierte seinen Masterstudium am AUTOLab der gleichen Universität unter der Leitung von Professor Ken Goldberg. Während seines Masterstudiums arbeitete er hauptsächlich an Robotikforschung im Zusammenhang mit der Manipulation von deformierbaren Objekten, Sprachmodellen und Reinforcement Learning.

Vor seinem Wechsel zu DeepMind war Kaushik ein Softwareentwicklungspraktikant im Google Brain-Team und forschte über Methoden zur Unsicherheitsschätzung von tiefen neuronalen Netzwerken. Er war auch Forscher und Praktikant in Institutionen wie dem RISE Lab der UC Berkeley und Snorkel AI und beteiligte sich an mehreren Projekten im Zusammenhang mit Robotik, Maschinenlernen und schwach überwachtem Lernen.

Bei DeepMind beteiligte sich Kaushik an mehreren wichtigen Projekten, einschließlich der Entwicklung des Gemini 2.5-Modells, das bemerkenswerte Fortschritte bei der Inferenzfähigkeit, der multimodalen Verständnis und der Verarbeitung von langen Kontexten erzielt hat. Darüber hinaus veröffentlichte er mehrere Forschungsartikel in Bereichen wie Robotikmanipulation, Objekttracking und semantischer Suche.

Robert Riachi

Robert Riachi ist ein Forschungsingenieur bei Google DeepMind und konzentriert sich auf die Entwicklung und Anwendung von multimodalen KI-Modellen, insbesondere in der Bildgenerierung und -bearbeitung.

Er studierte Informatik und Statistik an der Universität und absolvierte sein Studium an der University of Waterloo in Kanada.

Bei DeepMind beteiligte sich Riachi an mehreren wichtigen Projekten, einschließlich der Forschung und Entwicklung der Gemini 2.0- und Gemini 2.5-Serienmodelle. Er arbeitete daran, die Bildgenerierungsfähigkeit mit dialoggesteuerter KI zu verbinden, sodass Benutzer durch natürliche Sprachaufforderungen präzise Bildbearbeitungen durchführen können.

Vor seinem Wechsel zu DeepMind war Riachi Softwareingenieur und Maschinenlerningenieur in Unternehmen wie Splunk, Bloomberg, SAP und Deloitte.

Nicole Brichtova

Nicole Brichtova absolvierte ihren Bachelor und Master an der Georgetown University und der Fuqua School of Business der Duke University in den Vereinigten Staaten. Sie ist derzeit Leiterin für visuelle Generierungsprodukte bei Google DeepMind und konzentriert sich auf die Entwicklung von Generierungsmodellen, um die Produkte wie Gemini-Anwendungen, Google Ads und Google Cloud voranzubringen.

Vor ihrem Wechsel zu DeepMind war Nicole in der Google Consumer Product Team tätig und arbeitete an der Produkt- und Marktstrategie und beteiligte sich an der Planung und Promotion mehrerer Projekte. Darüber hinaus war sie Beraterin bei Deloitte Consulting und gab Beratungen für Technologieunternehmen aus der Fortune 500 in Bezug auf Innovation und Wachstum.

Nicole interessiert sich besonders dafür, wie generative Künstliche Intelligenz Kreativität, Design und neue Arten der Interaktion mit Technologie unterstützen kann. Sie hat in mehreren öffentlichen Veranstaltungen die neuesten Fortschritte von DeepMind im Bereich der visuellen Generierung geteilt und betont die Fähigkeit des Modells, komplexe Anweisungen zu verstehen und hochwertige Bilder zu generieren.

Mostafa Dehghani

Mostafa Dehghani ist ein Forschungswissenschaftler bei Google DeepMind und arbeitet hauptsächlich an Maschinenlernen, insbesondere an Deep Learning. Seine Forschungsinteressen umfassen selbstüberwachtes Lernen, Generierungsmodelle, Training von großen Modellen und Sequenzmodellierung.

Vor seinem Wechsel zu Google absolvierte er seinen Doktor an der Universität von Amsterdam. Seine Doktorarbeit konzentrierte sich auf die Verbesserung des Lernprozesses bei unvollständigem Überwachung. Er erkundete die Idee, induktive Verzerrungen in Algorithmen einzubringen, apriorisches Wissen zu integrieren und Metalernen mit den Daten selbst durchzuführen, um zu helfen, dass Lernalgorithmen besser aus verrauschten oder begrenzten Daten lernen können.

Er trat 2020 Google DeepMind bei und beteiligte sich an mehreren wichtigen Projekten, einschließlich der Entwicklung des multimodalen visuellen Sprachmodells PaLI-X, dem Bau eines 22 Milliarden Parameter Vision Transformers (ViT22B) und der Vorschlag von DSI++ (Differentiable Search Indices), einer Methode für das Retrieval-Enhanced Learning bei der inkrementellen Aktualisierung von Dokumenten.

Welche technologischen Highlights hat Nano Banana?

Zu Beginn der Show haben die Forscher einige Highlights dieses P-Spielzeuges gezeigt.

Bildbearbeitung und Szene-Konsistenz:

Lass die KI Logan "in einen riesigen Bananenanzug" stecken. Die Generierung dauerte nur ein paarzehn Sekunden, und das Ergebnis behielt Logans Gesichtszüge bei und fügte einen Hintergrund der Chicagoer Straße hinzu.

Kreative Interpretation und Behandlung von unscharfen Anweisungen:

Als die Aufforderung "Mache es Nano" gegeben wurde, generierte das Modell tatsächlich eine "Mini-Q-Version" von Logan, die immer noch die Bananenanzug-Einstellung beibehielt.

Das Modell kann durch natürliche Sprachanweisungen in mehreren Runden interagieren und die Szene in mehreren Bearbeitungen konsistent halten, ohne lange Aufforderungswörter eingeben zu müssen.

Das größte Problem von bisherigen Bildgenerierungs-KI war, dass "geschriebene Texte wie Fremdsprachen aussehen". Diesmal kann das Gemini 2.5 Flash Image bereits kurze Texte wie "Gemini Nano" korrekt in Bildern generieren.

Das Team betrachtet sogar die Textrenderingfähigkeit als neuen Indikator für die Modellevaluation, da es die Fähigkeit des Modells, die "Struktur" eines Bildes zu generieren, widerspiegeln kann und als Signal für die Bewertung der gesamten Bildqualität dient, was hilft, das Modell zu verbessern.

Indem sie diesen Indikator verfolgen, vermeiden sie einen Rückschritt des Modells. Obwohl es immer noch Mängel bei der Textrendering gibt, bemüht sich das Team um Verbesserungen.

Außerdem ist das Gemini 2.5 Flash Image nicht nur eine "Zeichnungsmachine", seine Kernattraktion liegt auch darin, "Bilder zu verstehen".

Das Team erklärte, dass dieses Modell eine enge Verbindung zwischen nativer Bildgenerierung und multimodalen Verständnis erreicht hat: Das Bildverständnis liefert Informationen für die Generierung, und die Generierung wiederum stärkt das Verständnis, beide verstärken sich gegenseitig.

Durch Bilder, Videos und sogar Audio kann Gemini zusätzliches Wissen aus der Welt lernen und dadurch die Fähigkeit zur Textverständnis und -generierung verbessern – visuelle Signale werden zur Kurzschluss für das Verständnis der Welt.

Beim Bedienungserlebnis hat das Modell einen "interleaved generation mechanism" eingeführt.

Bei komplexen,