Das Kernteam von Nano-Banana enthüllt erstmals, wie das weltweit beliebteste KI-Bildgenerierungstool entwickelt wurde.
Die Spielweisen von Nano Banana werden kontinuierlich aktualisiert, darunter Desktop-Souvenirs, Multielement-Puzzles und die Generierung fortsetzbarer Geschichten usw.
Dieses leistungsstarke Modell, das die "Ghibli-Momente" bringt, hat erneut einen kreativen Boom im gesamten Netz ausgelöst. Im Freundeskreis gibt es überall verschiedene echte Souvenirs.
Während Sie über die Generationsergebnisse erstaunt sind, denken Sie bitte daran, aktiv "Dieses Bild wurde von KI generiert" zu markieren, denn die "Vorschriften zur Kennzeichnung von KI-generierten Inhalten" treten ab heute in Kraft.
Bei der Bildgenerierung hat Google eigentlich bereits ein Text-zu-Bild-Modell wie Imagen 4. Warum wurde nano banana schließlich von Google entwickelt?
Zu Beginn, als es auf der Bühne der großen Modelle unter dem geheimnisvollen Codename nano banana auftauchte, haben einige Leute vermutet, dass es sich um ein Google-Modell handele.
Dies war jedoch tatsächlich kein Zufall oder ein wilder Schuss ins Blaue. Nano banana ist das Ergebnis eines Projekts, an dem mehrere Teams von Google beteiligt waren. Zunächst einmal die starke Weltwissen- und Befehlseinhaltungsfähigkeit von Gemini, und zweitens das Spitzen-Text-zu-Bild-Modell Imagen von Google, das ein Höchstmaß an Bildästhetik und Natürlichkeit anstrebt.
Wir haben die Podcast-Interview mit dem Kernteam von nano banana zusammengestellt. Lassen Sie uns gemeinsam die Vergangenheit, Gegenwart und Zukunft dieser Banane betrachten.
Kurzfassung:
1. Nano banana hat einen enormen Qualitätssprung bei der Bildgenerierung und -bearbeitung erreicht. Es generiert schnell, versteht unklare, umgangssprachliche und Weltwissen erfordernde Befehle und behält in mehrfachen Bearbeitungen die Konsistenz von Charakteren und Szenen bei. Das Ergebnis wirkt natürlicher und vermeidet das Gefühl, als wäre etwas aufgeklebt.
2. In der Vergangenheit war die Bewertung von Bildern und Videos sehr schwierig. Es ist sehr wichtig, einen geeigneten Indikator zu finden. Das Team von nano banana hat festgestellt, dass durch die Verbesserung der Textrendering-Qualität auch die Qualität der generierten Bilder verbessert werden kann. Wenn das Modell in der Lage ist, strukturierte Texte zu generieren, kann es auch besser die Struktur in Bildern lernen.
3. Der Schlüssel zur Verbesserung von nano banana liegt in der "nativen Multimodalität", insbesondere in der "Interleaved Generation". Dadurch kann das Modell wie ein Mensch komplexe Befehle schrittweise bearbeiten und in Bezug auf den Kontext gestalten, anstatt alles auf einmal zu generieren.
4. Wenn Sie nur eine hochwertige "Text-zu-Bild-Generierung" benötigen, ist das Imagen-Modell immer noch die erste Wahl. Wenn Sie jedoch komplexere multimodale Workflows wie mehrfache Bearbeitungen und kreative Explorationen durchführen möchten, ist nano banana der geeignete kreative Partner.
5. Zukünftig strebt nano banana nicht nur eine Verbesserung der visuellen Qualität an, sondern auch nach "Intelligenz" und "Faktengenauigkeit". Das Team möchte ein intelligentes Modell schaffen, das die tieferen Absichten der Benutzer versteht und sogar bessere und kreativere Ergebnisse liefern kann, als die Benutzer es in ihren Hinweisen angegeben haben, und das auch genaue Diagramme und andere Arbeitsinhalte generieren kann.
Nachfolgend finden Sie den Haupttext des Podcasts, der leicht bearbeitet wurde.
Hallo zusammen und willkommen zurück bei "Release Notes". Ich bin Logan Kilpatrick aus dem Google DeepMind-Team. Heute bin ich zusammen mit Kaushik, Robert, Nicole und Mustafa hier. Sie sind die Kollegen, die sich mit der Forschung und dem Produktentwicklung unseres nativen Bildgenerierungsmodells für Gemini befassen. Ich bin super auf die heutige Präsentation gespannt. Also, Nicole, möchtest du anfangen? Was sind die guten Neuigkeiten zur Veröffentlichung?
Von links nach rechts: Kaushik Shivakumar, Robert Riachi, Nicole Brichtova, Mostafa Dehghani und Logan Kilpatrick
Nicole: Ja, wir veröffentlichen eine Aktualisierung der Bildgenerierungs- und -bearbeitungsfunktionen für Gemini und 2.5 Flash. Dies ist ein enormer Qualitätssprung, und das Modell hat Spitzenwerte in der Branche erreicht. Wir sind sehr aufgeregt über die Generierungs- und Bearbeitungsfähigkeiten. Lassen Sie mich Ihnen lieber direkt das Ergebnis des Modells zeigen, denn das ist die anschaulichste Methode.
Logan: Ich bin total gespannt! Ich habe es einmal ausprobiert, aber nicht so viel wie Sie, also möchte ich sehr gerne mehr Beispiele sehen.
Nicole: Okay, ich mache Ihnen ein Foto. Lassen Sie uns mit einem einfachen Beispiel beginnen: Zum Beispiel "Ziehen Sie den Zoom zurück und kleiden Sie ihn in eine riesige Bananenkleidung, aber behalten Sie das Gesicht klar, damit es immer noch Sie ist". Die Generierung dauert ein paar Sekunden, aber es ist dennoch schnell. Denken Sie daran, dass das Modell bei der letzten Veröffentlichung bereits schnell war.
Logan: Dies ist eine meiner Lieblingsfunktionen. Ich finde, dass die Bearbeitungsgeschwindigkeit das Modell sehr interessant macht. Können Sie das Bild vergrößern? Im Vollbild ansehen?
Nicole: Klicken Sie einfach darauf. Das ist Sie, Logan, immer noch Ihr Gesicht. Und das Erstaunliche ist, dass das Modell Sie als Person erkennt, Sie aber in eine riesige Kleidung kleidet und einen Hintergrund generiert, in dem Sie durch die Stadt gehen.
Logan: Das ist so interessant! Der Hintergrund ist Chicago, und die Straße sieht wirklich ähnlich aus.
Nicole: Ja, hier kommt das Weltwissen des Modells zum Tragen. Lassen Sie uns weitermachen und "make it nano" versuchen.
Logan: Was bedeutet "make it nano"?
Nicole: Wir haben es ursprünglich während der Tests mit dem Codename Nano Banana benannt. Später haben die Leute vermutet, dass es sich um eine neue Modellaktualisierung handelt. Und sehen Sie, jetzt verwandelt es Sie in eine niedliche Miniaturversion, die eine Bananenkleidung trägt.
Logan: Haha, ich mag es sehr.
Nicole: Das ist das Coolste. Ihr Hinweis war eigentlich sehr unklar, aber das Modell ist kreativ genug, ihn zu interpretieren und eine Szene zu generieren, die sowohl dem Hinweis entspricht als auch im Kontext sinnvoll ist.
Dies ist sehr aufregend, denn dies ist das erste Mal, dass wir sehen, dass ein Modell in mehreren Bearbeitungen die Szene konsistent hält, während die Benutzer gleichzeitig auf natürliche Weise mit dem Modell interagieren können, ohne eine lange, komplizierte Eingabe zu schreiben. Es fühlt sich an, als würde man mit dem Modell sprechen, was super spaßig ist.
Logan: Ich mag es sehr. Wie schneidet es bei der Textrendering ab? Dies ist einer der Anwendungsfälle, die mich am meisten interessieren.
Nicole: Möchte ich Ihnen zeigen? Geben Sie mir einen Hinweis.
Logan: Dann "Gemini Nano". Das ist das einzige nano-bezogene Wort, das mir einfällt. Der Anwendungsfall, den ich am häufigsten verwende, ist die Erstellung von Plakaten oder Ankündigungen mit Texten.
Nicole: Dies ist ein sehr einfacher Text mit wenigen Wörtern und einfachen Begriffen, daher ist das Ergebnis gut. Wir haben tatsächlich noch einige Defizite bei der Textrendering, wie auch in den Veröffentlichungsnotizen erwähnt. Unser Team arbeitet daran, dies zu verbessern, und das nächste Modell wird es besser machen.
Textrendering ist ein wirksames Signal für die Leistung des Modells
Logan: Ich mag es sehr. Gibt es noch andere Beispiele oder Indikatorengeschichten im Zusammenhang mit dieser Veröffentlichung? Ich weiß, dass die Bewertung schwierig ist, da viele auf subjektiven Präferenzen beruhen. Wie betrachten Sie diese Frage?
Robert: Ja, in multimodalen Modellen wie Bildern und Videos ist die Bewertung sehr schwierig. In der Vergangenheit haben wir hauptsächlich auf subjektive Präferenzbewertungen gestützt. Bilder sind jedoch sehr subjektiv, daher mussten wir Signale von einer großen Anzahl von Menschen sammeln, und der Prozess war langsam. Wir suchen auch nach neuen Indikatoren. Textrendering ist ein sehr interessantes Beispiel hierfür.
Kaushik hat schon immer auf die Wichtigkeit dieses Aspekts hingewiesen. Zwar haben wir ihn früher für etwas fixiert gehalten, aber später haben wir festgestellt, dass es tatsächlich sehr wertvoll ist. Wenn das Modell in der Lage ist, strukturierte Texte zu generieren, kann es auch besser die Struktur in Bildern lernen, wie z. B. Frequenzen und Texturen. Dies gibt uns ein gutes Signal.
In Google Labs gibt es ein spezielles Projekt für die Schriftartrendering namens GenType.
Kaushik: Ja, ich denke, es begann damit, die Schwächen dieser Modelle zu identifizieren. Um ein Modell zu verbessern, muss man zunächst klären, wo es schlecht abschneidet, d. h. ein "Signal" finden, das das Problem aufzeigt. Dann versuchen wir verschiedene Methoden, ob es sich um die Modellarchitektur, die Daten oder andere Aspekte handelt. Sobald wir dieses klare Signal kennen, können wir tatsächlich gute Fortschritte bei den entsprechenden Problemen erzielen.
Wenn wir auf vor ein paar Jahren zurückblicken, gab es damals fast kein Modell, das bei der Verarbeitung von kurzen Hinweisen wie "Gemini Nano" noch halbwegs gut abgeschnitten hätte. Wir haben viel Zeit in die Untersuchung dieses Indikators investiert und ihn ständig verfolgt.
Jetzt können wir bei unseren Experimenten sicherstellen, dass es bei diesem Aspekt keine Verschlechterung gibt, solange wir diesen Indikator verfolgen. Und gerade weil wir diesen Indikator als Referenzsignal verwenden, können wir manchmal sogar Veränderungen entdecken, die wir nicht erwartet haben, aber die tatsächlich eine positive Wirkung haben. So können wir diesen Indikator kontinuierlich optimieren und die Leistung des Modells verbessern.
Ja, wie Robert sagte, dies ist eine gute Möglichkeit, die Gesamtqualität von Bildern zu messen, wenn es keine anderen Indikatoren für die Bildqualität gibt, die nicht schnell sättigen.
Ich war zunächst skeptisch gegenüber der Methode, die Ergebnisse der Bildgenerierung durch subjektive Bewertungen zu evaluieren. Aber im Laufe der Zeit habe ich langsam verstanden, dass man tatsächlich sehr wertvolle Signale erhalten kann, wenn genügend Menschen genügend Hinweise bewerten und verschiedene Kategorien abgedeckt werden.
Der Text kann die Qualität der Bildgenerierung widerspiegeln. Der Hinweis war die Generierung eines Plakats mit dem Text "Die Schimpansen an beiden Ufern schreien ununterbrochen, der leichte Kahn hat schon die tausend Berge passiert".
Aber offensichtlich ist diese Methode sehr kostspielig, und es ist nicht möglich, ständig viele Menschen zur Bewertung zu beauftragen. Deshalb sind Indikatoren wie Textrendering während des Modelltrainings besonders wertvoll. Sie können gut zeigen, ob die Leistung des Modells den Erwartungen entspricht und sind ein sehr wirksames Signal.
Bildverständnis und Bildgenerierung sind wie Schwestern eng miteinander verbunden
Logan: Das ist wirklich interessant. Ich bin sehr neugierig, wie die Bildgenerierungsfähigkeit und die Bildverständnisfähigkeit des Modells miteinander interagieren. Wir haben früher mit Ani eine Sendung gemacht. Sein Team hat offensichtlich viel in diesen Bereich investiert. Beispielsweise hat Gemini in Bezug auf das Bildverständnis Spitzenleistungen in der Branche erreicht.
Kann man es also so verstehen, dass wenn das Modell im Bildverständnis stärker wird, ein Teil dieser Fähigkeiten auch auf die Bildgenerierung übertragen werden kann? Und umgekehrt, kann der Fortschritt bei der Bildgenerierung auch das Bildverständnis verbessern? Ist diese Denkweise sinnvoll?
Mostafa: Ja, im Wesentlichen streben wir danach, schließlich eine native Bildverständnisfähigkeit, eine native multimodale Verständnis- und Generierungsfähigkeit zu erreichen, d. h. im gleichen Trainingsverlauf soll das Modell in der Lage sein, Aufgaben in verschiedenen Modalitäten zu bearbeiten und eine "positive Übertragung" zwischen diesen verschiedenen Fähigkeiten zu erzielen.
Und es geht nicht nur um die gegenseitige Förderung zwischen Bildverständnis und Bildgenerierung, und es ist nicht auf die Generierungsfähigkeit in einer einzigen Modalität beschränkt. Wir möchten, dass das Modell die aus Bildern, Videos und Audiodateien gelernten Kenntnisse nutzen kann, um das Textverständnis oder die Textgenerierung zu verbessern.
Wir können also sagen, dass Bildverständnis und Bildgenerierung wie "Schwestern" eng miteinander verbunden sind. In einigen Anwendungen, die wir jetzt sehen, wie z. B. die Interleaved Generation, ergänzen sich diese