Nano Banana hat etwas von einem ChatGPT-Moment.
Sie können sich möglicherweise nicht für den Preis von Bananen interessieren, aber es ist schwer, die Banane namens Nano Banana zu ignorieren.
In sozialen Medien und technischen Communities sind die Nutzer darauf eingestellt, verschiedene Nutzungsmöglichkeiten von ihr zu teilen. Manche nutzen sie, um Desktop-Figuren in echte Cosplay-Ausführungen umzuwandeln, andere laden mehrere Materialbilder hoch, um synthetische Bilder im einheitlichen Stil zu generieren, und wieder andere heben mit einem Klick einfache Stiftfiguren, die ihre Kinder hingeworfen haben, in filmreife dynamische Storyboards auf.
Die schnelle Reaktion und Natürlichkeit von Nano Banana machen die Kreativität eher wie ein Echtzeitgespräch als wie wiederholtes Kartenziehen. Dies ist auch das erste Mal, dass viele Menschen das Gefühl haben, dass die KI-gestützte Bildgenerierung wie eine Echtzeitkreativität geworden ist. Die Nutzer müssen nicht mehr wiederholt strukturierte Zauberworte einstellen, sondern können durch einfache natürliche Sprachgespräche präzise Änderungen am Bild vornehmen.
Zugegeben, die Generierungsgeschwindigkeit von wenigen Sekunden sorgt für eine bisher nie dagewesene Flüssigkeit im gesamten Prozess. Dies hat auch direkt das Wachstum der Nutzerzahl der Gemini App vorangetrieben. In kurzer Zeit hat Nano Banana für die Gemini App über 10 Millionen neue Nutzer gebracht.
Seine Popularität lässt einige Menschen sogar an den Moment der Veröffentlichung von ChatGPT denken. Die Leute diskutieren es von allen Seiten, nutzen es unermüdlich und spekulieren sogar auf Luft gegriffen über die dahinter liegende Technologie. Und Nano Banana hat tatsächlich den Nutzern eine ähnliche beeindruckende Erfahrung wie in der Anfangsphase von ChatGPT gebracht, indem es eine große Anzahl nicht-technischer Nutzer erstmals die Evolution der KI-Fähigkeiten bis hin zur hochwertigen, Echtzeit-fähigen, interaktiven Bildgenerierung/Bearbeitung erleben lässt.
Was macht Nano Banana überhaupt richtig?
Das Gute an Nano Banana liegt nicht in der Verbesserung einer einzelnen Fähigkeit, sondern darin, dass es den Prozess der KI-gestützten Bildkreativität grundlegend verbessert.
In der Vergangenheit mussten die Nutzer strukturierte Promptwörter lernen, um bessere Ergebnisse zu erzielen. Jetzt ist dieser Prozess zu einem reibungslosen Gespräch geworden. Wenn Sie Befehle wie "Diesem Menschen eine Brille aufsetzen" oder "Den Hintergrund in eine bewölkte Atmosphäre ändern" geben, um präzise lokale Änderungen am Bild vorzunehmen, kann Nano Banana Ihre Gespräche in Erinnerung behalten und entsprechend reagieren.
Diese Gedächtnisleistung zeigt sich auch in der Konsistenz der Charaktere. Früher musste man komplizierte Feinabstimmungstechniken wie LoRA oder Dreambooth anwenden, um die Figur eines Menschen festzulegen. Jetzt können die Nutzer einfach ein Bild verwenden, um den Charakter zu definieren, und in späteren Gesprächen kann dieselbe Person in verschiedenen Szenen und mit verschiedenen Posen auftauchen. In Bezug auf die zentrale Anforderung, "dem echten Menschen zu gleichen", hat Nano Banana bereits einen erheblichen Abstand zu anderen Modellen erreicht.
Es kann auch mehrere Eingabebilder nahtlos zu einem kohärenten Bild verschmelzen und Objekte aus einem Bild natürlich in die Szene eines anderen Bildes einfügen. Weiter geht es: Im Gegensatz zu vielen auf Ästhetik trainierten Modellen integriert Nano Banana die Weltwissen und die Inferenzfähigkeiten der Gemini-Familie. Dies macht es bei der Ausführung von Befehlen klüger. Beispielsweise kann es Konzepte der realen Welt verstehen und passende Pflanzenarten für eine bestimmte von Ihnen gezeichnete Szene auswählen.
Was all diese Erfahrungen wirklich umsetzt, ist die Geschwindigkeit. Die Reaktionszeit von wenigen Sekunden bringt nicht nur Effizienz, sondern ermutigt die Nutzer auch, schnell zu experimentieren, schnell zu scheitern und schnell anzupassen, um Kreativität durch ständiges Ausprobieren zu erkunden, anstatt sich auf einen einmaligen Erfolg zu konzentrieren. Die Teammitglieder bezeichnen diesen Iterationsprozess als das eigentliche Magische.
In Interviews und öffentlichen Teilen des Teams werden mehrere Aspekte von Nano Banana wiederholt erwähnt: Textrendering, Interleaved Generation, Geschwindigkeitsphilosophie und die Einbeziehung von Weltwissen. Diese Schlüsselwörter zeichnen seine Besonderheiten aus.
In der Intuition vieler Menschen ist Textrendering eine Nebeneigenschaft. Ob die Wörter auf einem Schild richtig geschrieben werden, scheint unwichtig zu sein. Aber für das Nano Banana-Team ist dies ein zentrales Kriterium für die Bewertung der Gesamtleistung. Text ist eine hochgradig strukturierte visuelle Information, und eine leichte Abweichung eines Strichs lässt den Fehler sofort erkennbar werden.
Wenn das Modell in der Lage ist, Text korrekt zu rendern, lernt es auch, wie es Struktur und Details auf Pixelebene kontrollieren kann. Wenn diese Fähigkeit auf andere Aufgaben übertragen wird, führt dies zu einer Verbesserung der Gesamtqualität. Das Team hat später Textrendering als ein "Proxy-Metrik" verwendet, um die kontinuierliche Optimierung voranzutreiben.
Einige Fachleute im Bereich Large Language Models (LLM) haben insbesondere die Inspiration betont, die das Textrendering als "Proxy-Metrik" mit sich bringt: Die richtige Proxy-Metrik zu finden, kann der Hebel für die Verbesserung der Gesamtleistung sein. Wählen Sie eine Aufgabe, die eine hohe Präzision erfordert, und optimieren Sie sie, um die Gesamtfähigkeit zu verbessern. Wenn das Modell sich an eine extrem fein strukturierte, fehlerunanfällige Teilaufgabe anpassen muss, lernt es oft grundlegende Fähigkeiten, die sich auch auf breitere Aufgaben auswirken.
Wenn Textrendering das Problem der richtigen Darstellung löst, verändert Interleaved Generation (abwechselnde Generierung) den "Wie"-Prozess des Zeichnens. Frühere Bildgenerierungen waren eher wie Kartenziehungen, ohne Zusammenhang untereinander. Das von Nano Banana eingeführte Interleaved Generation-Mechanismus ändert dies. Das Modell generiert mehrere Bilder im selben Kontext. Das zweite Bild kann sich an das erste erinnern, und das dritte an die ersten beiden. Diese serielle Methode macht die Kreativität eher zu einem Prozess, und die Kohärenz des Kontexts bringt eine viel stabilere Erfahrung als bisher.
Und um diese prozessorientierte kreative Erfahrung nicht zu unterbrechen, ist die Geschwindigkeit der Schlüssel. In der Bildbearbeitung ist Perfektion fast unmöglich. Das Konsens des Nano Banana-Teams ist, dass es besser ist, auf Geschwindigkeit zu setzen, anstatt darauf zu hoffen, alle Details auf einmal zu erfüllen. Denn wenn die Generierung schnell genug ist, können die Nutzer sich problemlos schnell iterieren lassen.
Abgesehen von der Neuerung im Prozess unterscheidet sich das Modell auch in der Tiefe des Inhaltsverständnisses von früheren Modellen. Ein weiteres wiederholt betontes Merkmal ist die Einbeziehung von Weltwissen in den Generierungsprozess. Dadurch kann es nicht nur optisch ansprechende Bilder zeichnen, sondern auch komplexe Befehle mit Alltagswissen und Hintergrundanforderungen verarbeiten. Beispielsweise kann es in einer Szene im Stil eines amerikanischen Einkaufszentrums aus den 80er Jahren nicht nur das Einkaufszentrum verstehen, sondern auch in den Details den Kleidern, der Beleuchtung und der Raumgrammatik dieser Zeit entsprechen.
Die Realisierung dieser Fähigkeit beruht auch auf der Fusion des Teams. Einerseits legen die Stärken des Gemini-Teams in Bezug auf Inferenz, Weltwissen und Kontextverständnis die Grundlage für das Modell. Generierung und Verständnis sind nicht getrennt. Das Team hat in Interviews mehrfach betont, dass Bildverständnis und Bildgenerierung wie "geschwisterliche Fähigkeiten" sind, und die Verbesserung des einen Aspekts fördert oft den anderen.
Andererseits hilft die Erfahrung des Imagen-Teams in Bezug auf Bildästhetik und Natürlichkeit dem Modell, das Problem zu lösen, "ob es realistisch und elegant aussieht". Die Kombination beider macht es möglich, dass Nano Banana ein Gleichgewicht zwischen Konsistenz und Schönheit findet.
Das Nano Banana-Team hat auch die zukünftigen Ziele bekanntgegeben. Sie streben nicht nur die Verbesserung der visuellen Qualität an, sondern wollen das Modell auch "klüger" machen. Das bedeutet, dass wenn der Nutzer einen unscharfen oder unvollständigen Befehl gibt, das Modell die Absicht verstehen und sogar das ursprüngliche Erfordernis übertreffen kann. Der Teammitglied Mostafa beschreibt diese Erfahrung wie folgt: "Ich bin froh, dass es nicht alles von mir gemacht hat." Dies ist ähnlich wie wenn das Modell nicht nur passiv agiert, sondern eine gewisse ästhetische Urteilskraft und Kreativität entwickelt hat, wie ein Agent.
Einige Vermutungen
Die offizielle Seite hat fast keine Informationen über die zugrunde liegende Architektur von Nano Banana preisgegeben. Dieser "Black-Box"-Zustand hat auch die technische Community dazu angeregt, zu diskutieren und zu spekulieren.
Eine Ansicht besagt, dass es möglicherweise den Ansatz von MMDiT (Multimodal Diffusion Transformer) übernommen hat. Diese Konstruktion verarbeitet Text und Bilder über eine einheitliche Transformer-Architektur und codiert Informationen unterschiedlicher Modalitäten in denselben Repräsentationsraum, um eine ursprünglichere multimodale Generierung zu ermöglichen.
Andere Analysen gehen davon aus, dass möglicherweise ein großes Sprachmodell wie Gemini 2.5 auf der oberen Ebene des Modells für die semantische Verständnis und die Inferenz zuständig ist, während die untere Ebene mit einem speziell optimierten Diffusionsmodell verbunden ist, um hochwertige Bildausgaben zu liefern, um so die Stärken beider zu kombinieren.
Außerdem ist eine Nutzerin auf Xiaohongshu, deren Profilangaben angeben, dass sie eine Forscherin bei DeepSeek AI ist, der Meinung, dass der Entwurf von Nano Banana eher dem einheitlichen Ansatz von Janus oder UniFluid ähnelt. Das heißt, auf einem einzigen Transformer-Hauptstrang werden gleichzeitig ein Encoder für das Verständnis und ein Decoder für die Generierung angeschlossen, um so effizient die bidirektionale Fähigkeit des Bildverständnisses und der Text-zu-Bild-Generierung zu realisieren.
Der Nano Banana Moment?
Der Kern des ChatGPT Moments lag darin, dass ein technologischer Sprung eine barrierefreie Nutzungsmöglichkeit bot und schnell in einen Massenwert umgesetzt wurde. Nano Banana hat dies in hohem Maße wiederholt.
Aber es gibt auch Einschränkungen. Die Modellkarte hat klar darauf hingewiesen, dass das Gemini 2.5 Flash Image immer noch Schwächen bei der Darstellung von langen Texten und komplexen Details aufweist. Als zusätzliche Fähigkeit von Gemini 2.5 Flash hat es auch die allgemeinen Beschränkungen des Basis-Modells übernommen. Die sogenannte native Multimodaltät ist immer noch eher auf Bildaufgaben optimiert, und die zurückhaltende Offenlegung von Google über die zugrunde liegende Technologie macht es für die Außenwelt schwierig, die echten Durchbrüche zu beurteilen.
Trotzdem hat Nano Banana bewiesen, dass die Bildgenerierung in eine neue Phase eintritt. Nano Banana ist schon da, kann Giant Banana noch weit sein?
Dieser Artikel stammt aus dem WeChat-Account "Silicon Star People Pro", Autor: Zhou Yixiao. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.