Nano Banana 2 veröffentlicht: Im zweiten Bildgenerierungs

Google hat in der späten Nacht Nano Banana 2 veröffentlicht. Bei der Bildgenerierung wird es wirklich eine Wende geben.

Nachdem das Jahr 2026 angebrochen war, sprach sich kaum noch jemand mehr über Bildgenerierungsmodelle aus. Der Fokus in der Branche lag ganz bei den Agenten.

Bildgenerierungsmodelle scheinen zur Geschichte der „letzten Ära“ geworden zu sein. Die Mehrheit der Fachleute ist sich einig, dass der technische Weg der Bildgenerierung weitgehend festgelegt ist und es nun nur noch um die Optimierung des Engineerings und die Kostenkontrolle geht.

Das internationale Forschungsinstitut Fundamental Business Insights erwähnt in seiner Studie „Prognose der Marktgröße und -anteile von KI-gestützten Bildgeneratoren“, dass der globale Markt in 2024 einen Umfang von 410,24 Millionen US-Dollar, in 2025 von 478,5 Millionen US-Dollar und in 2026 von 541,36 Millionen US-Dollar erreichte.

Daraus ist ersichtlich, dass der Markt für Bildgenerierungsmodelle ein reifer und stabiler Markt mit relativ wenig Wachstumspotenzial ist.

Genau an diesem Punkt hat Google Nano Banana 2 vorgestellt.

Dies sind Bilder, die mit denselben Prompten generiert wurden. Man kann sehen, dass Nano Banana 2 in der Art und Weise, wie es Bilder darstellt, sich deutlich von Nano Banana Pro unterscheidet.

Denn es handelt sich nicht um eine einfache Versionsoberholung.

Google hat am Tag der Veröffentlichung angekündigt, dass dieses neue Modell sofort alle vorherigen Versionen ersetzen und das Standard-Bildgenerierungsmodell in allen Produkten wie Gemini, Google Search und AI Studio werden wird. Am erstaunlichsten ist, dass sogar Googles eigenes KI-Programmierwerkzeug Antigravity Nano Banana 2 integriert hat.

Warum hat Google plötzlich alles riskiert?

In der Vergangenheit standen die Benutzer vor einer schwierigen Wahl: Wenn sie Bilder in 4K-Auflösung generieren wollten, mussten sie lange warten. Wenn sie Bilder sofort generieren wollten, mussten sie sich auf Modelle mit niedriger Auflösung beschränken.

Nano Banana 2 hingegen ist schnell und liefert gute Ergebnisse.

Google ist der Meinung, dass die Bildgenerierung auch in der Ära der Agenten ein Gebiet ist, das es lohnt, in das man investiert.

01 Welche Merkmale hat Nano Banana 2?

Das wichtigste Merkmal von Nano Banana 2 ist seine Geschwindigkeit. Es kann ein Bild in 4K-Auflösung in 4 bis 6 Sekunden generieren.

Googles Gemini-Serie hat seit jeher zwei Produktlinien: Pro setzt auf Leistung, Flash auf Effizienz.

Aber das Übertragen dieser Architektur auf den Bereich der Bildgenerierung ist nicht einfach eine Modellkompression. Die Bildgenerierung ist viel rechenintensiver als die Textgenerierung. Ein Bild in 2K-Auflösung enthält so viel Informationen wie Tausende von Text-Tokens.

Die Herausforderung besteht darin, die Infrarotschnelligkeit zu verbessern, ohne die visuelle Qualität zu beeinträchtigen. Dies ist eine technische Herausforderung.

Die Lösung von Nano Banana 2 besteht darin, eine strategische Schichtgenerierung anzuwenden.

Das Modell versteht zunächst die Szene, plant die Komposition und leitet die physikalischen Beziehungen in einer niedrigeren Auflösung. Anschließend wird das Bild über einen effizienten Upsampling-Pipeline auf 2K oder sogar 4K-Auflösung gebracht.

Dieser Prozess des „Denkens vor dem Rendern“ ermöglicht es dem Modell, die Konsistenz und Detailqualität auf Pro-Ebene beizubehalten, während die Rechenkosten gesenkt werden.

Außer seiner Geschwindigkeit führt Nano Banana 2 auch das Konzept des „Weltwissens“ ein.

Traditionelle Bildgenerierungsmodelle sind im Wesentlichen leistungsstarke visuelle Mustererkennungssysteme. Sie werden auf einer riesigen Menge an Bilddaten trainiert und lernen, „wie ein realistisches Bild aussieht“, verstehen aber nicht wirklich die physikalischen Gesetze, geografischen Merkmale oder kulturellen Hintergründe in den Bildern.

Wenn Sie beispielsweise ein Bild der Eiffeltürme in regnerischem Wetter generieren lassen, kann es sein, dass das generierte Bild zwar gut aussieht, aber die strukturellen Details der Türme, der typische Pariser Baustil und die Lichtverhältnisse im Regen unscharf oder fehlerhaft sind.

Der Unterschied von Nano Banana 2 besteht darin, dass es direkt das Weltwissensspeicher von Geminis Large Language Model erbt und Google Image Search als „visuelles Referenzarchiv“ in Echtzeit abrufen kann.

Das bedeutet, dass wenn Sie eine Szene an einem realen Ort generieren lassen, das Modell nicht nur die geografische Lage, das Klima und den Baustil des Ortes kennt, sondern auch relevante echte Fotos als visuelle Referenz abrufen kann, um ein genaues Bild zu generieren.

In Googles Demo „Window Seat“ kann es anhand eines von Ihnen angegebenen Ortes und der aktuellen Wetterdaten eine realistische Landschaft außerhalb des Fensters an diesem Ort generieren.

Nehmen wir beispielsweise das 9¾-Gleis in King's Cross Station in London aus der Harry-Potter-Serie. Wenn Sie in Window Seat die entsprechende Station eingeben, das Fenster als gemütliches Café beschreiben und das Wetter als starker Regen festlegen, wird Nano Banana 2 das folgende Bild generieren.

Das Einfügen von „Weltwissen“ in Nano Banana 2 ist eigentlich das Ergebnis der Kombination der Inferenzfähigkeit von Large Language Modellen und der Renderingfähigkeit von Bildgenerierungsmodellen.

Vor der Bildgenerierung führt das Modell zunächst eine „semantische Inferenz“ durch, um die Konzepte aus der realen Welt in den Prompten zu verstehen, und wandelt dann diese Konzepte in visuelle Elemente um.

In der Bildgenerierung ist die Textrendering immer ein anerkanntes Problem. Ob Stable Diffusion, Midjourney oder die frühen Versionen von DALL-E, wenn die generierten Bilder Text enthalten, treten häufig Probleme wie falsche Buchstabenpositionen, Rechtschreibfehler und unregelmäßige Schriftarten auf.

Die Ursache dieses Problems liegt darin, dass traditionelle Diffusionsmodelle Text als Teil der visuellen Textur betrachten, nicht als symbolisches System mit semantischer Struktur.

Nano Banana 2 hat bei der Textrendering deutliche Fortschritte erzielt. Laut offizieller Ankündigung kann dieses Modell „zuverlässiger Text rendern“, unterstützt mehrsprachigen Text und kann die Klarheit und Stilkonstanz der Schriftarten beibehalten.

Diese Verbesserung der Fähigkeit beruht auf der „doppelten Verständnis“ von Text durch das Modell. Nano Banana 2 versteht sowohl die semantische Bedeutung des Textes durch die Sprachfähigkeit von Gemini als auch die visuellen Darstellungsmuster des Textes durch die Renderingfähigkeit der Bildgenerierung.

Ich habe Nano Banana 2 aufgefordert, ein Logo für „Alphabet AI“ zu entwerfen, und es konnte jedes Wort gut darstellen und den Begriff von KI durch das visuelle Element einer Leiterplatte verstärken.

02 Welche Technologien stecken hinter Nano Banana 2?

Eine weitere wichtige Eigenschaft von Nano Banana 2 ist seine Fähigkeit zur „dialogbasierten Bearbeitung“. Dies ist zwar kein neues Konzept, aber in der Praxis funktioniert es viel besser als bisher.

Nano Banana 2 kann jetzt vollständig über Dialoge Bilder bearbeiten, z. B. „Den Hintergrund in einen Sonnenuntergang ändern“, „Die Kleidung dieser Person in Blau ändern“ oder „Den Baum auf der linken Seite entfernen“.

Der Schlüssel zu dieser Interaktionsweise liegt darin, dass das Modell die „Erinnerung“ an das Bild während mehrerer Dialogrunden behalten kann. Wenn Sie in der dritten Dialogrunde sagen: „Ändere die blaue Kleidung wieder in Rot“, muss das Modell wissen, welche Kleidung in der zweiten Bearbeitungsrunde blau gefärbt wurde.

Diese Fähigkeit zur Verfolgung des Kontexts wird „Thought Signatures“ genannt.

Einfach ausgedrückt, führt das Modell beim Generieren eines Bildes eine Reihe von Überlegungen durch, und die Thought Signatures sind die Markierungen für jeden Schritt dieser Überlegungen. Bei der mehrrundigen dialogbasierten Bildbearbeitung können Sie die Thought Signatures der vorherigen Runde an das Modell zurückgeben, und es kann die vorherige Kompositionslogik, die Licht- und Schattenverhältnisse und die Gestaltungsabsicht behalten, um eine kohärente lokale Bearbeitung zu ermöglichen.

Wenn Sie eine Änderung an einem bestehenden Bild verlangen, wird das Modell die Thought Signatures verwenden, um die Gesamtstruktur des ursprünglichen Bildes zu verstehen und angemessene Anpassungen vorzunehmen, ohne die Konsistenz des Bildes zu zerstören.

Die oben erwähnte Konsistenz ist eines der größten Probleme bei den aktuellen Bildgenerierungsmodellen.

Nano Banana 2 unterstützt die Mischung von bis zu 14 Referenzbildern, darunter bis zu 5 Bilder von Personencharakteren und bis zu 6 Bilder von Objekten.

Das Modell kann aus diesen Referenzbildern visuelle Merkmale extrahieren und diese Merkmale in den neu generierten Bildern konsistent halten.

Beispielsweise zeigt ein von Google veröffentlichtes Bild, wie ein Bananen-Dinosaurier-Spielzeug entsteht, indem eine Banane und ein Dinosaurier-Spielzeug kombiniert werden.

Betrachten wir nun einen Vergleich zwischen Nano Banana 2 und GPT. Bei denselben Prompten hat das von GPT generierte Bild einen deutlichen KI-Generierungseindruck, während die Bilder von Nano Banana 2 realistischer aussehen.

GPT:

Nano Banana 2:

Außerdem hat Google einige von Nano Banana 2 generierte überlange Bilder veröffentlicht.

03 Welche Vorteile hat Nano Banana 2 im Vergleich zu anderen Modellen?

Nano Banana 2 ist ein sehr ausgewogenes Bildgenerierungsmodell. Es ist schnell, liefert gute Ergebnisse und ist kostengünstig.

Laut offiziellen Informationen von Google kostet die Generierung eines 1K-Bildes mit Nano Banana 2 etwa 0,067 US-Dollar, was weniger als 50 Cent entspricht. Ein 2K-Bild kostet 0,1 US-Dollar, etwa 70 Cent, und ein 4K-Bild kostet 0,15 US-Dollar, etwa 1 US-Dollar. Dies ist viel günstiger als Nano Banana Pro.

Der Vorteil der Pro-Version liegt in der exzellenten Kontrolle komplexer Szenen, der überrealistischen Licht- und Schattenrendering und der Wiedergabe von speziellen Kunststilen. Sie eignet sich für professionelle visuelle Designer, Filmkonzeptdesigner und andere Benutzer, die anspruchsvolle Anforderungen an die Bildqualität haben.

Nano Banana 2 hat zwar eine etwas geringere Bildqualitätseingrenzung, dafür aber eine deutlich höhere Effizienz. Die Preise von Nano Banana 2 entsprechen eher den Bedürfnissen von normalen Künstlern und Unternehmen, die schnelle Iterationen und die Massenerstellung von Bildern benötigen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Nano Banana 2 ist veröffentlicht. Im zweiten Teil des Wettlaufs der Bildgenerierung geht es um "Weltwissen".

01 Welche Merkmale hat Nano Banana 2?

02 Welche Technologien stecken hinter Nano Banana 2?

03 Welche Vorteile hat Nano Banana 2 im Vergleich zu anderen Modellen?