StartseiteArtikel

Nano Banana Pro hat mitten in der Nacht die Bühne in Flammen gesetzt, aber das größte Highlight ist nicht die KI-basierte Bildgenerierung.

爱范儿2025-11-21 07:51
Ultraman, es ist die dunkelste Stunde.

Ultraman steht vor seiner dunkelsten Stunde.

Google's Angriff mit KI zeigt keine Anzeichen einer Abschwächung. Wenn man sagt, dass die Klinge von Gemini 3 Pro vor einigen Tagen in die "Frontend"-Branche eingestochen hat, dann ist es heute die Zeit für die Gestaltungsbranche.

Der gerade veröffentlichte Nano Banana Pro (Gemini 3 Pro Image) setzt erneut mit seiner Bildgenerierungsfähigkeit gewaltige Schläge ein. Die Arbeitsplätze von Anfängergestaltern sind wahrscheinlich nicht mehr sicher.

Die Kernfunktionen sind wie folgt:

Auflösungsunterstützung: Es können Bilder mit einer maximalen Auflösung von 4K ausgegeben werden.

Mehrfache Bearbeitung: Es wird ein dialogförmiger, mehrstufiger Arbeitsablauf für die Bildbearbeitung unterstützt.

Mehrbildzusammensetzung: Es können maximal 14 Eingabebilder zu einem Ausgabebild kombiniert werden.

Suchverbesserung: Die Google-Suchfunktion ist integriert, um präzisere und aktuelle Wissensstützung zu bieten.

Nano Banana Pro lernt endlich, zu denken, bevor es malt, anstatt einfach zu "raten".

Das Markenzeichen von Nano Banana ist die starke Charakterkonstanz und die dialogbasierte Bearbeitungsmethode. Die Kernentwicklung von Nano Banana Pro liegt darin, dass es die tiefgreifende Denkfähigkeit von Gemini 3 vollständig in den Bildgenerierungsprozess integriert hat.

Vor der Generierung eines Bildes führt es zuerst eine physikalische Simulation und eine logische Ableitung durch, anstatt einfach nur anhand visueller Muster zu "raten".

Prompt: Zeichnen Sie ein Vierergitterbild. Die vier Bilder sollen nacheinander einen jungen Mann mit einem Korbhut darstellen, der die Laute "wo" (ich), "shang" (oben), "zao" (früh) und "ba" (acht) ausspricht. Das Aussehen des Charakters soll gleich bleiben, und die Mundgesten sollen genau der Aussprache jedes Wortes entsprechen. Der Gesamtdesignstil soll einheitlich sein, 16:9, 4K.

Das transmodale Verständnis zeigt sich bei Nano Banana Pro noch deutlicher.

Dank der verbesserten mehrsprachigen Inferenzfähigkeit von Gemini 3 können Sie direkt Texte in verschiedenen Sprachen generieren oder Ihre Inhalte mit einem Klick lokalisieren und übersetzen.

Ein Freund schickt Ihnen eine Seite Comic, und Sie bitten das Modell, das Comic zu färben und die englischen Texte in den Sprechblasen ins Chinesische zu übersetzen. Nano Banana Pro färbt sauber, die Licht- und Schattenverhältnisse sind natürlich, die Texterkennung ist präzise, und die englische Textausrichtung passt perfekt zur Form der Sprechblasen. Der gesamte Prozess von der Erkennung über die Übersetzung bis zur Neuausrichtung verläuft reibungslos, und es scheint, als würde das Modell das Bild wirklich "verstehen".

Prompt: Übersetzen Sie die Texte auf dem Bild ins Chinesische und färben Sie es, alles andere unverändert lassen.

Oder auch: Gestalter mussten in der Vergangenheit mehrsprachige Comics, internationale Plakate und Werbematerialien ständig anpassen. Jetzt können sie diese Aufgaben direkt an die KI geben. Beispielsweise können Sie das Modell bitten, die englischen Texte auf einem englischen Plakat ins Chinesische zu übersetzen. Diese kohärente Verarbeitung von der Erkennung über die Übersetzung bis zur Gestaltung ist genau der gewaltigste Aspekt der nativen multimodalen Architektur.

Was die Textgenerierungsfähigkeit betrifft, hat sich in Tests gezeigt, dass Nano Banana Pro zwar manchmal etwas schwankt, aber insgesamt hervorragend abschneidet.

Prompt: Generieren Sie zwei Hochformat-Screenshots einer WeChat-Gruppenchat-Oberfläche, in der die Gruppenmitglieder über die Veröffentlichung von Nano Banana Pro diskutieren.

Hat Ihnen das Cover getäuscht? 🤯

Ob ein kurzer Slogan oder ein ganzer Textabsatz, alles ist klar lesbar. Es wird sogar eine feine Formatierung mit verschiedenen Texturen, Schriftarten und Kalligraphiestilen unterstützt.

Prompt: Im Stil einer alten chinesischen Linienillustration. Guan Yu sitzt neben einer Öllampe, bekleidet mit einem weiten Ärmelanzug, mit konzentriertem und ruhigem Ausdruck. Auf dem Tisch liegen Bambusrollen des "Frühlings- und Herbstannals", ein vergoldetes Messer, Pinsel und andere Gegenstände. Das Ganze wird mit feinen Linien gezeichnet, um den Stil einer alten Druckvorlage beizubehalten. Der Hintergrund wird nur mit wenigen Strichen zur Darstellung einer Ecke, einer Schirmwand und eines Waffenständer gezeichnet, einfach, aber mit einem antiken Charme. Die Farben basieren auf heller Ockerfarbe, grauem Tinte und hellem Blau, um den kulturellen Charme und das historische Gefühl einer alten Buchillustration zu vermitteln, 4:3.

Die Eingabe-Token-Grenze von 64k bedeutet, dass es extrem lange Texteingabeprompts verstehen kann. Ob es sich um ein detailliertes Drehbuch oder um komplexe mehrsprachige Formatierungsanforderungen handelt, alles wird gut verstanden.

Prompt: Generieren Sie ein altes chinesisches Gemälde im 4K-Format. Darauf soll geschrieben sein: "Wann kommt der volle Mond? Ich richte meinen Weinbecher zum Himmel. Ich weiß nicht, welches Jahr es im Himmelreich heute ist. Ich möchte auf den Windesflügeln dahinfliegen, aber ich fürchte, die jadeenen Paläste im Himmel sind zu kalt. Ich tanze im Licht des Mondes, wie schön ist es doch hier auf Erden. Der Mond schiebt sich hinter die rote Veranda, sinkt vor den seidenen Fenstern und erleuchtet die wachen Augen. Warum sollte der Mond nur im Augenblick der Trennung voll sein? Menschen haben Freude und Trauer, Trennungen und Wiedervereinigungen, der Mond hat Vollmond und Neumond, Dunkelheit und Helligkeit. Dies war schon seit alters her so. Ich wünsche, dass die Menschen lange leben und tausend Meilen weit gemeinsam den schönen Mond anbeten können."

Um das alte Problem der niedrigen Auflösung der Vorgängerversion zu lösen, hebt Nano Banana Pro die Bildqualität direkt auf 4K an und lässt auch die freie Einstellung von mehr Seitenverhältnissen zu. Filmplakate, Breitbildhintergründe, vertikale Drehbuchskizzen können alle direkt generiert werden.

Nano Banana Pro unterstützt auch die kombinierte Bearbeitung von bis zu 14 Eingabebildern und behält dabei das Aussehen von bis zu 5 Charakteren gleich.

In Kombination mit der Fähigkeit zur mehrfachen Dialogbearbeitung können Benutzer mehrere Materialien ständig anpassen und kombinieren, bis das gewünschte Ergebnis erreicht ist. Ob es sich um die Umwandlung eines Skizzen in ein Produkt oder die Umsetzung eines Bauplans in ein realistisches 3D-Gebäude handelt, der Sprung von der Idee zum fertigen Produkt kann problemlos erreicht werden.

Prompt: Doraemon und Li Bai trinken unter dem Mond zusammen. Der volle Mond hängt hoch am Himmel, es gibt alte chinesische Pavillons und Gebäude. Doraemon trägt eine tangzeitliche Kleidung, Li Bai hält eine Weinflasche in der Hand, auf einem Stein Tisch liegen Weinbecher. Es hat eine geisterhafte Atmosphäre, ein gemischter chinesisch-japanischer Stil mit feinen Details.

Noch weiter geht es mit der professionellen kreativen Steuerungsfähigkeit.

Sie können jeden Teil eines Bildes auswählen, fein einstellen oder verändern, vom Einstellen des Kamerawinkels, der Stiländerung bis hin zur Anwendung einer fortgeschrittenen Farbkorrektur, sogar die Änderung der Szenebeleuchtung - von Tag zu Nacht oder die Schaffung eines Bokeh-Effekts.

Diese Aufgaben, die in der Vergangenheit in Photoshop fein justiert werden mussten, können jetzt mit einem Satz erledigt werden.

Suche + Generierung = ? Google gibt die ultimative Antwort

Wenn man sagt, dass die Suche das "linke Gehirn" von Gemini 3 ist, dann ist die Bildgenerierung sein "rechtes Gehirn".

Dies ist auch die unterschätzte, aber am stärksten subversive Fähigkeit in der Architektur von Nano Banana Pro (Gemini 3 Pro Image). Die traditionelle Suche funktioniert so, dass der Benutzer eine Suche startet, die Suchmaschine gibt Links zurück, der Benutzer klickt auf eine Website, und die Website bietet eine Oberfläche. Nano Banana Pro führt jedoch die Suchverbesserungsfunktion (Grounding with Search) ein.

Wenn ein Benutzer fordert, ein visuelles Bild zu generieren, das einen 2-Tage-Reiseplan für einen Besuch in Guangzhou zeigt, enthält das von Nano Banana Pro generierte Bild eine detaillierte Reisekarte, englische und chinesische Anmerkungen sowie Bilder von Sehenswürdigkeiten.