StartseiteArtikel

Google Nano Banana geht offiziell live: Die Kosten pro Bild betragen weniger als 0,3 Yuan, 95 % billiger als OpenAI.

机器之心2025-08-27 14:42
gemini-2.5-flash-image-preview

Letzte Nacht hat das mysteriöse und mächtige Bildgenerierungs- und -bearbeitungsmodell nano banana endlich sein wahres Gesicht gezeigt. Kein Wunder, es stammt tatsächlich von Google und hat auch einen offiziellen, aber langweiligen Namen erhalten: gemini-2.5-flash-image-preview.

Laut Angaben verfügt das Modell über "SOTA-Fähigkeiten in der Bildgenerierung und -bearbeitung, erstaunliche Charakterkonstanz und blitzschnelle Geschwindigkeit".

Aus dem Namen lässt sich vermuten, dass Google vermutlich auch ein nicht-flash-optimiertes gemini-2.5-image-Modell hat – dessen Leistung wahrscheinlich noch stärker, aber die Geschwindigkeit langsamer sein sollte.

Derzeit ist die Vorschauversion von gemini-2.5-flash-image-preview in Google AI Studio und der Gemini API verfügbar. Benutzer können es kostenlos testen.

Man kann sehen, dass gemini-2.5-flash-image-preview einen 32k-Kontext unterstützt und die Einstellung der Temperatur (um die Kreativität des Modells zu steuern) sowie einige erweiterte Einstellungen bietet.

Leider unterstützt das Modell bisher noch keine Bildgenerierung und -bearbeitung für chinesische Eingaben, sondern gibt stattdessen eine Textantwort zurück.

Außerdem kann man in Gemini auch einfach 2.5 Flash auswählen und passende Hinweise geben, um das Modell zu nutzen.

In Bezug auf die Preise beträgt der Preis für eingegebenen/ausgegebenen Text 0,3/2,5 US-Dollar, für eingegebene/ausgegebene Bilder 0,3/30 US-Dollar. Der Wissenszeitraum endet im Juni 2025.

Etwa gerechnet, kostet die Generierung eines Bildes mit diesem Modell etwa 0,039 US-Dollar (etwa 0,28 Yuan), weit weniger als die Bildgenerierungskosten von OpenAI.

In Bezug auf die spezifischen Funktionen (insbesondere die Bildbearbeitung) heißt es in einem offiziellen Google-Blogbeitrag, dass sie sich besonders darum bemühen, die Konsistenz der Personenbilder zwischen verschiedenen Bildern aufrechtzuerhalten.

"Wir wissen, dass beim Bearbeiten von Bildern von sich selbst oder von bekannten Personen selbst die geringsten Unterschiede auffallen – ein Ergebnis, das 'fast, aber nicht ganz gleich' ist, wirkt einfach falsch. Deshalb zielt unsere neueste Aktualisierung speziell darauf ab, dass deine Freunde, Familie und sogar Haustiere immer wie sie selbst aussehen, egal ob sie einen 60er-Jahre-Frisur ausprobieren oder ein Chihuahua in eine Ballettkleidchen gekleidet wird."

Du musst nur Gemini ein Foto geben und ihm sagen, was du ändern möchtest, und es fügt eine einzigartige Note hinzu. Das Modell kann dir helfen, dich und dein Haustier auf einem Foto zusammenzubringen, den Hintergrund eines Zimmers in neues Tapetenmuster ändern oder dich an jeden Ort in der Welt bringen, den du dir vorstellen kannst – und dabei immer "du selbst" bleiben. Nach Abschluss kannst du sogar das bearbeitete Foto erneut in Gemini hochladen und daraus ein lustiges Video machen.

Google hat auch einige Beispiele für Anwendungen geteilt.

Kleidung oder Szene ändern: Lade ein Foto von einer Person oder einem Haustier hoch, und das Modell wird ihre Erscheinung in jeder neuen Szene beibehalten. Du kannst verschiedene Kleidungsstile, Berufe ausprobieren oder sehen, wie du in einer anderen Epoche aussehen würdest – aber immer noch du selbst sein.

Google hat sogar eine Demonstrationsanwendung erstellt, um zu zeigen, wie du in verschiedenen Epochen aussehen würdest.

Adresse: https://aistudio.google.com/apps/bundled/past_forward

Fotos zusammenführen: Jetzt kannst du mehrere Fotos hochladen und sie zu einer neuen Szene zusammenführen. Beispielsweise kannst du ein Foto von dir und deinem Hund auf einem Basketballplatz zusammenführen und ein perfektes Gruppenfoto erstellen.

Mehrstufige Bearbeitung: Du kannst die vom Gemini generierten Bilder ständig ändern. Beispielsweise kannst du mit einem leeren Raum beginnen, die Wände streichen und dann Regale, Möbel oder einen Couchtisch hinzufügen. Gemini wird dir dabei helfen und nur die Teile ändern, die du angibst, und den Rest unverändert lassen.

Mischdesign: Übernehme den Stil eines Bildes und wende ihn auf ein Objekt in einem anderen Bild an. Beispielsweise kannst du die Farbe und Textur von Blütenblättern auf einen Regenschuh übertragen oder das Muster von Schmetterlingsflügeln auf ein Kleid anwenden.

Natürliche Weltwissen: Das Modell kann auch das Weltwissen von Gemini nutzen, um neue Anwendungsfälle zu erschließen. Um dies zu demonstrieren, hat Google in Google AI Studio eine Vorlagenanwendung erstellt, die einen einfachen Canvas in einen interaktiven Lehrmeister verwandeln kann.

Adresse: https://aistudio.google.com/apps/bundled/codrawing

Außerdem hat Google erwähnt, dass alle in der Gemini-Anwendung generierten oder bearbeiteten Bilder ein sichtbares Wasserzeichen sowie ein unsichtbares SynthID-Digitalwasserzeichen von Google tragen, um klar zu kennzeichnen, dass sie künstlich generiert wurden.

Sobald das Modell online ging, kam es zu einer Welle von Testaktivitäten. Der Chefwissenschaftler von Google, Jeff Dean, hat sich selbst in eine Fußballspieler-Kartenecke "gepflegt".

Der Nobelpreisträger und Gründer und CEO von DeepMind, Demis Hassabis, hat sich auch ein persönliches Portrait gemacht.

Die Internetnutzer haben ebenfalls ihre Kreativität ausgelebt und viele lustige Ergebnisse geteilt.

Rangliste

Kurz nachdem gemini-2.5-flash-image-preview offiziell online ging, begannen verschiedene Listen, die Leistungen des Modells zu veröffentlichen.

Auf der Bildbearbeitungsrangliste von Artificial Analysis hat das Modell direkt die erste Stelle erreicht und eine ELO-Punktzahl von 1212 erhalten.

Auf der Text-zu-Bild-Rangliste haben die Jimeng 3.0 von ByteDance und das GPT-4o von OpenAI noch einen kleinen Vorsprung.

Aber auf der Rangliste von LM Arena, auf der mehr Menschen abgestimmt haben, ist gemini-2.5-flash-image-preview in beiden Aufgaben bereits der Sieger.

Im Folgenden werden detailliertere Punktzahlen für verschiedene Indikatoren gezeigt. Dabei hat gemini-2.5-flash-image-preview deutliche Vorteile in Bezug auf Charakterkonstanz, Kreativität, Diagramme, Dinge/Umgebung usw., während GPT-4o derzeit in Bezug auf Stilisierung führend ist.

Hast du schon nano banana / gemini-2.5-flash-image-preview ausprobiert? Wie war es?

Referenzlinks