Nano Banana ist eher wie DeepSeek im Bereich der KI - Bilder.
Ich bin es schon lange gewöhnt, mit KI verschiedene Bilder zu generieren, aber ich habe noch nie gesehen, dass eine KI Bilder so präzise bearbeiten und anpassen kann.
Dies ist die 66. Ausgabe von "Narrowcast Weekly". In dieser Ausgabe befassen wir uns mit dem folgenden Geschäftstrend: Das neueste KI-Bildgenerierungsmodell von Google, Nano Banana, könnte im Bereich der KI-Bilder zu einem Anwendungsboom führen.
Vor einem Jahr, als ich versuchte, den Spielzug, den eine Person auf einem Foto hielt, durch ein Spielzeugflugzeug zu ersetzen, musste ich den Spielzug präzise markieren, ein sauberes Bild eines Spielzeugflugzeugs finden und der KI sagen, dass sie es durch das Flugzeug im anderen Bild ersetzen soll. Nach einer Stunde und vielen Versuchen war das Flugzeug deformiert, die Hand der Person war verschwunden, und das Endergebnis war nur mäßig brauchbar.
Diese Woche habe ich die gleiche Aufgabe an Nano Banana gegeben und ihr nur gesagt: "Ersetze den Spielzug, den die Person in der Hand hält, durch ein Spielzeugflugzeug." Ich hatte sogar kein zusätzliches Foto eines Spielzeugflugzeugs parat, und nach nur über 20 Sekunden hatte ich ein neues Foto. Auf diesem Foto wurde nur der Spielzug ersetzt, ohne dass andere Teile des Fotos überflüssig verändert wurden oder die Finger der Person verschwanden oder hinzugekommen sind.
Diese Veränderung der Erfahrung bringt mich an das Gefühl zurück, als ich das erste Mal DeepSeek benutzte - ich wusste schon, dass ich mit KI frei chatten konnte, aber ich hatte nicht gedacht, dass die KI, mit der ich sprach, so schlau werden würde. Ebenso bin ich es schon lange gewöhnt, mit KI verschiedene Bilder zu generieren, aber ich habe noch nie gesehen, dass eine KI Bilder so präzise bearbeiten und anpassen kann.
So wie DeepSeek durch seine Fähigkeit zur tiefen Denkweise das Anwendungspotenzial von KI gezeigt hat, wird auch die von Nano Banana gezeigte präzisere Bildschaffungsfähigkeit die breitere Öffentlichkeit dazu bringen, KI für bildbezogene Aufgaben einzusetzen.
Zurzeit gibt es bereits auf sozialen Medien eine Vielzahl von Figurenmodellen, OOTD-Bildern, Bildern mit wechselnden Kleidern, die mit Nano Banana erstellt wurden. Auch gibt es Benutzer, die Nano Banana zusammen mit einem Videogenerierungsmodell nutzen, um Videoinhalte zu generieren. Dies ist nicht nur die Popularität eines "Studio Ghibli-Stil"-Filters, sondern die Verbreitung einer effizienteren und universelleren Bildschaffungsfähigkeit.
Diese Modellfähigkeit kann die Umsetzung von mehr Produktinnovationen unterstützen. Nicht nur in Gemini, sondern auch in vielen zukünftigen Produkten wird es möglicherweise Spuren von Nano Banana oder ähnlichen Modellen geben.
Aber dazu müssen die Modellhersteller wie Nano Banana aus einer multimodalen Perspektive umfassender darüber nachdenken, wie sie die Bildschaffungsfähigkeit ihrer Modelle verbessern können.
Das "Meitu Xiuxiu" der KI-Zeit ist eine Fähigkeit
Das Gefühl, Bilder mit Nano Banana anzupassen, ist sehr ähnlich dem Gefühl, als man in der frühen Zeit von Photoshop zu Meitu Xiuxiu wechselte. Wenn man mit Photoshop Fotos verschönert, muss man verschiedene Bedienungsschritte auswendig kennen. Benutzer ohne Vorkenntnisse müssen jedes Mal, wenn sie ein Foto bearbeiten, zuerst eine Anleitung im Internet suchen. Aber wenn man mit Meitu Xiuxiu Fotos verschönert, braucht man möglicherweise nur ein paar Klicks oder Ziehbewegungen, und auch Benutzer ohne Vorkenntnisse können schnell damit umgehen.
Jetzt ermöglicht es Nano Banana normalen Benutzern, mit einem Satz Bilder präzise anzupassen und zu bearbeiten. Dies ist eine weitere Revolution im Bereich der Bildschaffung. Der Unterschied besteht darin, dass der Übergang von Photoshop zu Meitu Xiuxiu eher eine Veränderung des Produktkonzepts war, bei der eine Reihe von festen Aktionen in einen Klick oder eine Ziehbewegung umgewandelt wurden. Nano Banana bringt hingegen eine Fähigkeit mit sich, die KI in die Lage versetzt, Bilder zu verstehen und zu bearbeiten.
In der Einführung des Nano Banana-Teams gibt es zwei Schlüsselfaktoren für die Realisierung dieser Fähigkeit:
Native multimodale Architektur. Diese Architektur ermöglicht es Nano Banana, gleichzeitig den Kontext einschließlich Text und Bild zu verstehen und zu verarbeiten und pixelgenaue Informationen aus dem Kontext zu gewinnen, um so eine pixelgenaue Bearbeitung (Pixel Perfect Editing) zu ermöglichen. So kann sichergestellt werden, dass Nano Banana die Anpassung eines Bildes auf ein bestimmtes Element genau ausrichten kann.
Interleaved Generation (abwechselnde Generierung). Aufbauend auf der pixelgenauen Bearbeitung kann Nano Banana komplexe Anweisungen in mehrere Schritte zerlegen und die Änderungen schrittweise vornehmen. Das Nano Banana-Team hält dies für eine Paradigmenänderung, die es dem Modell ermöglicht, komplexe Bilder schrittweise zu erstellen, indem es inkrementell generiert, anstatt wie bei herkömmlichen Methoden die Grenzen des Modells zu testen und es dazu zu bringen, das Endergebnis auf einmal zu generieren.
In gewisser Weise ist dies eine eher Agent-ähnliche Fähigkeit, die durch die Definition des Modells realisiert wird. DeepSeek kann die breite Anwendung von KI vorantreiben, weil es im Wesentlichen die Fähigkeit zur tiefen Denkweise nutzt, um die Anweisungen zu zerlegen und dann schrittweise auszuführen, um ein Ergebnis zu erzielen, das den Anforderungen besser entspricht. Das gleiche Prinzip gilt auch für Nano Banana. Durch ein präziseres Verständnis und eine feinere Aufteilung der Aufgaben wird eine hochgradig konsistente Bildbearbeitung erreicht.
Auf dieser Grundlage hat Nano Banana auch niedrige Kosten und hohe Geschwindigkeit. Laut der Einführung von Google kostet Nano Banana 30 US-Dollar pro Million Tokens. Für die Generierung eines Bildes werden etwa 1290 Tokens benötigt, was einem Kostenbetrag von etwa 0,039 US-Dollar entspricht.
Außerdem benötigt Nano Banana nur zwischen zehn und mehreren zehn Sekunden, um ein Bild zu generieren. Die schnelle Generierung in Kombination mit der präzisen Anpassungsfähigkeit unterstützt die iterative Schaffung der Benutzer, sodass sie ständig versuchen und anpassen können, um sich dem idealen Ziel zu nähern.
Außergewöhnliche Fähigkeiten führen zu breiteren Anwendungen
Aus meiner eigenen Erfahrung kann Nano Banana mir leicht helfen, Nezha mit Sneakers zu versehen oder, basierend auf gesuchten Kampfaufnahmen, eine Kampfszene zwischen Luffy und Ace zu generieren. Möglicherweise sind nicht alle Ergebnisse für mich zufriedenstellend. Beispielsweise war Luffy auf einem generierten Bild deutlich kleiner als Ace, und wenn ich es aufforderte, ein zuvor generiertes Ergebnis anzupassen, hat sich das ausgegebene Bild nicht verändert.
Aber das hindert mich nicht daran zu denken, dass Nano Banana eine grundlegende Fähigkeit für die Entwicklung von KI-Bildanwendungen sein kann oder zu einer weiteren Verbesserung und breiteren Nutzung bestehender Anwendungen führen kann.
Eine Art von Anwendung ist das virtuelle Anprobieren von Kleidung. Die von Nano Banana angebotene Fähigkeit ermöglicht es Benutzern, die Wirklichkeit näherende Bilder ihrer gewünschten Kleidung zu sehen, was mehr Menschen dazu bringen wird, diese Funktion zu nutzen.
Eine Berichterstattung von Forbes meint, dass die Fähigkeit von Nano Banana, die Konsistenz von Charakteren aufrechtzuerhalten, die Effizienz von Künstlern und Studios bei der Erstellung von Storyboards, Kinderbüchern und Comics erhöhen kann. Es kann auch die Kosten für die Herstellung von Warenwerbematerialien senken. Wenn man ein Produktfoto macht, kann man damit Werbeplakate für verschiedene Szenen generieren. Innenarchitekten können auf der Grundlage von Zimmerfotos jederzeit die Einrichtungseffekte anpassen und den Benutzern eine zeitnahe und kostengünstige Dienstleistung bieten.
Die Veröffentlichung von Nano Banana erhöht auch die Grenzen der Videoerzeugung aus Bildern. Künstler können mit Nano Banana die Anfangs- und Endbilder genauer anpassen, damit das Ergebnis der Videoerzeugung näher an der Erwartung liegt. Dann können sie die einzelnen Clips zusammensetzen, um ein vollständiges Video zu erstellen. Derzeit wird von der breiten Öffentlichkeit eher bemerkt, dass viele Videowiedergabeprogramme die Fähigkeit von Nano Banana nutzen, damit Benutzer Fotos anpassen und bessere Gesichtswechselvideos generieren können.
Diese Anwendungsforschung kombiniert im Wesentlichen die Grundfähigkeit von Nano Banana mit dem impliziten Wissen bestimmter Bereiche, um die Nutzungsschwelle für Benutzer bei bestimmten Bildanforderungen zu senken. Obwohl Google Nano Banana in Gemini integrieren wird, um es zu einer grundlegenden Fähigkeit des universellen Assistenten zu machen, ist der universelle Assistent nicht allmächtig und kann manchmal nicht das implizite Wissen eines bestimmten Bereichs bieten.
Es braucht mehr Anwendungen, um Nano Banana zu helfen, das implizite Wissen eines Bereichs besser zu verstehen. Bei der Analyse "Ob Meitu von Nano Banana beeinflusst wird" hat die bekannte Investmentbank Morgan Stanley festgestellt, dass der wahre Wert von Meitu darin besteht, dass es eine "letzte Meile"-Lösung bietet, die das grundlegende KI-Modell nicht erreichen kann.
Naturgemäß wird diese Lösung mit der Verbesserung der Modellfähigkeit immer detaillierter und immer eher darauf abzielen, eine optimale Dienstleistung für eine bestimmte Aufgabe zu bieten. Dies könnte möglicherweise noch mehr Innovationen auslösen und die KI-Anwendungen im Bereich der Bilder professionell und weit verbreitet machen.
So könnte Meitu in Zukunft möglicherweise zu einer Sammlung verschiedener Bildbearbeitungstools werden, die implizites Wissen an Benutzer verkauft, anstatt ein grundlegendes Fotoeditor-Tool zu sein, das Benutzer durch kostenlose Funktionen für häufige Nutzung anzieht.
Das Gelingen von Nano Banana ist ein allumfassender Wettbewerb
Im Wesentlichen macht das Nano Banana-Team nicht einfach ein Bildgenerierungsmodell, sondern wendet die multimodale Fähigkeit auf den Bereich der Bildschaffung an.
Das Nano Banana-Team meint, dass der Unterschied zwischen Gemini und Googles Bildgenerierungsmodell Imagen darin besteht, dass Gemini darauf abzielt, verschiedene Modalitäten zu integrieren und schließlich AGI zu erreichen, während Imagen sich ausschließlich auf die Bildgenerierung konzentriert.
Wenn Benutzer nur effizient hochwertige schöne Bilder generieren möchten, ist Imagen die beste Wahl. Wenn Benutzer aber auch auf der Grundlage der Bildgenerierung einige Bearbeitungen vornehmen, mehr kreative Ideen entwickeln oder sogar kreativere Ergebnisse erzielen möchten, ist Gemini die bessere Wahl.
@Travis Davids
In Zukunft hofft das Nano Banana-Team, dass das Modell mehr Intelligenz (Smartness) und Sachlichkeit (Factuality) aufweist.
Intelligenz bedeutet, dass Nano Banana, wenn die Anweisungen des Benutzers unklar sind oder das Verständnis der Realität ungenau ist, das Ergebnis so gestaltet, dass es mit der realen Welt übereinstimmt. Obwohl das Ergebnis von der Anweisung des Benutzers abweicht, kann es ein richtigeres oder besseres Ergebnis erzielen, sodass der Benutzer Nano Banana als sehr intelligent empfindet.
Sachlichkeit bedeutet, dass Nano Banana nicht nur schöne Bilder erstellen kann, sondern auch fehlerfreie Icons, Infografiken und Skizzen generieren kann, oder sogar direkt PowerPoint-Seiten für den Benutzer erstellen kann. Dazu muss Nano Banana nicht nur bei den Bilderlementen, sondern auch bei Texten und Daten präzise sein.
Die Erreichung dieser beiden Ziele erfordert die Nutzung des Weltwissens von Gemini, um das multimodale Kontextverständnis zu realisieren. Beispielsweise kann Nano Banana verstehen, was das Spielzeugflugzeug ist, das ich hinzufügen möchte, und es kann verstehen, welche Merkmale der Stil des "geistigen Jungen" hat.
Für Google ist der Erfolg von Nano Banana darauf zurückzuführen, dass eine Zusammenarbeit zwischen Verständnis und Generierung hergestellt wurde. Die Bildverständnisfähigkeit von Gemini hilft dem großen Modell, neben Texten auch aus Bildern und Videos mehr Weltwissen zu lernen. Dann kann dieses Wissen helfen, die Anweisungen zur Bildgenerierung genauer zu verstehen und auszuführen.
Dies bedeutet auch, dass die Integration verschiedener Modellfähigkeiten unter der richtigen Mechanik eher zu einem Sprung in der Fähigkeit des großen Modells führen kann. In gewisser Weise ist dies nicht nur der Sieg der Modellgruppe, sondern auch der Sieg der Unternehmensorganisation und des Innovationsmechanismus.
Dieser Artikel stammt aus dem WeChat-Account "Narrowcast". Verfasser: Li Wei. 36Kr hat die Veröffentlichung mit Genehmigung erhalten.