Google Nano Banana 2 hat binnen einer Nacht seine Schwächen ausgeglichen und kann alle Arten von Diagrammen zeichnen. Der Preis beträgt nur die Hälfte von OpenAI.
Spät in der Nacht hat Google erneut die Branche des Text-zu-Bild-Generierens auf den Kopf gestellt. Nano Banana 2 ist plötzlich online gegangen und hat sich direkt an die Spitze der Rangliste gesetzt.
Diesmal setzt Nano Banana 2 auf „Schnelle Erfahrung“ + „Professionelle Bildqualität“. Der eigentliche Unterschied liegt jedoch in einer neuen Fähigkeit – „Echtzeit-Internetverbindung“.
Einfach ausgedrückt, ist dies kein Modell, das nur „malen kann“. Hinter ihm steht die gesamte Suchfähigkeit von Gemini, was einem Bildmodell gleichkommt, das mit einem „Gehirn“ ausgestattet ist, das Daten recherchieren kann.
Wenn das Modell verstehen, recherchieren und generieren kann, ist das Bild nicht nur „schön“, sondern entspricht eher der Informationsstruktur der realen Welt.
Beispielsweise ist die Detailtreue einer von einem Satz generierten Straßenansicht so hoch, dass man die Schilder vergrößern und lesen kann. Die Fernsehapparate, Straßenschilder und Schaufensterausstellungen im Hintergrund wirken wie echt fotografiert.
Oder lassen Sie „Holzlegeer“ Ihnen eine Zigarette reichen. Die Mimik des Charakters, die logische Körperhaltung und die Umgebungsbeleuchtung sind perfekt. Ohne Angabe wäre es schwer, auf den ersten Blick zu erkennen, dass es sich um ein künstlich intelligentes Bild handelt.
Holzlegeer hat selbst zugeschaut und auf den Spielmodus „Fenstersitz“ hingewiesen. Mit nur einem Satz können Sie präzise die Komposition aus einer „Fensterperspektive“ generieren, sei es die Nachtansicht einer lebhaften Stadt oder eine Hütte in den wilden Bergen. Jedes Bild basiert auf realen geografischen und meteorologischen Informationen und zeigt eindrucksvoll, wie mächtig die „Echtzeit-Internetverbindung“ ist.
Allerdings ist „gut malen können“ nur der erste Schritt. Noch wichtiger ist, dass es einen neuen Weg in Richtung „Informationsbildgenerierung“ eröffnet, was sehr praktisch ist.
Vor Kurzem war ein sehr beliebter Modelle-Witz im Umlauf:
Ich möchte mein Auto waschen. Die Autowäsche ist 50 Meter von mir entfernt. Soll ich zu Fuß gehen oder mit dem Auto fahren?
Viele Spitzenmodelle haben versagt und die Antwort „Zu Fuß gehen ist umweltfreundlicher“ gegeben. Wo liegt das Problem? Sie haben nur die Entfernung von „50 Metern“ analysiert, aber das Ziel des „Auto waschens“ ignoriert.
Google hat direkt ein Bild generiert, das die logischen Zusammenhänge zwischen „zu Fuß gehen“ und „mit dem Auto fahren“ vergleicht und die richtige Schlussfolgerung zieht. Dies zeigt sowohl die starke Denkfähigkeit von Gemini als auch die erstklassige Zeichnungsfähigkeit von Banana2. Die Nutzer sagen, dass dies eine stumme Schau der Stärke ist.
Nach Ansicht vieler Nutzer hat die Text-zu-Bild-Generierung einen weiteren Schritt nach vorne gemacht und die Kluft zur realen Welt geschlossen.
Einige Nutzer haben jedoch tiefe Sorgen geäußert. Wenn es immer schwieriger wird, zwischen realen und künstlich generierten Bildern zu unterscheiden, wird die künstliche Intelligenz-Fälschung nicht noch häufiger auftreten?
Als Antwort darauf hat Google das Konzept der „Herkunftsverfolgung“ vorgeschlagen. Der von Nano Banana 2 generierte Inhalt wird mit einem SynthID-Wasserzeichen versehen und in Verbindung mit dem C2PA-Inhaltsnachweissystem ausgestattet, um es für Plattformen einfacher zu machen, die Herkunft zu identifizieren.
Der Wettlauf im Bereich der Text-zu-Bild-Generierung ist derzeit sehr intensiv. In der autoritativen Bildmodellbewertung Artificial Analysis-Rangliste kann man sehen, dass zwei der Top-Drei-Positionen von der Nano Banana-Serie eingenommen werden. Nano Banana 2 führt mit der ersten Position in der Gesamtranking und der dritten Position in der Bildbearbeitungsfähigkeit an, wobei die Kosten nur die Hälfte der zweiten Position von OpenAI betragen. Es ist das „König der Kosteneffizienz“.
Aber wenn man sich die Punktzahlen ansieht, ist der Unterschied zwischen den Spitzenmodellen tatsächlich sehr gering. Die Branche befindet sich in einer Phase des harten Wettbewerbs.
Google hat letzten Monat bekannt gegeben, dass die monatlich aktiven Nutzer von Gemini-Anwendungen 650 Millionen erreicht haben. Die offiziellen Führungskräfte haben auch zugegeben, dass die „virale Verbreitung“ von Nano Banana einer der wichtigen Gründe für das Wachstum ist.
Der Wettbewerb im Bereich der Text-zu-Bild-Generierung ist nicht nur auf das Bild beschränkt, sondern auch auf die Geschwindigkeit, das Verständnis und die Ökosystemintegration.
Die Nutzer haben Spaß, was bringt die „Echtzeit-Internetverbindung“ für die Text-zu-Bild-Generierung?
Ob es funktioniert oder nicht, man muss es erst ausprobieren. Die Nutzer haben auf verschiedene Weise getestet.
Einige haben es verwendet, um ein Designkonzept für ein Armbandbild zu testen. Das Ergebnis hat ihn schockiert, und er hat ausgerufen: „Die Gestaltung ist tot.“
Einige sagen, dass es das beste Bildmodell der Welt ist, und die generierten Bilder sind so detailliert, dass man es kaum von realen Bildern unterscheiden kann.
Einige haben erstaunt festgestellt, dass die Texte auf jeder Karte im Bild genau stimmen.
Einige haben es einfach verwendet, um Grabsteine zu generieren. Es war schnell und gut, und das Ergebnis war beeindruckend.
Einige Nutzer meinen, dass die Kontrollierbarkeit von Nanana2 dieses Mal sehr stark ist. Die Details der Personen entsprechen den gewünschten Effekten und sind sehr realistisch.
Und unabhängig davon, wie sich die Personen verändern, verzerren sie sich nicht.
Der gesamte visuelle Effekt ist auch weniger „künstlich“.
Das Erstellen von Bilderbüchern ist auch kein Problem.
Es scheint, dass alle von Banana2 beeindruckt sind.
In vielen Tests interessiert man sich auch sehr für die Verbesserung der neuen Funktion „Echtzeit-Internetverbindung“. Was ist der Unterschied zwischen Bildern mit Echtzeit-Internetverbindung und herkömmlichen generierten Bildern? Wo liegt die Stärke und wie praktisch ist es?
Schauen wir uns zunächst das offizielle Beispiel an. Banana 2 hat ein schematisches Wasserzyklusbild im „Handwerkstil“ generiert: Baumwolle als Wolken, Papiere als Berge und Glasbecher als Meerwasser. Die Textur und die Details sind perfekt. Noch wichtiger ist, dass es nicht nur das Verständnis hat, sondern auch die vollständige Kette von Verdunstung, Kondensation, Niederschlag und Sammlung erklärt und alle Texteingaben korrekt sind. Die Zuordnung ist klar, und es gibt keine logischen Lücken.
Einige Nutzer haben es auch verwendet, um Kochrezepte zu erstellen. Das Ergebnis war ebenfalls beeindruckend: Das Layout, die Aufteilung und die Schrittstruktur sehen wie professionelle Designvorlagen aus. Sie sagt, dass die Leute die „Visualisierungsfähigkeit“ von Nano Banana 2 unterschätzen und dass dies die Branche der Informationsgrafiken revolutionieren wird.