Das HeiMa Bildmodell wurde vom Technischen Leiter von Nano Banana gelobt. Eine chinesische Gruppe von 15 Personen wird von dem Vater von DDIM und dem Autor des besten Artikels von CVPR geleitet.
Es taucht ein neues Star im Bildbereich auf!
Gerade hat Luma AI ein neues Modell namens Uni-1 vorgestellt, das direkt mit Google's Nano Banana Pro und GPT Image 1.5 konkurriert.
Uni-1 ist ein einheitliches Modell für Bildverstehen und -generierung.
In den offiziellen Demonstrationen zeigt Uni-1 zahlreiche Fähigkeiten wie die Übertragung von Charakterhaltungen, die Generierung von Storyboards, die kombinierte Referenzgenerierung von Skizzen und Texturen, die Umwandlung von Skizzen in Comics, die Synthese von Szenen aus mehreren Referenzbildern, die Skizzen-gesteuerte Foto-Editierung, die Generierung von UV-Karten und die Erstellung von Grußkarten und Plakaten mit Text.
In mehreren autoritativen Task-Evaluierungen kann Uni-1 nicht nur mit Nano Banana Pro und GPT Image 1.5 mithalten, sondern zeigt in einigen Aufgaben sogar Weltspitzenleistungen.
Beispielsweise zeigt Uni-1 in folgendem Fall eine exzellente Detailtreue und übertrifft seine Konkurrenten in Bezug auf Stil-Konsistenz, Element-Integration und Detailwiedergabe.
Was noch überraschender ist, ist, dass Uni-1, das solche beeindruckenden Ergebnisse erzielt, nicht von einer großen Firma mit einem großen Team entwickelt wurde, sondern von einem chinesischen Forschungsteam mit weniger als 15 Mitgliedern.
Nach der Veröffentlichung von Uni-1 wurden zahlreiche positive Kommentare abgegeben. Selbst Oliver Wang, der Chefwissenschaftler von Google DeepMind und Technologieverantwortlicher des Nano Banana-Projekts, hat es gelobt:
Jim Fan, der Leiter des Robotikbereichs bei Nvidia, hat ebenfalls seine Glückwünsche ausgesprochen:
Wie beeindruckend sind die Ergebnisse von Uni-1? Keine weiteren Worte, schauen wir uns mehr Bilder an.
Mehrere kreative Szenarien freischalten
Neujahrsgrußkarte für das Jahr des Pferdes
Zuerst ein einfacher Test:
Generiere eine Neujahrsgrußkarte für das Jahr des Pferdes, die die chinesischen Wörter "Fröhliches Neues Jahr", "Glückliches Jahr des Pferdes und alles gelingt" und "Jahr des Pferdes 2026" enthalten soll.
Die von Uni-1 generierte Grußkarte hat eine vollständige Textausgabe und eine vernünftige Typografie. Das Pferd auf der Karte entspricht perfekt dem chinesischen traditionellen Schneebild-Stil. Im Vergleich dazu hat GPT Image 1.5 Textverwirrungen gezeigt, und Nano Banana Pro hat deutliche Mängel bei der Textwiedergabe.
Die Wiedergabe von chinesischen Texten ist immer eine "Prüfung" für Bildgenerierungsmodelle - Uni-1 hat hier eine überzeugende Leistung gezeigt.
Szenensynthese aus mehreren Referenzbildern
Gebe dem Modell 5 Referenzbilder - zwei Katzen, zwei Männer und das Logo von Luma AI - und fordere es auf, eine Sitzungsszene zu synthetisieren:
Eine Katze zeigt eine Luma AI -Präsentation, die andere Katze lauscht zu, während Fotos von Menschen und das Logo integriert werden.
Uni-1 hat die Identitätsmerkmale jedes Referenzbildes exakt wiedergegeben - die Fellfarbe und -muster der Katzen, die Gesichtszüge und Frisuren der Männer sowie die Details des Logos - und hat sie sinnvoll in die gleiche Szene integriert.
GPT Image 1.5 hat die Referenzbilder einfach auf die Folien "geklebt", und Nano Banana Pro hat es nicht einmal geschafft, die Referenzbilder vernünftig zu integrieren.
Informationsgrafik-Extraktion
Gebe dem Modell ein reales "THE BEES NEED YOU" -Wohltätigkeitsplakat von einer U-Bahn-Station und fordere es auf, eine direkt einsetzbare Informationsgrafik zu extrahieren - eine vollständige Grafik ohne Platzhalterrahmen und eine exakte Wiedergabe aller sichtbaren Texte in der Informationsgrafik.
Diese Aufgabe erfordert sowohl die "Seh-" als auch die "Zeichnungsfähigkeit":
Zuerst muss das Modell alle Informationshierarchien im realen Plakat verstehen, und dann muss es eine neue Informationsgrafik mit klarer Typografie generieren.
Uni-1 hat die vollständige Plakat-Layout, alle Texte, die richtige Farbgebung sowie die schwarzen Rasensilhouetten und das richtige Seitenverhältnis exakt wiedergegeben. GPT Image 1.5 hat teilweise falsche Textfarben, fehlende Texte am unteren Rand und Probleme mit den Wildblumensamen- und Bienen-Logos. Nano Banana Pro hat zwar ein akzeptables Gesamtlayout, aber auch fehlende Texte am unteren Rand.
Skizze in Comic umwandeln
Schauen wir uns nun die Generierungsfähigkeit an - eine grobe Skizze (eine Katze steht auf einem Bücherregal, und jemand sagt "Hey! Get down from there!") in einen professionellen Comic umwandeln.
Uni-1 hat die Skizzenidee perfekt in einen professionellen Comic umgewandelt: Die Rasterung, die Position und Richtung der Sprechblasen sind exakt wiedergegeben, und alle Details sind vollständig erhalten - die Katzenohren, der aufgestellte Schwanz, der Zigarettenbecher, die Bücher auf dem Regal und sogar das Handybildschirm mit der Anzeige von 911.
Ein Leben vor dem Klavier: 6-Frame Storyboard
Das folgende Beispiel ist vielleicht eines der besten, um die Stärke von Uni-1 zu demonstrieren.
Forderung: Generiere ein 6-Frame Storyboard, das das Leben eines Charakters von der Kindheit bis ins Alter vor dem Klavier zeigt. Ein Mensch entwickelt sich von einem Jungen über einen Jugendlichen, einen jungen Mann, einen Mittelaltrigen bis hin zu einem alten Mann, und am Ende ist es ein Gruppenfoto der ganzen Familie auf der Bühne.
In den 6 Bildern bleibt die Identität des Charakters konsistent - dasselbe Gesicht, dasselbe Klavier, dieselbe Perspektive und derselbe Stil, nur die Figur und der Hintergrund ändern sich mit der Zeit. Diese inter-frame Charakter-Konsistenz und Zeit-Narration ist eines der Kernprobleme aktueller Bildmodelle.
UV-Karten-Generierung
Gebe dem Modell drei Fotos eines Menschen, die aus verschiedenen Winkeln (Front, links, rechts) aufgenommen wurden, und fordere es auf, eine standardisierte, entfaltete UV-Karte der Gesichtstopologie zu generieren.
UV-Karten sind ein Kernschritt in der 3D-Modellierung und erfordern eine hohe Genauigkeit bei der Gesichtsanpassung, der Links-Rechts-Symmetrie und der Hautfarben-Konsistenz.
Die von Uni-1 generierten UV-Karten übertreffen in diesen drei Dimensionen deutlich GPT Image 1.5 und Nano Banana Pro:
Bei GPT Image 1.5 gibt es Inkonsistenzen zwischen der Front- und der Seitenansicht der UV-Karte, und Nano Banana Pro hat es überhaupt nicht geschafft, ein Ergebnis zu generieren, das den Standard-UV-Layout-Regeln entspricht.
Dass Uni-1 diese professionellen 3D-Aufgaben bewältigen kann, zeigt, dass es nicht nur "schöne Bilder zeichnen" kann, sondern tatsächlich ein tiefes Verständnis für die dreidimensionale Raumstruktur hat.
Warum können weniger als 15 Leute das?
Nachdem Sie die Ergebnisse gesehen haben, fragen Sie sich vielleicht: Wie konnten diese Ergebnisse, die normalerweise nur von großen Firmen erzielt werden, von einem Team mit weniger als 15 Mitgliedern erreicht werden?
Die Antwort mag in den beiden Forschungsleitern dieses Teams liegen.
Jiaming Song hat an der Tsinghua-Universität studiert und an der Stanford-Universität promoviert.
Sein bekanntester Beitrag ist die Erfindung von DDIM (Denoising Diffusion Implicit Models). Wenn Sie jemals ein Bildgenerierungstool auf Basis von Diffusionsmodellen wie Stable Diffusion oder DALL·E verwendet haben, ist es fast sicher, dass die Sampling-Beschleunigungstechnologie von DDIM dahintersteckt.
Dieser Artikel wurde bisher über 10.000 Mal zitiert und erhielt den ICLR 2022 Outstanding Paper Award.
Botao Shen hat sowohl sein Bachelor- als auch sein Promotionsstudium an der Stanford-Universität absolviert.
Seine Arbeit erhielt den CVPR 2018 Best Paper Award - CVPR ist eine Spitzenkonferenz auf dem Gebiet der Computervision, und nur sehr wenige Artikel erhalten jedes Jahr diesen Preis. Darüber hinaus wurde er als Finalist für den RSS 2022 Best Student Paper Award nominiert.
Der eine ist der Begründer der Beschleunigung von Diffusionsmodellen, der andere ist ein Spitzenforscher auf dem Gebiet der Computervision - diese beiden chinesischen Wissenschaftler haben zusammen ein kleines, aber starkes Team geführt und sich für einen anderen Weg entschieden als die großen Firmen:
Anstatt Bildverstehen und -generierung getrennt zu