StartseiteArtikel

Google enthüllt erstmals das neue Gemini Omni. Die Videoversion des "Bananen"-Modells ist da. Der Professor rechnet auf der Tafel alle Formeln korrekt aus.

新智元2026-05-12 10:36
Heute wurde das native Videomodell von Google, Gemini Omni, unerwartet preisgegeben! Verschiedene beeindruckende Demo-Videos haben die Internetplattformen überschwemmt. Es zeigt einen Professor, der mathematische Formeln an der Tafel ableitet, und ermöglicht es, Videos mit nur einem Satz zu bearbeiten. Die nahtlose Leistung hat das Internet in Aufruhr versetzt.

Die Google I/O-Konferenz steht kurz bevor, und das native Gemini wird vorab enthüllt!

Heutzutage ist das Internet von diesem Video überschwemmt –

Ein Professor hält einen Vortrag auf der Bühne und leitet nebenbei Formeln an der Tafel her. Die Qualität und die Flüssigkeit sind einfach verblüffend.

Tatsächlich wurde dieses Video von dem "neuen Videomodell" Gemini Omni generiert, und die Kohärenz und Konsistenz sind top.

Einige Internetnutzer haben staunend kommentiert: "Das Video-Nano-Banana ist da!"

Andere haben gesagt, dass das Prinzip "Siehe und glaube" nicht mehr gilt.

Das native Gemini Omni wird erstmals enthüllt

Gestern ist ein Screenshot der Startseite der Gemini-Mobil-App aufgetaucht, und ein neuer Eingang für das Videomodell Gemini Omni ist online gegangen.

Im Interface steht deutlich geschrieben:

Lernen Sie unser neues Videogenerierungsmodell kennen. Schneiden Sie Ihre Videos neu zusammen, bearbeiten Sie sie direkt in der Konversation und probieren Sie Vorlagen aus.

Offensichtlich hat Google Gemini Omni in einer neuen Form gebracht!

Dies könnte ein ganzheitliches Gemini sein, das sowohl Text-, Bild-, Audio- als auch Videoeingaben und -ausgaben unterstützt.

Im Gegensatz zu Veo wird Omni wie Nano Banana tief in Gemini integriert und hat bessere Fähigkeiten zur Prompt-Verständnis und -Inferenz.

Insbesondere bei der Echtzeit-Video-Editierung kann man mit einem Klick Objekte ersetzen und Wasserzeichen entfernen.

Zur gleichen Zeit ist auch die ID des Omni-Modells bekannt geworden –

fbard_eac_video_generation_omni /bard/v3smm-lora-prod.goat-cr-rev6-xm171555416-at-1200

Offensichtlich unterstützt das von Omni generierte Video eine Länge von 10 Sekunden und eine Auflösung von 1280x720.

Was das Internet richtig in Aufruhr versetzt hat, sind einige vorab getestete Demos.

Der Professor leitet Formeln an der Tafel her, und das Internet ist schockiert

Das spektakulärste ist das Video am Anfang, in dem "ein Professor trigonometrische Identitäten an der Tafel herleitet".

Im Bild hält der Professor Kreide in der Hand und schreibt Schritt für Schritt einen mathematischen Beweis an der Tafel, während er gleichzeitig die aktuelle Herleitungsstufe mündlich erklärt.

Jemand, der sich auskennt, würde beim Ansehen dieses Videos direkt aufspringen. Wie schwierig ist es, in einem künstlich generierten Video mathematische Formeln richtig hinzuschreiben?

Textkonsistenz war immer die "Achillesferse" von Videogenerierungsmodellen.

Bisher sah der von Sora generierte Text oft wie Text aus, aber bei genauerem Hinsehen war es alles nur "unverständliche Zeichnungen", ganz zu schweigen von einer vollständigen mathematischen Herleitung.

Bei dieser Demo von Omni sind die Formeln richtig, die Herleitung ist kohärent und die Handschrift ist natürlich.

Noch schwieriger vorstellbar ist, dass diese beeindruckende Demo nur mit einem Hinweistext erstellt wurde –

A professor writes out a mathematical proof for trigonometric identities on a traditional chalkboard, explaining the step he is currently on in the equation.

Viele Menschen waren direkt überwältigt!

Es muss gesagt werden, dass die künstliche Videoerzeugung die "Unheimliche Zone" überschritten hat und offiziell in die Epoche der Hyperrealität eingetreten ist.

Einige Internetnutzer, die Zugang hatten, haben auch eine Reihe ähnlicher Videos erstellt, und alle sind hervorragend.

Das wirkliche Trumpfkarte: Echtzeit-Editierung

Die Stärke von Gemini Omni liegt nicht nur in der Generierung, sondern auch in der "Echtzeit-Editierung", die diesmal einen großen Sprung gemacht hat.

In der gefilterten Demo hat Omni beeindruckende Bearbeitungsfähigkeiten gezeigt –

  • Ein-Klick-Wasserzeichenentfernung: Omni kann direkt in der Konversation Wasserzeichen entfernen, und das Bild hat keine Spuren;
  • Objektersetzung: Mit einem Wort kann man Objekte im Video präzise ersetzen, und die Lichtverhältnisse und Überdeckungsverhältnisse werden automatisch angepasst;

Zum Beispiel kann man ein von Sora zuvor generiertes Video hochladen, und Gemini Omni kann direkt das Wasserzeichen entfernen.

Einige Leute haben gesagt, dass schon die Wasserzeichenentfernung allein dieses Tool zu einem Spielveränderer für kreative Menschen machen würde.

Darüber hinaus kann Gemini Omni auch stilisierte Ausgabe unterstützen.

Das folgende Anime-stilierte Video mit blauen Flammeneffekten und Kampfbewegungslinien sieht in jedem Frame aus wie von einem professionellen Animator gezeichnet.

Videoframe

Frühe Tests haben gezeigt, dass der Verbrauch von Gemini Omni sehr schnell ist.

Google kehrt zurück, aber Sora 2 wird geschlossen

Der Zeitpunkt der Enthüllung von Gemini Omni war "perfekt platziert".

Vor zwei Wochen – am 26. April – hat der Sora-App von OpenAI offiziell den Dienst beendet.

Dieser einst weltbekannte künstliche Video-Generator hat sein kurzes und dramatisches Leben beendet.

Wenn man sich die Gründe für den Tod von Sora anschaut, ist es eine kommerzielle Tragödie:

Die Kosten waren erstaunlich hoch. Es wird berichtet, dass die Inferenzkosten von Sora bis zu 1 bis 15 Millionen US-Dollar pro Tag betrugen. Die Videoerzeugung war um Größenordnungen teurer als die Text- und Bildgenerierung, und diese Kosten konnten nie gesenkt werden.