Dieses Modell wird die Art und Weise, wie Menschen Informationen erhalten, revolutionieren.
Als Doktorand in Informatik und Produktmanager einer eigenen Technologieunternehmen habe ich festgestellt, dass ich gerne technische Fachartikel lese.
Die Fachartikel enthalten nicht nur Technologien, sondern auch vor allem fortschrittliche Algorithmen oder Systemarchitekturen, die schnell in bestehende Systeme integriert werden können, um Benutzerprobleme zu lösen, Effizienz und Benutzererfahrung zu verbessern und so einen kommerziellen Zyklus abzuschließen.
Letzte Woche hat beispielsweise ByteDance das neueste Modell Vidi2 aktualisiert. Kurz gesagt, kann dieses Modell Videos schnell analysieren. Das heißt, es kann jedes Einzelbild eines Videos interpretieren und entsprechende Daten liefern, ohne dass ein Mensch es anschauen muss.
Dieses Modell ist VIDI2
Als Produktmanager interessiere ich mich immer für revolutionäre Technologien. Vor allem während meines Promotionsstudiums hoffte ich, dass diese Forschungsprojekte als technische Barrieren für die industrielle Produktion dienen würden.
Fast revolutionäre Technologie: Veränderung der Art, wie Menschen Informationen erhalten
Wenn das Umwandeln von WeChat-Artikeln in Bilder oder Videos bereits die gängige Art der Inhaltserstellung ist, dann kann die Rückumwandlung von Videos in Texte die Effizienz der Informationsproduktion und die Fähigkeit der Menschen, Informationen zu suchen, erheblich verbessern.
Früher fragten wir uns, wohin eine Person gegangen ist. Heute entscheidet die Fähigkeit, Informationen zu erhalten und zu suchen, die Weltanschauung jedes Einzelnen.
Dieses Modell wird für neue Medienkreatoren und Social Media-Selbstständige fast revolutionär sein.
Meine bevorzugte Art, Informationen zu erhalten, sind heutzutage fast ausschließlich Videos. In einer Zeit, in der Kurzvideos und Langvideos die Hauptquelle für Informationen sind, lesen immer weniger Menschen Texte. Menschen neigen dazu, schneller und effizienter zu konsumieren, also im "Faulenzer-Modus".
Unterstützung von Suchfunktionen nach Video-Schlagworten
In Vidi2 kann man viele Aufgaben wie die Übersetzung von neuen Medienwerkzeugen, das Anpassen von Lehrvideos oder das Lernen von Robotern durchführen. Indem man die Geschichte und die Schritte eines Videos in Textform ausgibt und ein großes Modell die Aktionen im Video vergleicht und speichert, kann man die Konvergenz des Modells beschleunigen.
Beispielsweise kann ich in dem offiziellen Video oben alle Bilder und Frames mit Drachen auflisten, wenn ich danach suche. Wenn ich nach Videos mit Händen suche, werden auch diese angezeigt.
Akzeptable Effizienz für Benutzer: Von der Textsuche zur Videosuche
Mit der Basis-Technologie von Vidi2 kann man nun Videos suchen, anstatt nur nach Titeln zu suchen. Alle "Clickbait"-Titel für Videos werden sinnlos. Videos mit ansprechenden Covers, die aber über andere Themen handeln, verlieren ihre Wirkung.
Alles dreht sich um den Videoinhalt, und der Textinhalt in einem Video kann erklärt werden. Wenn man bedenkt, wie viel Inhalt es im Internet gibt, ist es sehr zeitaufwendig, alles selbst zu recherchieren. Vor allem bei der Überprüfung von Überwachungsvideos kann diese Technologie Zeit sparen und das gewünschte Video schnell finden.
Unterstützung der Bearbeitung von Videoelementen
Das Vidi2-Modell unterstützt nicht nur die Suche, sondern auch die Bearbeitung von Videos. Benutzer können die gesuchten Objekte ersetzen, um so das Video in ein anderes Bild zu verwandeln.
Das erinnert an den Science-Fiction-Film "Bloodshot" mit Vin Diesel. In dem Film nutzt ein Technologieunternehmen die Video-Editierungstechnologie, um die Gedächtnisvideos von Personen, einschließlich Objekten, Personen und Gesprächen, zu manipulieren und so den Hauptcharakter in eine Mordmaschine zu verwandeln.
Das obige Bild zeigt die Gedächtnisbearbeitung im Film. Das Gedächtnis ist ähnlich wie räumliche Intelligenz. Obwohl VIDI2 derzeit nur flache Videos unterstützt und keine räumlichen Videos, reicht es bereits aus, um die Informationsgewinnung nochmal zu vervielfachen. Die aktuelle Suchgeschwindigkeit ist fast brauchbar und weitaus besser als das Anschauen eines Kurzfilms, geschweige denn das Durchschauen eines Langfilms.
Das war die neue Technologie von Vidi2. Ich hoffe, dass Produktmanager darauf achten.
Das war's für heute bei der Präsentation.
Dieser Artikel stammt aus dem WeChat-Account "Kevin's kleine Schritte, die die Welt verändern" (ID: Kevingbsjddd), geschrieben von "Kevin's Geschichten". 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.