StartseiteArtikel

Die Gründe, warum Baidu Sora nicht macht, wurden von Robin Li klar erläutert.

周鑫雨2024-11-12 13:03
李彦宏:Multimodale Modelle werden derzeit nicht im großen Maßstab eingesetzt, da das Problem der Halluzinationen noch nicht gelöst ist.

Text|Zhou Xinyu

Bearbeitung|Su Jianxun

Auf der Baidu Weltkonferenz 2024 am 12. November wurde das Thema "Was ist eine wertvolle KI-Anwendung" diskutiert.

Robin Li, der Gründer, Vorsitzender und CEO der Baidu-Gruppe, erwähnte, dass das Thema der Konferenz "Die Anwendung ist da" lautet, was Baidus Erkenntnisse und Einschätzungen zur aktuellen Ära von großen Modellen und generativer künstlicher Intelligenz widerspiegelt.

△ Änderung des durchschnittlichen täglichen Aufrufvolumens des Wenxin großen Modells.

Derzeit übersteigt das durchschnittliche tägliche Aufrufvolumen des Wenxin großen Modells 1,5 Milliarden. Robin Li ist der Meinung, dass ein 10-facher Anstieg des Aufrufvolumens innerhalb eines Jahres darauf hinweist, dass tatsächlich eine Marktnachfrage besteht. Er erwähnte, dass das Aufrufvolumen von Wenxin innerhalb eines halben Jahres fast das Zehnfache gestiegen ist.

Während der Konferenz erwähnte Robin Li einige Übereinstimmungen:

Erstens, die verstärkte Suche (RAG) ist in der Branche allgemein anerkannt, da die Beseitigung von "Illusionen" notwendig ist, um Modelle in die Praxis umzusetzen. Li glaubt, dass das größte Merkmal der Veränderung der letzten 24 Monate in der Modellindustrie darin besteht, dass "Illusionen" im Wesentlichen beseitigt wurden.

Zweitens, Smarte Agenten sind die vorherrschendste Form von KI-Anwendungen und dienen als neue Medien für Inhalte, Informationen und Dienstleistungen im KI-Originalzeitalter.

"Smarte Agenten" waren zweifellos der am häufigsten verwendete Begriff auf der Weltkonferenz. Robin Li verglich smarte Agenten mit Webseiten im PC-Zeitalter und sozialen Medien im mobilen Zeitalter, wobei der Unterschied darin besteht, dass smarte Agenten menschenähnlicher und intelligenter sind.

Er erwähnte vier Anwendungsbereiche für smarte Agenten: Unternehmensbezogen (z.B. Verkaufskundendienst), Rollenbezogen (z.B. digitale Personenübertragung), Werkzeugbezogen (z.B. intelligente Generierung von Branchenberichten), Branchenbezogen.

Der kommerzielle Wert von Technologie war ebenfalls ein häufig angesprochenes Thema in Li's Rede.

Zum Beispiel sieht er den kommerziellen Wert von iRAG darin, illusionfrei, super realistisch, kostenfrei und sofort verfügbar zu sein.

△ Rede von Robin Li

Insbesondere bei der Einführung des No-Code-Entwicklungstools "Miao Da" glaubt Robin Li, dass der Produktwert darin liegt, die Produktivität unendlich zu erweitern. In seinen Worten handelt es sich um "ein noch nie dagewesenes Zeitalter, in dem man allein durch Ideen Geld verdienen kann."

In Bezug auf die Umsetzung in der Industrie erwähnte Robin Li, dass der Wert, den große Modelle der Industrie bringen, in zwei Bereichen liegt: Kostensenkung und Effizienzsteigerung.

Derzeit hat die Baidu Smart Cloud Qianfan große Modellplattform 33.000 Modelle fein abgestimmt und 770.000 Unternehmensanwendungen entwickelt, von denen mehr als die Hälfte staatliche Unternehmen sind.

Baidu Bibliothek und Netzlaufwerk wurden integriert

Während einer Architekturänderung im September 2024 kehrte das Baidu Netzlaufwerk in die MEG zurück und wurde der Baidu Bibliothek BU zugeordnet — dies legte den Grundstein für die Integration der Ökosysteme dieser beiden Content-Tool-Anwendungen.

Aus der Sicht von Baidu Vice President, Baidu Bibliothek und Netzlaufwerk Chef Wang Ying, hatten die Nutzer der Bibliothek und des Netzlaufwerks zuvor folgende zwei Schmerzpunkte:

Einerseits konnten verschiedene Formen, Kategorien und Formate von Materialien nicht auf einer Plattform bearbeitet werden und konnten auch nicht in beliebige Formen und Formate von Inhalten umgewandelt werden;

Andererseits wurden öffentliche Wissensinhalte in der Bibliothek und privates Wissen im Netzlaufwerk getrennt gespeichert, was eine Zusammenarbeit zur Bildung eines vollständigen Wissens unterband.

Die Einführung der "Free Canvas" Funktion in der Baidu Bibliothek war somit die Brücke zur Verbindung der Bibliotheks- und Netzlaufwerkinhalte. In den Augen von Robin Li ist die Free Canvas im Wesentlichen ein Werkzeugtyp smarter Agent.

Wie ein intelligentes Weißbrett können Benutzer durch Anwählen, Sprechen und Markieren Inhalte, die in der Bibliothek und im Netzlaufwerk bearbeitet werden müssen, frei auswählen und kombinieren.

Basierend auf der MoE (Mixture of Experts) Architektur und multimodalen Modellen im Hintergrund kann Free Canvas die Verarbeitung über Modus hinweg unterstützen, von Text, Bild bis hin zu Video, und schließlich können auch über Modus hinweg Inhalte generiert werden.

Und diese durch Free Canvas generierten multimodalen Inhalte sind kompatibel mit den Bild+Text-, Video+Textinhalt-Ökosystemen von WeChat Moments und Xiaohongshu und können auch professionelle Inhalte wie Berichtserstellungen mit Diagrammen generieren.

△ Free Canvas hat auf Anfrage einen modernen Abenteuerroman, Comic und Video über Sun Wukong erstellt.

Angesichts der gegenwärtigen Herausforderung von KI-Werkzeugen, ein Monetarisierungsmodell zu finden, sieht Wang Ying jedoch eine angeborene Übereinstimmung des Geschäftsmodells von Netzlaufwerk und Bibliothek mit großen Modellprodukten.

Sie sagte gegenüber "Intelligente Emergenz", dass das Gebührenmodell von Bibliothek und Netzlaufwerk im Wesentlichen darauf beruht, Gewinne mit den Nutzern zu teilen, indem das Produkt den Nutzern Wert bringt und ihnen hilft, Geld zu verdienen, um die Nutzertreue und die Zahlungsbereitschaft zu erhöhen.

KI-Fähigkeiten können die Grenzen der Produktfunktionen erweitern, die Vielfalt der Produktkombinationen erhöhen, den Nutzern mehr Vorteile bringen und so die Zahlungsbereitschaft steigern.“ sagte Wang Ying gegenüber "Intelligente Emergenz".

Bevor Sora erstellt wird, "Illusionen" lösen

Trotz der positiven Ergebnisse bei der Integration von Text- und RAG (Retrieval-Augmented Generation) Technologie, erwähnte Robin Li auch, dass die Integration von Bild- und RAG-Technologie noch weit hinterherhinkt.

Multimodale Modelle werden derzeit nicht in großem Umfang angewendet, da das Illusionsproblem noch nicht gelöst ist.“ sagte Robin Li in seiner Rede.

Diese Erkenntnis bestimmt auch Baidus Haltung gegenüber Sora. Li erwähnte, dass Baidu nicht Sora gefolgt ist, sondern damit begonnen hat, das Illusionsproblem im Multimodalen zu lösen.

Auf der Konferenz stellte Baidu iRAG vor, eine Technik, die auf Retrieval-Augmented Generation basiert. Laut Robin Li kann iRAG den "maschinellen Geschmack" bei der Erstellung von Bildern beseitigen.

△ Bild, das mit iRAG generiert wurde.

Baidu-CTO Wang Haifeng stellte auf der Konferenz die technische Struktur von iRAG vor, um kontrolliertes Bild-Rendering zu erreichen:

Zunächst analysiert und versteht das große Modell die Bedürfnisse der Benutzer und plant automatisch präzise oder verallgemeinerte Lösungen, z.B. welche Entitäten verstärkt werden sollten;

Dann werden in der Verstärkungsphase die zu verstärkenden Entitäten durchsucht und die entsprechenden Referenzen ausgewählt;

Schließlich hat Baidu in der Erstellungsphase eine eigene Multimodale Technik für kontrolliertes Bild-Rendering entwickelt. Einerseits ermöglicht es die lokale Aufmerksamkeit des großen Modells, eine hohe Verallgemeinerung in der Bildgenerierung zu erreichen, während die Entitätseigenschaften beibehalten werden; andererseits ermöglicht es die gesamte Aufmerksamkeitsberechnung, eine hohe Präzision in der Bildgenerierung zu erreichen.

Xiaodu hat eine AI-Brille entwickelt

Xiaodu, das 2023 ein neues Gehirn in Form von großen Modellen erhielt, stellte diesmal nicht nur einen Lautsprecher vor, sondern auch die erste Brille von Baidu: die Xiaodu AI-Brille.

△ Xiaodu AI-Brille.

Die Brille wiegt nur 45g, weniger als der Branchendurchschnitt von 49g. Um die Bildqualität zu verbessern, ist sie mit einer 16-Megapixel-Ultraweitwinkelkamera und einem KI-Stabilisierungsalgorithmus ausgestattet; um die Spracherkennungsgenauigkeit zu erhöhen und Audio-Lecks zu reduzieren, ist die Brille mit einem Vier-Mikrofon-System und offenen Anti-Leck-Lautsprechern ausgestattet.

In Bezug auf Ausdauer kann die Xiaodu AI-Brille in 30 Minuten vollständig aufgeladen werden, bietet 56 Stunden Standby-Zeit und ermöglicht über 5 Stunden kontinuierliches Zuhören. Diese drei Werte übersteigen den Industriestandard.

Der Unterschied der Xiaodu AI-Brille zu normalen Brillen liegt jedoch in der "KI".

Auf Basis des Wenxin großen Modells und des DuerOS AI-Ursprungsbetriebssystems kann Xiaodu AI Funktionen wie First-Person-Aufnahmen, Frage-und-Antwort während des Gehens, Objekterkundungs-Enzyklopädie, Audio-Visuelle Übersetzung, intelligente Erinnerungen, Wiedergabelisten und mehr bieten.

Laut Li Ying, Vice President der Baidu-Gruppe und CEO von Xiaodu Technology, wird die Xiaodu AI-Brille in der ersten Hälfte des Jahres 2025 auf den Markt kommen.

Ein No-Code-Entwicklungstool ist wie ein Smart-Agent-Team

Auf der Konferenz hat Baidu auch "Miao Da" offiziell vorgestellt, eine No-Code-Anwendungsentwicklungsplattform, die im ersten Quartal 2025 an den Start gehen wird.

Im Vergleich zu anderen No-Code-Entwicklungsplattformen zeichnet sich Miao Da dadurch aus, dass die Entwicklungsprozesse durch die Zusammenarbeit mehrerer smarter Agenten durchgeführt werden.

△ "Miao Da".

In der Praxis, während der Erstellung einer Webseite, wird der Code der Webseite von einem Programmierer-Agenten geschrieben und bereitgestellt, der Text auf der Webseite wird von einem Schreib-Agenten erstellt, die neuesten Daten im Text werden von einem Such-Roboter online recherchiert, und die Illustrationen werden von einem Agenten, der sich auf die Bildgenerierung spezialisiert hat, erstellt.

Am Ende nutzt der Qualitätsprüfer-Agent seine Reflexionsfähigkeiten, um den Testcode auszuführen, um Bugs zu finden, und arbeitet mit dem Programmierer-Agenten zusammen, um Anpassungen vorzunehmen.

Die Zusammenarbeit von mehreren Agenten wurde nicht nur für "Miao Da" für unerfahrene Entwickler eingesetzt, sondern auch für professionelle Entwickler in der "Wenxin Fast Code" Plattform Comate.

Wang Haifeng erklärte, dass Comate bereits auf Version 3.0 aktualisiert wurde. Während des gesamten Entwicklungsprozesses können verschiedene Agenten in Comate 3.0 automatische Code-Qualitätssicherung, Code-Vervollständigung und andere Funktionen durchführen, mit dem Ziel, die Arbeitsqualität und Effizienz der Programmierer zu verbessern und sie dazu zu bringen, mehr Energie in die Erforschung und Innovation zu investieren.

Willkommen zum Austausch!