StartseiteArtikel

Li Yanhongs interne Rede: "Wen Xiaoyan" muss nicht so aggressiv wie Doubao oder Kimi beworben werden | Exklusiv von 36Kr

周鑫雨2024-10-17 11:13
Wie sehen die Formen von KI und Suche aus? Wie kann man Dong Yuhui replizieren? Wie kann man dafür sorgen, dass Modelle geschäftlichen Mehrwert schaffen? – Diese fast zehntausend Wörter umfassende Mitschrift ist die neueste Überlegung von Robin Li bezüglich KI.

Text|Zhou Xinyu

Bearbeitung|Su Jianxun, Yang Xuan

Exklusiv von „Intelligente Erscheinungen“ erfahren wir, dass Baidu kürzlich die dritte Quartalsdirektorenkonferenz 2024 einberufen hat, an der der Gründer, Vorstandsvorsitzende und CEO der Baidu Group, Li Yanhong, sowie interne Manager von Baidu auf Direktorsebene teilnahmen.

Das dritte Quartal wird auch als strategisches Quartal von Baidu bezeichnet. In Lis fast zehntausend Wörter umfassender Rede ging es wieder um KI. Er erwähnte verschiedene Geschäftsstrategien, die sich um KI drehten, wie Suche, digitale Menschen, intelligente Agenten, Großmodellaufrufe, Roboota und mehr.

Darüber hinaus ist es in der jetzigen Zeit des knappen Angebots an KI-Ressourcen und der noch frühen Inzidenzphase wichtig, dass Baidu Strategien zur Entwicklung der Geschäftsaktivitäten priorisiert. Zum Beispiel bemerkte Li, dass Baidu keine Sora-ähnlichen Videos produziert, da diese „in 10, 20 Jahren möglicherweise nicht kommerziell umsetzbar sind“.

Er wies auch darauf hin, dass das B2B-Geschäft sich von schwierigen Projekte fernhalten sollte und möglichst standardisierte Produkte herausbringen sollte. Die neue Suchanwendung „Wen Xiaoyan“ für Verbraucher (ToC), die nach einer Umbenennung von Wenxinyiyan gestartet wurde, wird im Marketing nicht so aggressiv sein wie Doubao von ByteDance oder Kimi von Dark Side of the Moon.

Hier ist eine Zusammenstellung und Zusammenfassung der Rede von Li Yanhong bei der Baidu-Direktorenkonferenz im dritten Quartal 2024 durch „Intelligente Erscheinungen“:

Suche: Intelligente Agenten sind die Richtung zur Kombination von Suche und Großmodellen

Li Yanhong ist der Ansicht, dass der Fortschritt beim Suchneubau relativ langsam ist, er jedoch Verständnis für die lange historische Entwicklung dieses Geschäfts und die Herausforderung, die Denkweise der Mitarbeiter schnell zu ändern, zeigt.

Derzeit sieht er die Verbindung von Suche und Großmodellen hauptsächlich in intelligenten Agenten. Seiner Meinung nach sind intelligente Agenten noch kein Konsens in der Industrie, sondern lediglich eine Wette von Baidu, „wir glauben, dass intelligente Agenten künftig neue Träger für Inhalte, Dienstleistungen und Informationen sein werden, möglicherweise sogar die Hauptträger.“

Basierend auf dieser Annahme denkt Li, dass intelligente Agenten wie auch zuvor Videostreams oder Textbildströme auf ähnliche Probleme stoßen werden: Wie verbreitest du sie?

Als Lösung sieht er die Suche weiterhin als Hauptkanal, „da die Form der intelligenten Agenten ein Dialogfluss ist. Mit einem Wischen nach oben und unten kann man einfach keine Kombination und Interaktion mit einem intelligenten Agenten erreichen.”

Zur Entwicklung von intelligenten Agenten prognostiziert Li, dass mit zunehmender Stärke der Basismodelle die Zugangsschwelle für intelligente Agenten sinken wird; gleichzeitig könnten intelligente Agenten die Decke sehr hoch ziehen, da Technologien wie Selbstreflexion, Evolution und Werkzeugnutzung von intelligenten Agenten noch sehr im Anfangsstadium sind und man derzeit noch keine Praxisumsetzung in der Industrie sieht.

Er meint daher, wenn man in verschiedene Szenarien eintaucht, gibt es noch viele Dinge, die intelligente Agenten aufbauen können, es bleibt Raum für Vorstellungskraft.

Li erwähnt, dass intelligente Agenten bereits ihren kommerziellen Wert vorläufig unter Beweis gestellt haben: „Heute haben wir Zehntausende von Werbekunden, von denen Tausende bereits versuchen, intelligente kommerzielle Agenten zu integrieren, um die Werbewirkung zu steigern und die Konversionsrate zu verbessern, und sie sind bereit, echtes Geld dafür zu zahlen.”

Basierend auf diesem neuen Verständnis von Suche glaubt Li, dass der Wiederaufbau und die Neuausrichtung der Suche in zwei Schritte unterteilt werden sollte:

  • Fusion von Suche und Empfehlungsplattform:

Änderungen in der Suche sollen nicht nur den Einfluss auf die Kernmetrics im Suchkontext berücksichtigen, sondern auch auf die Metrics für Feeds.

Leere Boxen mit Empfehlungen (z.B. voreingestellte Wörter und Sätze in der Baidu-Suchbox) sind im Grunde Empfehlungen, denn die Wörter werden nicht vom Nutzer eingegeben; nur durch Empfehlungen kann es richtig gemacht werden.

  • KI muss mit dem mobilen Ökosystem zusammengeführt werden:

KI muss weiter in das mobile Ökosystem integriert werden, etwa wie die Kombination von Bildbenutzeroberflächen und natürlicher Sprachbenutzeroberflächen auf natürliche Weise erfolgen kann, was ein zukünftiges Paradigma der Suchentwicklung sein wird.

Digitale Menschen: Die zukünftige Hauptrichtung ist die Interaktion zwischen echten und virtuellen Menschen

Li Yanhong sieht die Hauptinteraktionsform im PC- und mobilen Internetzeitalter als die Interaktion zwischen echten Menschen, das bekannteste Beispiel ist WeChat.

„Wir können uns kaum vorstellen, was für einen praktischen Wert die Interaktion zwischen virtuellen Menschen haben kann“, bemerkt Li, „daher sehe ich den Wert weiterhin in der Interaktion zwischen echten und virtuellen Menschen.

Dennoch räumt er ein, dass die Anwendungsfälle für die Interaktion zwischen echten und virtuellen Menschen herauszufinden sind, und dieser Prozess wird mit Schmerzen verbunden sein – seit Anfang dieses Jahres kämpft Baidu mit solchen Schmerzen, weil die Wirkung von virtuellen Menschen nicht so gut war, und ein forcierter Schub nach oben würde die Benutzererfahrung beeinträchtigen.

Li bleibt jedoch optimistisch, dass technische Fortschritte einen Produktfortschritt erzwingen werden, und dass die Interaktionserfahrung zwischen virtuellen Menschen und echten Personen in Zukunft möglicherweise sogar die zwischen zwei echten Personen übertreffen könnte.

Bezogen auf die konkreten Umsetzungsbereiche für virtuelle Menschen erwähnte Li das Live-Streaming. Er hält Livestreaming im E-Commerce dieses Jahr für eine sehr weit verbreitete Produktform und denkt über die Eigenschaften und Fähigkeiten von Stars wie Dong Yuhui und Simba nach und ob diese von digitalen Menschen kopiert werden könnten, „es gibt immer noch Raum für Vorstellungskraft“. li text Seite hauptsächlichen Aufbau potential festhalten klein schwer Triangulation Function-Navigation Referenzen.

Li nannte ein Szenario, das realisierbar ist: Ein großer Teil der Baidu E-Commerce-Livestreams wird bereits von digitalen Menschen durchgeführt, und die Skripte werden vollständig von KI generiert. In der Realität gibt es viele lange Daten, die sich echte Gastgeber möglicherweise nicht vollständig merken können, aber virtuelle Menschen haben kein Problem damit, sich diese zu merken, und können es sogar besser als echte Menschen.

Neben der KI-gesteuerten Skripterstellung sieht Li die Interaktion als ein weiteres wichtiges Anwendungsszenario an, selbst wenn es für digitale Menschen immer noch schwierig ist.

In Bezug auf virtuelle Menschen sieht Li noch mehr Produktformen. Neben Livestreaming gibt es auch Videos. Er erwähnte, dass digitale Menschen im Livestreaming die Fähigkeiten echter Menschen im Video nachahmen sollten, nicht die im Livestreaming, weil digitale Menschen theoretisch umfangreich trainiert wurden, ähnlich wie viele hochwertige Mainstream-Videos, die mehrfach durch Überarbeitung und Neuaufnahme gegangen sind.

Intelligente Agenten: In Zukunft werden mehr synthetische Daten für das Training genutzt

Li sieht digitale Live-Stream-Menschen und intelligente Agenten als eng miteinander verbunden, da digitale Live-Stream-Menschen ihre eigenen Wissensdatenbanken und Arbeitsabläufe haben – diese Grundelemente. Wenn sich intelligente Agenten und multimodale Technologien verbinden, könnte dies die Evolution digitaler Menschen in der Zukunft darstellen.

Er berichtete, dass Baidu ab dem 4. Quartal 2023 begonnen hat, Wert auf die technologische Entwicklung intelligenter Agenten zu legen und dieses Feld in diesem Jahr besonders heiß geworden ist. Er beobachtete, dass das o1-Modell von OpenAI auf Reinforcement Learning basiert und die Erwartungen von OpenAI an intelligente Agenten repräsentiert, wobei das Trainingsparadigma von Transformer zu Reinforcement Learning zurückkehrt, was die Notwendigkeit eines gut gestalteten Belohnungsmodells zeigt.

Die Kritik an der Scaling Law wird lauter, aber Li hält den chinesischen Markt für wertvolle Daten, die beim Training tatsächlich noch nicht genutzt wurden, zum Beispiel livestream- und multimodalbezogene Daten.

Er ist der Ansicht, dass sowohl Reinforcement Learning als auch Scaling Law mit den gleichen Herausforderungen in Bezug auf Rechenleistung und Daten konfrontiert sind, dass in Zukunft mehr Trainingsdaten durch synthetische Daten ergänzt werden müssen, die auf einem genauen Verständnis der Technologie oder der Szenarien basieren.

Li prognostiziert, dass intelligente Agenten die Arbeitsproduktivität der Menschen erheblich steigern können, jedoch muss noch viel getan werden, um das Potenzial der intelligenten Agenten zu entfalten. Im März 2023 sagte Li, dass 50 % der menschlichen Arbeiten letztlich auf Prompt Engineering hinauslaufen. Heute vertritt er weiterhin diese Ansicht. Das Verfeinern von Prompts ist eine der Techniken, um das Potenzial der intelligenten Agenten auszuschöpfen.

Weiterhin hebt Li die Bedeutung eines Konzepts namens „Workflow“ im Kontext der intelligenten Agenten hervor. Ein Workflow ist im Grunde ein „Erfolgsrezept“, das durch Dekompositionen in einen Arbeitsablauf verwandelt wird und in Zukunft von AI und Maschinen automatisiert werden kann.

„Heute ist die Mehrheit der Methodologien weltweit immer noch nicht digitalisiert.“ Li sieht darin noch großes Potenzial für Wertschöpfung.

Nutzung von Großmodellen: AGI ist das langfristige Ziel von Baidu

Li Yanhong erwähnt, dass es jetzt einige neue Konsensvorstellungen zur Nutzung von Großmodellen gibt, wie die bessere Leistungsfähigkeit kleiner Modelle, die aus Großmodellen destilliert wurden, im Vergleich zu kleinen Modellen, die von Grund auf trainiert wurden.

Derzeit konzentriert sich Li stark auf API-Aufrufmengen, da eine höhere Aufrufmenge mehr Feedback liefert und somit die Fähigkeit der Basismodelle verbessert sowie die Anerkennung der Marktfähigkeit von Baidus Basismodellen widerspiegelt.

Zugleich gibt es laut Li einige unkonventionelle Urteile:

  • Die Qualität der API-Aufrufe ist wichtiger als die Datenmenge. Eine ausschließliche Betonung der Aufrufmenge könnte zu Betrug führen;

  • Die Gesamtleistung von Großmodellen übertrifft immer noch die kleiner optimierter Modelle. Wenn hohe Anforderungen an Reaktionszeit und Inferenzkosten bestehen, könnte ein optimiertes kleines Modell besser geeignet sein; wenn jedoch keine Zeitempfindlichkeit besteht und hohe Leistung gefordert ist, sollte ein Großmodell bevorzugt werden.

Er betont auch, dass AGI das langfristige Ziel von Baidu ist. Li glaubt, dass AGI nicht innerhalb von sechs Monaten oder einem Jahr erreicht werden kann.

Deshalb muss Baidu im Entwicklungsprozess seine Prioritäten setzen. Li denkt, dass Großmodelle kurzfristig optimiert werden sollten, um spezielle Szenarien zu bedienen, und er strebt nicht danach, ein einheitliches, allgemeines Großmodell zu erhalten, das auf Ranglisten platziert ist, sondern möchte sehen, ob Baidus Modell in Anwendungsszenarien Konkurrenzprodukte übertroffen hat, um wirklich besser und effizienter als menschliche Leistungen zu sein.

Für die Form der Teamorganisation meint Li, dass Baidu intern und extern zusammenarbeiten muss, zum Beispiel durch das Teilen von Forschungsressourcen und die gemeinsame Übernahme von Entwicklungskosten, sowie die Konzentration auf die Kernszenerien, die Baidu ausgewählt hat, und nicht auf ein vollständig allgemeines und leistungsstarkes Modell.

Roboot: Der Datenkreislauf sollte so einfach wie möglich sein

Li Yanhong hält Roboota inzwischen für weltweit führend.

Er merkt an, dass die sogenannte L4-Technologieroute immer noch Debatten aufwirft: Eine Route, für die sich Tesla ausnahmslos mit seiner end-to-end reinen visuellen Lösung einsetzt, und eine andere, regelbasierte Route. Seiner Meinung nach haben beide Routen ihre Gültigkeit, entscheidend ist, wer die L4 zuerst erfolgreich umsetzt.

Zum Beispiel, wenn man sich ansieht, ob Teslas Lösung heute vollständig autonomes Fahren in Wuhan umsetzen kann oder in zwei bis drei Jahren das geschichtete end-to-end übertreffen kann. Li glaubt, dass dies in 20 bis 30 Jahren möglich sein wird, die entscheidende Wendepunktfrage bestimmt jedoch die heutige Wahl der Technologieroute für Baidu, um dieses Problem zu lösen.

Zu der Diskussion über das Thema Roboota, das bis Juli 2024 menschliche Fahrer ersetzt, teilt Li zwei Gedanken:

  • Die industrielle Revolution in der Geschichte hat immer den härtesten Jobs auf der Basisebene geebnet und gleichzeitig komfortablere und elegantere Arbeitsplätze geschaffen. Zum Beispiel gibt es heute keine Sänftenträger oder Kutscher mehr.

Li ist der Ansicht, dass Innovation darauf abzielt, die mühseligsten Jobs zu ersetzen und die Arbeitskraft auf weniger mühevolle Aufgaben umzulesen. Technologischer Fortschritt ist insgesamt eher eine positive Entwicklung.

  • In der Ära der künstlichen Intelligenz und der durch AI und große Modelle geschaffenen Chancen sollten auch Chancen für organisatorische und prozessbezogene Innovationen enthalten sein.

Li glaubt, dass der Datenkreislauf eine notwendige und ausreichende Bedingung für den Erfolg nativer AI-Anwendungen ist, er merkt jedoch an, dass viele Aspekte noch unklar sind:

Zum Beispiel sollte der Datenkreislauf auf domänenspezifischem Fachwissen oder Daten basieren, aber Geschäftsprozesse produzieren möglicherweise nicht wirklich ständig mehr Wissen und Daten in diesem Bereich. Bewusstes Handeln in dieser Hinsicht sei noch nicht stark ausgeprägt.

Darüber hinaus glaubt er, dass der Datenkreislauf so einfach wie möglich sein sollte. Je mehr Knoten vorhanden sind, desto langsamer und komplizierter dreht sich der Kreislauf, und die Größe jedes Kreislaufs ist ohnehin nicht groß. Li hofft daher, dass weniger mehr ist, Einfachheit ist Komplexität.

Ressourcenverteilung: Das Basismodell muss mindestens eine halbe Generation voraus sein

Li Yanhong ist der Ansicht, dass Baidus Ressourcen derzeit hauptsächlich darauf konzentriert sind, starke Seiten noch weiter zu stärken. Beispielsweise ist der Punkt für die Fokussierung auf Schwachpunkte dann erreicht, wenn die Schwachpunkte nicht beseitigt werden und die Stärken nicht realisierbar sind.

In seiner Ansicht sind Baidus aktuelle Ressourcenverteilungsschwerpunkte folgende:

  • Das Basismodell muss mindestens eine halbe Generation in China seinen Mitbewerbern voraus sein. Baidu wird weiter in Basismodelle investieren;

  • In den Schwerpunktbereichen muss es konkurrierende Produkte übertreffen. Es muss in der Lage sein, geschäftlichen und produktspezifischen Nutzen zu schaffen, anstelle der wahllosen Verbesserung der allgemeinen Fähigkeit von Basismodellen;

  • In der neuesten Organisationsänderung ist die HCG (Health Care Group) in die MEG (Mobile Ecosystem Group) integriert, wodurch die Gesamteffizienz weiter verbessert wird;

  • Die Inhalte-Ökologie muss stabil und einzigartig genug sein, um viele andere Arbeiten zu ermöglichen. Zum Beispiel könnte man intelligente Agenten als „Poesie und Ferne“ ansehen, aber aktuell sollte man das Nutzerverständnis aufbauen sowie den Schöpfern den Nutzen klarer machen, warum sie auf Baidu Inhalte erstellen oder einreichen sollten, beziehungsweise den Nutzern spürbar machen, welche Inhalte sie auf Baidu sehen oder worauf sich Baidu spezialisiert.

Besonders hebt Li Yanhong die Planung für die ACG (Smart Cloud Group) hervor:

  • Zuerst muss das B2B-Geschäft standardisiert werden. Standardisierung entspricht der Projektbearbeitung, die Projektbearbeitung ist sehr anforderungsintensiv, benötigt viele Vor-Ort-Mitarbeiter und erfordert viele Backend-Entwicklungsänderungen.

Standardisierte Produkte wie Comate, auch wenn sie derzeit noch nicht viel Geld einbringen und nicht wettbewerbsfähig genug sind, sieht Li als kein Problem: Diese Produkte können auch mit niedrigem Startbudget überleben, denn mit fortdauernden Investitionen, der Anhebung der Zugangshürden und der Schaffung eines Abstands zu Konkurrenzprodukten wird dies in Zukunft ein vielversprechendes Geschäftsfeld sein.

  • Zweitens sollte sich die ACG auf mittlere und kleinere Kunden fokussieren. Große Kunden, die als Vorbilder dienen könnten, sind oft unprofitabel, und sehr kleine Kunden sind schwer handhabbar – denn meist haben sie wenig Geld in der Hand.

Strategische Priorisierung: Keine Videoproduktionen und kein aggressives Marketing

Zum Schluss sprach Li auch über strategische Prioritäten, dies zusammenfasst auch die Inhalte der Direktorenkonferenz. Zunächst die vier strategischen Prioritäten:

  • Weiterhin in die nächste Generation von Modellen investieren;

  • Weiter das Ökosystem für intelligente Agenten ausbauen, obwohl dies immer noch kein Konsens der Industrie ist;

  • Sich durch API-Aufrufe von Intelligenzcloud führen lassen;

  • Roboota muss die Maßstäbe weiterhin vergrößern.

Zum Schluss die drei Vermeidungsschwerpunkte:

  • Die Investition in Sora-ähnliche Videoproduktionen benötigt einen zu langen Zyklus, der in 10 oder 20 Jahren keinen Geschäftsgewinn bringt, daher wird Baidu sich nicht an diese noch so beliebte Sache beteiligen;

  • „Wen Xiaoyan“ benötigt kein aggressives Marketing, wie es bei Doubao und Kimi war;

  • Projektbearbeitung sollte vermieden werden, solange kein sicherer Gewinn erzielt wird.

Willkommen zum Austausch!