StartseiteArtikel

Gespräch mit Zhong Hao, Verantwortlicher für das Baidu-Wenku-Produkt: Wie formt KI die Inhaltserstellungsecosystem neu?

未来一氪2025-08-06 14:13
Baidu Wenku wird durch KI neu strukturiert. Die GenFlow-Scheduling-Technologie taucht auf der WAIC 2025 auf und ermöglicht intelligentes Schaffen in mehreren Szenarien.

Wenn die Large Language Models (LLMs) aus technologischen Singularitäten zu industriellen Grundpfeilern werden und die Intelligent Agents aus den Laboratorien in Produktionslinien und Arztpraxen gelangen, formt die dritte Welle der künstlichen Intelligenz (KI) die globale Wirtschaftsstruktur mit beispielloser Schärfe neu.

China zeigt in dieser Transformation doppelte Stärken: Es ist sowohl ein Prüfgelände mit riesigen Anwendungsfeldern als auch ein Vorreiter in der Durchbrechung bei Chips und der Offenlegung von Algorithmen. Von der Durchbrechung einzelner Technologien zur Ökosystem-innovation, von Effizienztools zu neuen Produktivitätsmotoren, ein KI-Entwicklungsweg mit orientalischem Charakter zeichnet sich immer deutlicher ab.

Am 26. Juli lud die Weltkonferenz für Künstliche Intelligenz (WAIC 2025) unter dem Motto "Intelligente Ära - Globaler Zusammenhalt" Technologiegiganten, akademische Pioniere und Politikgestalter aus dem KI-Bereich ein. Diese Superveranstaltung, die Technologie, Ethik und Kunst umfasst, zeigt, dass die KI von einer "industriellen Variablen" zu einer "zivilisatorischen Konstante" geworden ist.

Als Branchenbetrachter und -vermittler nahm 36Kr aktiv an dieser Veranstaltung teil und richtete im Ausstellungsraum das "Krypton Live Studio" ein, um in Gesprächen die zugrunde liegenden Logiken der Weiterentwicklung der KI-Industrie aufzudecken.

Im Gespräch sagte Zhong Hao, der Produktverantwortliche von Baidu Wenku: "Nach der KI-Umgestaltung kann Baidu Wenku die Absichten der Benutzer effizient verstehen und deren Bedürfnisse befriedigen, um ihre Probleme auf ganzer Linie zu lösen. Baidu Wenku hat von Anfang an die MoE (Mixture of Experts)-Architektur gewählt und die globale Steuerung über Genflow implementiert. Das Ziel ist, dass die KI wie ein Mensch lernt und arbeitet, ein idealer Partner für den Menschen wird und ihm bei der Inhaltserstellung und -konsumtion hilft."

Im Folgenden finden Sie die Transkription des Gesprächs, bearbeitet von 36Kr:

36kr: Bitte stellen Sie sich und Ihre Arbeit kurz vor.

Zhong Hao: Ich bin der Produktverantwortliche von Baidu Wenku. Die meisten Menschen kennen Baidu Wenku als eine Datenbank. Nach mehr als zwei Jahren der KI-Umgestaltung haben wir viele KI-Fähigkeiten gut mit professionellem Inhalt kombiniert. Jetzt ist Baidu Wenku eine Plattform für den Zugang und die Erstellung von KI-Inhalten. Mit Hunderten von multimodalen KI-Agenten kann es die Benutzer bei der Lösung vieler kreativer Probleme auf ganzer Linie unterstützen. Baidu Wenku hat sich komplett verändert. Sie können es in der APP oder auf der PC-Website ausprobieren.

36kr: Wie war Ihr Eindruck von der WAIC? Welche Erkenntnisse haben Sie gewonnen?

Zhong Hao: Baidu Wenku und Baidu Netdisk waren auch an der Ausstellung vertreten. Die KI-Branche entwickelt sich rasant. Erstens entwickeln sich die LLMs ständig. Die Grenzen der Modelle haben sich sowohl in der Textgenerierung, Bildgenerierung als auch in der Videomodalität im Vergleich zu früheren Jahren erheblich erweitert. Es gibt viele interessante Anwendungen. Sowohl Start-ups als auch große Unternehmen setzen verstärkt in die KI ein. Diese Ausstellung war ein Treiben an Ideen, mit sowohl Konsens als auch Durchbrüchen. Ich hoffe, dass es noch mehr fantasievolle Versuche gibt, anstatt frühzeitig in lokale Optima oder kurzfristige Konsenslösungen zu verfallen.

36kr: Welcher Stand hat Ihnen am meisten beeindruckt?

Zhong Hao: Jeder Stand hat seine eigenen Merkmale. Der Stand von Baidu Wenku und Baidu Netdisk konzentriert sich auf die Lösung konkreter Probleme in verschiedenen Szenarien. Wir haben uns von Anfang an auf die Akzeptanz- und Nutzungsrate der Inhalte konzentriert, ob es sich um KI-generierte oder von KI und Menschen gemeinsam geschaffene Inhalte handelt.

Der Stand von Baidu Wenku und Baidu Netdisk ist nach Benutzer-Szenarien gestaltet. Egal ob es um Lernen, Arbeiten, Leben oder Unterhaltung geht, es gibt für jedes Szenario spezifische Lösungen. Die Benutzer können spüren, dass ihre Bedürfnisse vollständig befriedigt werden.

36kr: Was war die größte technische Herausforderung bei der KI-Umgestaltung von Baidu Wenku? Welche KI-Funktion ist die nützlichste?

Zhong Hao: Die nützlichste und am tiefsten entwickelte Funktion ist das intelligente PPT. Wir waren die ersten in China, die diese Funktion entwickelten. Jetzt haben wir es für mehr als zehn Szenarien weiter verfeinert. Benutzer können nicht nur auf der Grundlage von Anweisungen PPTs generieren, sondern auch auf der Grundlage von Bildern, Dokumenten, Materialien und sogar autorisierten Inhalten aus ihrem persönlichen Netdisk. Wir unterstützen auch das Hochladen und die Anpassung von Vorlagen sowie die direkte Generierung von Diagrammen und Daten.

Wir haben das intelligente PPT-Szenario tiefgehend und umfassend bearbeitet und denselben Ansatz auch auf viele andere Szenarien angewendet. Jetzt kann Baidu Wenku lange und kurze Texte, Forschungsberichte, Mindmaps, KI-Bücher und Plakate generieren.

Bei der KI-Umgestaltung von Baidu Wenku geht es nicht nur um die Konstruktion der KI-Agenten selbst, sondern auch um das Verständnis der Benutzerabsichten. Die KI muss in der Lage sein, mehrere Agenten zu steuern, um Probleme zu lösen. Beispielsweise möchte ein junger Student, der vor kurzem an die Universität gekommen ist, ein Vereinsveranstaltungsplan erstellen. Er wird möglicherweise nicht explizit nach einem PPT, einem Plakat oder einem Planungsdokument fragen. Die KI muss auf der Grundlage von professionellem Inhalt und ähnlichen Szenariolösungen eine umfassende Lösung anbieten und verschiedene Agenten einsetzen, um die Aufgabe zu erfüllen.

Dies erfordert höhere technische Fähigkeiten. Die KI muss nicht nur den Benutzer verstehen, sondern auch die Absichten und Bedürfnisse hinter seiner Anfrage tiefgehend analysieren und effizient und vernünftig Lösungen finden. Dies erfordert Fähigkeiten in der Erkennung von Szenarien, dem Verständnis von Szenarienbedürfnissen und der Entwicklung von Szenariolösungen, sowie tiefere technische Kenntnisse und eine intelligentere KI. Darüber hinaus benötigt es feingranulare und flexible Agenten sowie Infrastrukturen wie KI-Reader und -Editor, um komplexere Aufgaben zu bewältigen.

36kr: Welche umwerfenden Veränderungen hat Baidu Wenku als nationales Produkt nach der KI-Umgestaltung erfahren?

Zhong Hao: Die größte Veränderung ist, dass Baidu Wenku in der Vergangenheit als reine Datenbank nur einen kleinen Teil der Benutzerbedürfnisse befriedigen konnte. Benutzer kamen, suchten nach einem bestimmten Inhalt, ließen ihn herunterladen und verließen die Plattform. Ihre Bedürfnisse wurden nicht vollständig befriedigt. Jetzt kann Baidu Wenku nicht nur effizient nach Inhalten suchen, sondern auch komplexe Aufgaben von Grund auf oder auf der Grundlage bestehender Inhalte erledigen. Einerseits kann die KI in Echtzeit die Benutzerbedürfnisse verstehen, andererseits können Benutzer mit Hilfe von Infrastrukturen wie dem KI-fusionierten Editor während des Denkens und Schreibens die KI einsetzen, um Aufgaben zu erledigen. Mit diesen Infrastrukturen kann die KI Aufgaben vollautomatisch lösen, während der KI-fusionierte Editor die Arbeit halbautomatisch erledigen kann. Benutzer müssen nicht zwischen verschiedenen Softwareprogrammen wechseln, sondern können alles in einer Applikation schnell erledigen. Die Plattform hat sich von einer reinen Datenbank zu einer ganzheitlichen Lösung entwickelt, was die Benutzer wirklich brauchen.

36kr: Wenn man LLMs mit KI-Technologien kombiniert, müssen die Probleme des "unmöglichen Dreiecks" wie Kosten, Effektivität und Latenz berücksichtigt werden. Wie hat Baidu Wenku und Baidu Netdisk diese Probleme gelöst?

Zhong Hao: Baidu Wenku hat von Anfang an die MoE-Architektur gewählt. Damals war die Prompt-Engineering populär, aber wir haben festgestellt, dass es schwierig ist, die Grenzen der Modelle zu erweitern und das unmögliche Dreiecksproblem zu lösen. Wir haben zunächst die Agenten für spezifische Szenarien optimiert, wie z. B. intelligentes PPT, lange und kurze Texte, Forschungsberichte, Mindmaps usw. In jedem Szenario haben wir den besten Kompromiss gefunden, um das unmögliche Dreiecksproblem lokal zu lösen. Beispielsweise bei der Bildauswahl für ein PPT: Ist es besser, ein Bild zu generieren oder direkt Inhalte aus Baidu Wenku zu verwenden? Letzteres ist möglicherweise schneller und besser. Durch die feine Bearbeitung jedes einzelnen Szenarios haben wir schließlich den besten Kompromiss gefunden und die Benutzer können schnell und gut hochwertige Ergebnisse erhalten.

Darauf aufbauend haben wir das GenFlow-Steuerungszentrum entwickelt, und bald wird die Version 2.0 erscheinen. GenFlow kann basierend auf den Benutzerabsichten automatisch Agenten steuern, um Probleme zu lösen. Bei derselben Anfrage kann die Lösung A effizienter, kostengünstiger und besser sein als die Lösung B. Die Grundlage ist die MoE-Architektur, darüber hinaus werden die Agenten für spezifische Szenarien optimiert, um in Hunderten von Szenarien einen lokalen Optimalpunkt zu erreichen. Schließlich wird die globale Steuerung über GenFlow realisiert. Je besser man die Benutzerbedürfnisse und die Absichten hinter ihrer Anfrage versteht, desto besser kann man die Probleme lösen. Der Schlüssel liegt in der Nähe zum Anwendungsfall und der Geduld bei der Feinarbeit.

Viele Produkte in der Branche haben das unmögliche Dreiecksproblem und suchen eilig nach einer universellen Lösung für alle Benutzer. Dies ist jedoch schwierig. Um in kurzer Zeit den besten Kompromiss zu finden, muss man sich auf die Szenarien konzentrieren und sich der Feinarbeit widmen. Dies ist schwierig, aber es bringt uns näher an das Ziel.

36kr: Das bedeutet also, dass Sie in spezifischen Szenarien flexibel anpassen.

Zhong Hao: Ja, wir befriedigen die Benutzerbedürfnisse durch die Produkt-Market-Fit (PMF). Beispielsweise als die Forschungsberichtsfunktion von Baidu Wenku gestartet wurde, wollten wir die Analyse- und Forschungsbedürfnisse der Benutzer befriedigen. Wir mussten sicherstellen, dass wir nicht einen Bericht von zehntausend Wörtern generieren, wenn der Benutzer nur eine einfache Analyse benötigt. Obwohl unsere Technologie damals sehr fortschrittlich war, war dies möglicherweise nicht das, was der Benutzer wollte. Wir haben also redundanten Inhalt vermieden, um Kosten und Zeit zu sparen und das unmögliche Dreiecksproblem zu lösen. Oft liegt die Lösung in den Details der Szenarien. Wenn man sich der Feinarbeit widmet, kommt man näher an das Ziel.

36kr: Dies beruht auf der technologischen Akkumulation von Baidu in der KI.

Zhong Hao: Ja, wir waren die ersten, die in die KI investierten und haben von Anfang an die MoE-Architektur gewählt. Als Anwendungsplattform erkunden wir die Grenzen auf der Grundlage der Wenxin-Serie von Modellen. Um gute Ergebnisse zu erzielen, braucht es nicht nur technologische Akkumulation, sondern auch das Verständnis der Benutzer und der Anwendungsfälle, um die technologischen Ressourcen optimal zu nutzen.

36kr: Wie wandelt GenFlow die Modelle in Produktivität um? Welche Vorteile hat es bei der Zusammenarbeit mehrerer intelligenter Agenten?

Zhong Hao: Unsere ursprüngliche Idee hinter GenFlow war, das Problem zu lösen, dass Benutzer oft nicht alle Funktionen unserer Plattform kennen. Viele Benutzer kommen mit bestimmten Bedürfnissen, aber nur wenige technikbegeisterte Benutzer erkunden alle Funktionen. Die KI sollte aktiver sein und den Benutzern Lösungen bieten, ohne dass diese explizit nach einer Funktion fragen müssen. Wir möchten, dass die KI wie ein Mensch denkt, lernt und arbeitet und ein idealer Partner für den Menschen wird. GenFlow 2.0 wird bald die Intervention-Modus, den Parallel-Modus und die Fähigkeit zur aktiven Denkweise einführen. Es kann die Benutzerabsichten verstehen und automatisch Agenten steuern, um Probleme zu lösen. Bei derselben Anfrage kann es die effizienteste Lösung wählen. Die Basis ist die MoE-Architektur, darüber hinaus werden die Agenten für spezifische Szenarien optimiert, um in Hunderten von Szenarien einen lokalen Optimalpunkt zu erreichen. Schließlich wird die globale Steuerung über GenFlow realisiert. Je besser man die Benutzerbedürfnisse und die Absichten hinter ihrer Anfrage versteht, desto besser kann man die Probleme lösen. Der Schlüssel liegt in der Nähe zum Anwendungsfall und der Geduld bei der Feinarbeit.

Im Gegensatz zu vielen anderen KI-Systemen, die Aufgaben sequentiell bearbeiten, können wir mit GenFlow Aufgaben parallel bearbeiten. Darüber hinaus ermöglicht der Intervention-Modus den Benutzern, die KI jederzeit zu unterbrechen, zu ergänzen oder zu ändern. Die KI kann die Benutzerhistorie und autorisierten Daten verstehen und flexibel Lösungen finden. Durch die Verbesserung der Aktivität wird die technologische Fähigkeit von GenFlow voll ausgeschöpft. Unser Ziel ist es, das Problem der Mensch-Maschine-Interaktion zu lösen und die KI aktiver und umfassender für den Menschen zu machen.

36kr: Welche Veränderungen erwarten Sie in den nächsten 3 - 5 Jahren, wenn die Technologie immer reifer wird? Gibt es neue strategische Pläne?

Zhong Hao: In Zukunft wird die Mensch-Maschine-Interaktion tiefer und umfassender werden und sich in alle Bereiche des menschlichen Lebens wie Arbeit, Lernen, Leben und Unterhaltung erstrecken. Die Grenzen der Interaktionsformen werden verschwimmen, und viele Aufgaben werden von Menschen und KI gemeinsam erledigt.

Genau aus diesem Grund haben wir GenFlow entwickelt. Wir möchten, dass die KI wie ein Mensch denkt, lernt und arbeitet und ein idealer Partner für den Menschen wird. Von der strategischen Perspektive aus haben wir uns immer auf den Inhaltsbereich konzentriert, von der Inhaltserstellung bis zum Inhaltskonsum. Wir möchten, dass die KI den Menschen bei der Inhaltserstellung und -konsumtion hilft.

In Zukunft werden wir möglicherweise neue Formen des Arbeitens und Lernens ausprobieren. Vielleicht brauchen wir nicht mehr einen Computer. Wir können einfach ein Gerät aus der Tasche holen und in 3 - 5 Minuten Aufgaben erledigen, die früher eine oder zwei Wochen dauerten.

Beispielsweise können wir in der Freizeit ganz einfach einen Roman in ein Animationsformat umwandeln, anstatt zeilenweise zu lesen. Die KI kann unsere Vorstellungen zum Leben erwecken. Wenn wir Literatur lesen, haben wir oft eigene Ideen. In diesem Moment werden wir zu Schöpfern.

Die KI ist mein bester Helfer. Ich habe keine Erfahrungen in der Zeichnung oder dem Video-Editing, aber die KI kann wie ein Team arbeiten und meine Vorstellungen verwirklichen. Sie senkt die Schaffensschwelle und ermöglicht es jedem kreativen Menschen, seine Ideen auszuleben und von anderen gesehen zu werden.

Die KI versteht die Bedürf