StartseiteArtikel

Was gibt Baidu den Mut, die KI in eine Zukunft zu führen, in der sie "alles kann und überall ist"?

晓曦2025-04-25 18:38
Die Grundlage für Superproduktivität liegt im Betriebssystem.

Im nationalen Bereich der Künstlichen Intelligenz (KI) hat sich heimlich ein hinterhältiger Kampf um das MCP (Multi - Context Processing) manifestiert.

Es wird keine so aufwendige Blase wie der "Hundert - Modelle - Krieg" geben. Es wird mehr auf den langfristigen Nutzen der KI, insbesondere auf ihre praktische Anwendbarkeit, geachtet. Wenn man über die ökologischen Barrieren spricht, ist dies der Konsens unter den Beteiligten am MCP.

Die Technologiegiganten rüsten sich derzeit an. Ihre größere Ziele als nur den Vorsprung auf diesem "neuen Schlachtfeld" zu erlangen, besteht darin, gemeinsam die Beschleunigung der Evolution der KI - Anwendungen zu unterstützen.

Das MCP, das als der "universelle Steckplatz" für intelligente Agenten betrachtet wird, basiert nicht nur auf einem strukturierten Denken und dient als Bindeglied zwischen multimodalen Anwendungen und verschiedenen Datenquellen. Es kann auch tatsächlich ein offenes Ökosystem schaffen, in dem jedes Unternehmen und jeder Entwickler seine eigenen Anwendungen erstellen kann und den Nutzern hochwertige und individuelle Ergebnisse liefern kann, wodurch die Produktivität der KI erheblich gesteigert wird.

Daraufhin hat Robin Li, Gründer, Vorsitzender und CEO von Baidu, am 25. April auf der Create2025 Baidu KI - Entwicklerkonferenz angekündigt, dass Baidu Wenku und Baidu Wangpan gemeinsam das "Cangzhou OS" eingeführt haben. Dies ist auch das weltweit erste Betriebssystem im Inhaltsbereich, das die Fähigkeiten der KI auf die Systemebene verlagert. Auf der Grundlage der Eigenschaften des Betriebssystems und des Werts des MCP wird tatsächlich ein Übergang von tiefgründigem Denken zu tiefgreifender Umsetzung erreicht.

Wenn man sagt, dass Daten die Energie der KI - Ära sind und Modelle die Produktivitätsmaschinen, dann ist das Betriebssystem wie eine "Superfabrik", die Technologie, Daten, Werkzeuge und die Anforderungen an die Ende - zu - Ende - Lieferung verbindet und den Nutzern ermöglicht, dass die KI in der Ära der großen Modelle in Richtung "Allmächtigkeit und Allgegenwart" voranschreitet.

01

Die richtige Richtung der KI ist "Allmächtigkeit und Allgegenwart"

Das Jahr 2024 wird als das Jahr der KI - Anwendungen bezeichnet. Viele multimodale Inhalte, die von KI - Anwendungen erzeugt werden, sind bereits grundsätzlich "brauchbar". Die meisten Nutzer haben aufgehört, nur zu zuschauen, und beginnen, KI - Lieferungsszenarien zu suchen, die ihren eigenen Bedürfnissen entsprechen.

Allerdings ist "brauchbar" nicht das endgültige Ziel. Die KI - Ära muss in eine weitergehende Phase eintreten - die Nutzer benötigen eine noch "nützlichere" und "praktikablere" KI. Wie kann dies erreicht werden?

Bevor man diese Frage beantwortet, ist es wert zu überlegen, was die Probleme sind, warum die KI - Anwendungen noch "nicht gut genug funktionieren".

Zunächst sind die großen Modelle bereits sehr weit verbreitet und haben die Phase des tiefgründigen Denkens erreicht. Die KI kann uns Ratschläge geben, aber es gibt nur wenige Fälle, in denen sie tatsächlich Arbeiten verrichten und Ergebnisse liefern kann.

Wenn man sich die KI - Anwendungen auf dem Markt ansieht, fehlt den meisten von ihnen die Fähigkeit, den Kontext zu verbinden und über verschiedene Plattformen hinweg aufzurufen. In einer geschlossenen Umgebung wird die Geduld der Nutzer bei mehrfachen Dialogen und die "Generierungswahrscheinlichkeit" stark auf die Probe gestellt. Die Qualitätskontrolle ist ungleichmäßig, was die Nutzer daran hindert, die KI in professionellere und komplexere Lieferungsszenarien einzusetzen.

Zweitens ist die Schwelle für die Eingabe von Prompts seit ChatGPT bis DeepSeek erheblich gesenkt worden, aber es hängt immer noch von der logischen Expression und der Datenorganisation der Nutzer selbst ab, was zu viel Eingabeaufwand und - kosten führt.

Drittens kann die KI nur "klug" denken, aber keine Arbeiten verrichten, bevor es keine reifen Lösungen für multimodale Eingabe und Ausgabe gibt. Die Nutzer sind aufgrund der begrenzten Fähigkeiten der einzelnen KI - Anwendungen bei der Verarbeitung von Materialmodi gezwungen, ständig zwischen Anwendungen und Plattformen zu wechseln, was ihre Eingabe - und Ausgabeideen ständig unterbricht. Die Leistungsfähigkeit von AI - Agenten wie Manus wird deutlich durch diese Einschränkungen begrenzt.

Angesichts dieser eindeutigen Herausforderungen entspricht die Verbesserung der Modellfähigkeiten nicht mehr direkt dem Sprung in der KI - Lieferungsfähigkeit. Baidu Wenku und Baidu Wangpan haben erkannt, dass die Nutzer nicht lernen möchten, wie man die KI nutzt, sondern dass sie stabil hochwertige Ergebnisse erhalten möchten, ohne die KI zu lernen oder die genaue Struktur der Prompts zu kennen. Und zwar soll es möglich sein, jederzeit, an jedem Ort und auf jedem Terminal beliebige Befehle oder multimodale Dateien einzugeben und sofort end - zu - end multimodale Inhalte zu generieren. Dies entspricht der psychologischen Erwartung der Masse an einer "klugen und handlungsfähigen" KI.

Gerade an diesem entscheidenden Punkt vom Quantitätswandel zum Qualitätswandel gibt das "Cangzhou OS" die richtige Richtung: Die KI soll sich in Richtung "Allmächtigkeit und Allgegenwart" bewegen.

02

Ein gutes System erfordert eine Ende - zu - Ende - Lieferung hoher Qualität

Im Wertesystem der "Verbindung" des MCP ist die Wertschöpfung auf jeder Stufe, einschließlich Technologie, Werkzeuge und Dienstleistungen, unverzichtbar, um eine Ende - zu - Ende - Lieferung in jedem Anwendungsfall zu ermöglichen.

Deshalb bedeutet eine Ende - zu - Ende - Lieferung ein ganzheitliches Generierungserlebnis auf Systemebene. So wie die Benutzer nach der Einführung des Windows - Betriebssystems nicht mehr an der Codierung beteiligt sein müssen, um den Computer arbeiten zu lassen, braucht auch die riesige Nutzerbasis von Baidu Wenku und Baidu Wangpan ein KI - natives Betriebssystem, um "gleichberechtigt" mit KI arbeiten zu können.

Beispielsweise war die Free Canvas, die Baidu Wenku und Baidu Wangpan im vergangenen Jahr veröffentlicht haben, ein Betriebssystem, das die Interaktionsweise von Chatbots verändert, multimodale Verständnis und Generierung sowie parallele Zusammenarbeit bei mehreren Aufgaben ermöglicht. Es wurde entwickelt, um die Schwelle für die Nutzung der KI zu senken und kann als eine Beta - Version des "Cangzhou OS" angesehen werden.

Robin Li sagte auf der Create2025: "Die Fähigkeit der Free Canvas, mehrere Modelle zu kombinieren, hat sich jetzt zu einem kompletten technologischen Fundament - dem Cangzhou OS - entwickelt. Dies ist ein Betriebssystem, das für Inhalte geschaffen wurde."

Die Problemlösung des "Cangzhou OS" ist einfacher und direkter: Es soll die Evolution der KI auf Systemebene ermöglichen. Das heißt, wenn die Nutzer multimodale Materialien und Befehle in dieses System eingeben, können sie direkt multimodale und lieferfähige Inhalte produzieren, indem sie freiere Interaktionen und Operationen durchführen. Dies ist kein einzelner ingenieurtechnischer Ansatz, sondern ein Ende - zu - Ende - System.

Ein Ende - zu - Ende - System muss mindestens drei Kriterien erfüllen: Erstens soll es keine Eingangsschwelle für die Nutzer geben. Zweitens müssen die Werkzeugkette und das Kontextgedächtnis vollständig und offen sein. Drittens müssen die multimodalen gemischten Eingabe - und Ausgabeinhalte präzise und reichhaltig sein.

Wenn solche Betriebsszenarien bestätigt werden, werden sie schnell das bestehende OS - Produktivitätssystem herausfordern und verbessern. Um über das traditionelle Betriebssystem hinauszugehen, muss das Betriebssystem in der KI - Ära in drei Dingen einen Durchbruch erzielen: individuellere Inhalte, bequemere Interaktionen und umfassendere Werkzeuge.

Die dreistufige Architektur des "Cangzhou OS" entspricht diesen Punkten.

Als Basisinfrastruktur hat das "Cangzhou OS" "drei Bibliotheken" aufgebaut. Dies basiert auf der öffentlichen Wissensbibliothek von Baidu Wenku, der privaten Wissensbibliothek der Nutzer von Baidu Wangpan mit ihrer Genehmigung sowie dem Gedächtnis der Nutzer und der starken Fähigkeit zur Wissensverarbeitung und - extraktion. So können die Nutzer problemlos Wissensdaten abrufen und nutzen.

Die öffentlichen und privaten Wissensbibliotheken sind die Stärke von Baidu Wenku und Wangpan, weil die riesige Menge an Wissen in der Wenku die Inferenz unterstützt und die multimodalen Ausgabeergebnisse professioneller und vertrauenswürdiger sind. Die Wissen aus dem Wangpan macht die generierten Inhalte eher den individuellen Bedürfnissen und Inspirationen der Nutzer entsprechen.

Im Zentralssystem müssen Eingabe und Ausgabe, Produktion und Zusammenarbeit hochgradig integriert und einfach bedienbar sein, um die "Lücke" in den Effizienzszenarien zu schließen. Dies wird auch in allen zukünftigen OS - Systemen und KI - Terminals eine wichtige Rolle spielen. Deshalb hat das "Cangzhou OS" "drei Geräte" aufgebaut. Es verfügt nicht nur über einen integrierten KI - Fähigkeiten - Leser, Editor und Player, die von Baidu Wenku und Baidu Wangpan selbst entwickelt wurden, sondern kann auch über das "Scheduling - Zentrum", Interaktionskomponenten, Intensionsmodelle und Übertragungsinfrastruktur usw. in Verbindung mit den Nutzerdaten und Profilen die Nutzerabsichten verstehen und die parallele Zusammenarbeit und effiziente Planung mehrerer Modelle und intelligenter Agenten realisieren.

Bei den Anwendungsdiensten, zurückkehrend zu den Eigenschaften des Betriebssystems selbst, hat das "Cangzhou OS" auf der Grundlage des MCP - Protokolls hunderte von AI - Agenten von Baidu Wenku und Wangpan integriert. Die generierten Modi umfassen verschiedene Formate wie Bilder, Diagramme, Dokumente, Audio - und Videodateien und decken umfassend diverse praktische Szenarien wie Lernen, Büroarbeit, Lebensunterhaltung usw. ab. Es hat auch die Fähigkeit zur flexiblen Erweiterung.

Im Vergleich zu den PC - und Mobil - Betriebssystemen zeigt das "Cangzhou OS" gut die Wertigkeit eines KI - OS. Es lässt die Individualität der Daten und die Vielfalt und Präzision der Modelle, die durch das MoE (Mixture of Experts) ermöglicht werden, in verschiedene Szenarien und auf verschiedene Terminals fließen und erforscht die wirkliche "Allgegenwart".

Zugleich kann das "Cangzhou OS" in Verbindung mit der riesigen Menge an öffentlichen und privaten Wissensdaten sowie hunderte von KI - Fähigkeiten, die von den Nutzern über einen langen Zeitraum bestätigt wurden, die allgemeinen und detaillierten Bedürfnisse der Nutzer erfüllen und hat somit die Chance, sich in Richtung "Allmächtigkeit" zu bewegen.

03

Klugheit und Handlungsfähigkeit sind die einzige Prüfungsmethode für die KI

Robin Li hat auf der Create2025 offiziell bekannt gegeben, dass die zahlungspflichtigen Nutzer der KI - Funktionen von Baidu Wenku bereits über 40 Millionen erreicht haben und die monatlichen aktiven Nutzer 97 Millionen betragen, was es zu einer echten "Superproduktivität" macht.

Wie kann dieses "OS" - System dann für eine so große Nutzerbasis nützlich sein?

Basierend auf dem "Cangzhou OS" haben Baidu Wenku und Baidu Wangpan zwei neue Funktionen, "GenFlow Super Partner" und "AI - Notizen", eingeführt. Diese beiden Funktionen zeigen auch, dass auf der Grundlage des KI - OS - Systems die Benutzererfahrung der KI - Funktionen und die Interaktionsoberfläche der KI so flexibel und kraftvoll wie Wasser fließen können und die Möglichkeit der "Allmächtigkeit und Allgegenwart" der KI in verschiedenen Anwendungsformen erforschen können.

Beispielsweise ist der GenFlow Super Partner in der Baidu Wenku - APP eine umfassende Weiterentwicklung des WorkFlow. Der WorkFlow wird normalerweise verwendet, um einen festgelegten Arbeitsablauf zu beschreiben, der unflexibel und unbeweglich ist. Der GenFlow hingegen plant über die KI - Analyse und ruft selbständig verschiedene Modelle und Agenten wie PPT, Dokumente, Mindmaps, Plakate usw. auf und gibt schließlich multimodale Inhalte aus.

In vielen "unerwarteten" Szenarien hat der GenFlow eine tiefe Einsicht in einfache sprachliche Anforderungen gezeigt und die Arbeiten schnell und gut erledigt. Die Nutzer, die ursprünglich nur aus Neugier probiert haben, waren überrascht zu entdecken, dass die erhaltenen Ergebnisse direkt für die Lieferung verwendet werden können.

Beispielsweise, wenn man in den GenFlow "Ich möchte im Mai in Hainan eine Hochzeit feiern. Bitte erstelle einen illustrierten Hochzeitsplan und eine Hochzeits-Einladung" eingibt, ist dies zwar eine einfache sprachliche Anweisung, aber für die KI ist die Komplexität darin, den Arbeitsablauf der Anforderung zu verstehen: Ein vollständiger Hochzeitsplan erfordert nicht nur praktische Lösungen, eine große Menge an individuellen Präferenzen und maßgeschneiderten Inhalten, sondern auch die Herstellung von Materialien wie Einladungen.

Man kann sehen, dass der GenFlow klugerweise die lokalen Bräuche, die Veranstaltungsorte und die Zeitbedingungen berücksichtigt, durch mehrfache Dialoge und die Rückschau auf die historische Aufzeichnung die Präferenzen, das Budget und den Ablauf der Nutzer aktiv bestätigt und durch die Modellanalyse ermittelt, welche multimodalen Ausgabeformen für die Nutzer geeignet sind. Dies ist der Denkprozess des GenFlow, "wie ein Mensch zu denken". Bei der multimodalen Ausgabe ruft er PPT - Werkzeuge, Plakatdesign - Werkzeuge usw. auf und kann innerhalb weniger Minuten gleichzeitig einen hochwertigen Hochzeitsplan - PPT und ein Einladungsplakat generieren. Die generierten Inhalte können die Nutzer direkt im Betriebssystem bearbeiten.

Im Vergleich zu den Produkten der parallelen Zusammenarbeit von mehreren intelligenten Agenten auf dem Markt ist der GenFlow Super Partner nicht nur sofort einsatzbereit, sondern kann auch binnen Minuten liefern. Die Qualität der Generierung ist stabiler, und es überwindet auch die Schwäche der ähnlichen Produkte, dass sie keine mehrfachen Dialoge zur Verbesserung ermöglichen.

Das zweite ist die AI - Notizen von Baidu Wangpan, das derzeit das erste multimodale AI - Notizenprodukt auf dem Markt ist. Der Ausgangspunkt der Überlegungen von Baidu Wangpan war, herauszufinden, was eine "gute Notiz" ist. Die Nutzer wünschen sich von den Notizen, dass die Informationen umfassend und genau sind, dass das Wissen strukturiert und logisch präsentiert wird, dass wichtige Informationen gespeichert und wiederverwendet werden können und dass die Notizen und die Lernmaterialien tiefgehend integriert werden können, um ein mehrfaches Wieder