Wer hätte gedacht, dass WeChat das erste Unternehmen ist, das ein KI-Betriebssystem 1,4 Milliarden Menschen zugänglich macht?
Die KI von WeChat ist endlich in Bewegung.
Am gleichen Tag wie Apples WWDC hat WeChat etwas getan, das möglicherweise noch wichtiger ist als Apples Ankündigungen: Es hat eine schlichte Ankündigung namens "Richtlinien für die Einbindung von Entwicklern in die WeChat-KI-Ökosystem" veröffentlicht.
Ab heute können Mini-Programm-Entwickler eine Genehmigung erteilen, damit die WeChat-KI die Funktionen des Mini-Programms lesen, bedienen und aufrufen kann.
WeChat bietet zwei Arten der Einbindung: Die "Automatische Mode", deren Zugangsschwelle nahezu Null ist. Die Entwickler müssen nur einen Schalter aktivieren, und die Plattform liest selbst den Quellcode, analysiert die Seiten und versteht, was der Mini-Programm kann. Dann kann die KI direkt loslegen, ohne dass ein einziger Code geschrieben werden muss.
Die andere heißt "Entwicklungs-Mode". Die Entwickler entwickeln selbst maßgeschneiderte Skills, die nach der Prüfung von der KI aufgerufen werden können. Beide Modi können gleichzeitig aktiviert werden. Meituan hat bereits die Einbindung angekündigt.
Dies darf nicht einfach als der Start einer neuen Funktion verstanden werden. Man muss erkennen, dass WeChat seine gesamte Ökosystem - Millionen von Mini-Programmen, WeChat-Zahlung, Service-Benachrichtigungen, Offizielle Accounts - in eine Ausführungsebene für KI verwandelt.
Ein Blick in die Skill-Dokumentation: Wie ruft die WeChat-KI Mini-Programme auf?
Die offizielle WeChat-Entwicklerdokumentation hat die technischen Spezifikationen für die KI-Einbindung von Mini-Programmen veröffentlicht. Bei genauerem Hinsehen stecken darin viele Design-Details.
Hier ist der Link zur offiziellen Skill-Dokumentation 👇🏻:
https://developers.weixin.qq.com/miniprogram/dev/ai/best-practices.html
Von der Architektur her werden Leute, die schon KI-Entwicklung betrieben haben, sofort erkennen, dass es im Wesentlichen um MCP geht. Die Datei mcp.json deklariert die Funktionen und Parameter jeder atomaren Schnittstelle, und die Datei SKILL.md beschreibt, wie der gesamte Geschäftsprozess abläuft. Dies ist fast identisch mit der MCP+Skills-Architektur in Claude, Cursor und VS Code. WeChat hat nicht von Grund auf neu aufgebaut, sondern direkt den sich formenden Branchenstandard übernommen.
In den Leitlinien hat WeChat ein sehr klares System der "Aufmerksamkeitsgewichtung" festgelegt. Wenn die KI entscheidet, welche Schnittstelle aufzurufen und welche Parameter zu generieren sind, achtet sie am meisten auf den Inhalt (fünf Sterne), den die Schnittstelle zurückgibt. Danach folgen die Schnittstellenbeschreibung (vier Sterne) und die Parameterbeschreibung (vier Sterne) in der mcp.json, und die SKILL.md kommt zuletzt (drei Sterne). Das bedeutet, dass es für die Entwickler wichtiger ist, wo sie etwas schreiben, als was sie schreiben - Bei derselben Regel wird die KI die Gewichtung völlig unterschiedlich setzen, je nachdem, ob sie in der Schnittstellenrückgabe oder in der SKILL.md steht.
Für die Schnittstellenrückgabe gibt es eine Kernregel: Zwei-Teil-Schema von "Tatsache + Aktion". Zunächst muss der KI mitgeteilt werden, "was passiert ist", und dann, "was als nächstes zu tun ist". Wenn nur die Aktion beschrieben wird, ohne die Tatsache, kann die KI "Karte anzeigen" als "Bereitstellung für den Aufruf der nächsten Schnittstelle" verstehen und die Benutzerbestätigung überspringen. Dies ist eine Regel, die erst nach vielen Fehlern entwickelt wurde.
Viertens sollten Parameter bevorzugt per ID und nicht in natürlicher Sprache übergeben werden. Nehmen wir das Szenario des "Kaffee-Bestells" als Beispiel. Nachdem der Benutzer seine Anfrage gestellt hat, versteht die KI die unklare Absicht, die Optionen, die Änderung der Spezifikationen und die Zahlung, alles ohne den Dialog zu verlassen.
Dieses Design zeigt: WeChat hat genügend Fälle in der Praxis bearbeitet, weiß, wo die Fallstricke bei der KI-Aufrufung externer Dienste liegen, und hat diese Erfahrungen in Entwicklerrichtlinien festgelegt.
Tatsächlich hat WeChat im Vergleich zu Apples Apps eine "Gottessicht" auf seine eigene Ökosystem, was die Voraussetzung für alles ist.
Warum ist WeChat-KI wichtiger als Apples KI?
Dieses Jahr hat Apple auf der WWDC seine neue Siri-KI vorgestellt. Obwohl die unterliegende Technologie Google Gemini integriert und Shortcuts die Erstellung in natürlicher Sprache unterstützen, hat es nicht viel Diskussion ausgelöst.
Bei genauerem Hinsehen wird man den Unterschied erkennen: Apple hat es damit beabsichtigt, die KI innerhalb des iOS-Systems einige native Funktionen zu koordinieren. Sobald es um Drittanbieter-Apps geht, die auf Ihrem Handy installiert sind, wird es schwierig.
Nehmen wir Ele.me als Beispiel. Der Code von Ele.me läuft auf den eigenen Servern von Ele.me, und Apple kann ihn nicht lesen. Wenn Siri Ele.me aufrufen möchte, müssen die Ele.me-Entwickler sich an die App Intents-Schnittstelle anschließen. Dies erfordert Zeit und Mühe.
WeChat hingegen ermöglicht es der KI, direkt Millionen von Drittanbieter-Diensten zu bedienen, weil Mini-Programme anders sind. Der Code jedes Mini-Programms, von der Einreichung durch den Entwickler über die Prüfung durch WeChat bis zur Ausführung auf dem Benutzerhandy, verläuft vollständig im WeChat-Technologie-System. WeChat kann den Code bereits während der Prüfung durchsuchen und automatisch analysieren, "welche Seiten der Mini-Programm hat, was er kann und was die Eingabe und Ausgabe sind".
Deshalb kann die "Automatische Mode" funktionieren - Die Entwickler müssen keinen Code schreiben, sondern nur einen Schalter aktivieren, und WeChat kann Ihren Mini-Programm selbst in ein von der KI aufrufbares Tool umwandeln. Die WeChat-Infrastruktur unterstützt dies von Natur aus. Es hat eine "Gottessicht" und kann die Ressourcen zentral steuern.
Diesen Architekturvorteil hat weder Apple noch Google.
Auch bemerkenswert ist, dass vor Kurzem berichtet wurde, dass WeChat mit Huawei, Honor, Xiaomi, OPPO und vivo zusammenarbeitet, um die A2A (Agent-to-Agent)-Assistentenfunktion einzuführen. Benutzer können über die Sprachassistenten auf ihren Handys direkt WeChat-Sprech- oder Videoanrufe tätigen oder Nachrichten senden.
Intern kann die WeChat-KI Millionen von Mini-Programmen aufrufen; extern können die KI-Assistenten der Handyhersteller WeChat aufrufen. WeChat wird zum Super-Konnektor in der KI-Zeit, einem Service-Zentrum, an das alle KI-Systeme angeschlossen werden können.
Die alte Prophezeiung von "WeChat OS"
Als die Mini-Programme eingeführt wurden, hat viele Leute gescherzt, dass WeChat ein "WeChat OS" entwickeln würde. Damals war dies eher eine rhetorische Figur - Die Mini-Programme ersetzten einige Funktionen von Apps, aber im Wesentlichen handelte es sich immer noch um eine "leichtgewichtige Anwendungsplattform".
Zufälligerweise wurde das damals entworfene zentrale Prüfungsystem zur Qualitätssicherung und Sicherheit eingeführt. Neun Jahre später hat sich dieses einst als "übermäßige Kontrolle" kritisierte Design überraschenderweise zu einem Infrastrukturvorteil in der KI-Zeit entwickelt. Die verteilte App-Ökosystem (Apple/Android), die damals als "freier" erschien, ist jetzt eher ein Hindernis für die KI-Einbindung.
Eine alte Prophezeiung hat sich aufgrund der neuen Technologie - KI - radikal verändert.
Als ich früher über OpenClaw und Feishu geschrieben habe, habe ich eine Einschätzung getroffen: Instant-Messaging (IM) ist der natürlichste Einstiegspunkt für KI-Agenten, weil das Gespräch selbst die natürlichste Interaktionsweise zwischen Menschen und KI ist, und die integrierte Service-Ökosystem (Roboter, Zahlung, Mini-Programme) in IM ermöglicht es der KI, nicht nur zu "chatten", sondern auch zu "handeln". Feishu hat bereits in diese Richtung gegangen und die Bot-API und KI-Agenten-Nodes verbessert.
Feishu ist jedoch ein Unternehmenskooperations-Tool und deckt hauptsächlich die Büro-Szenarien ab. WeChat hat eine ganz andere Reichweite - 1,432 Milliarden monatliche aktive Benutzer und Hunderte von Mini-Programmen in verschiedenen Branchen, von der Bestellung von Lebensmitteln bis zur Krankenhausanmeldung, von der Flugbuchung bis zur Bezahlung von Strom- und Wasserrechnungen. Es deckt fast alle täglichen Bedürfnisse eines Menschen ab.
Wenn die WeChat-KI tatsächlich in der Lage ist, diese Mini-Programme reibungslos aufzurufen und Aufgaben zu erledigen, dann wird es, wie die Prophezeiung besagt, zu einem Betriebssystem, das mit natürlicher Sprache bedient werden kann.
Wenn ein Benutzer sagt: "Buch mir einen Hochgeschwindigkeitszug von Beijing nach Shanghai morgen um 15:00 Uhr", wird die KI die Anfrage analysieren, den 12306-Mini-Programm aufrufen, um Tickets zu suchen, Plätze auszuwählen und die Bestellung über die WeChat-Zahlung abzuschließen, alles ohne WeChat zu verlassen. Theoretisch kann dieser Prozess bereits heute funktionieren.
Natürlich gibt es immer noch einen Abstand zwischen Theorie und Praxis. Bei der KI-Aufrufung von Diensten, die Zahlungsszenarien betreffen, ist die Fehlerquote nahezu Null - Ein falsch bestellter Kaffee ist kein großes Problem, aber ein falsch gekaufter Flugticket schon. Die Genauigkeitsanforderungen an das zugrunde liegende Modell sind viel höher als bei Chat-Szenarien. Dies ist auch die gemeinsame Schwierigkeit, der alle KI-Agenten weltweit gegenüberstehen: Der Sprung von "chatfähig" zu "aufgabenfähig" hängt nicht von technischen Indikatoren ab, sondern von Vertrauen.
WeChat hat zumindest einen richtigen Schritt gemacht: Es hat nicht von Grund auf ein neues Service-Netzwerk aufgebaut. In den letzten Jahren hat ChatGPT zunächst ein intelligentes "Gehirn" entwickelt und dann nacheinander Shopify, DoorDash, Stripe und andere angebunden. Jede Verbindung wurde von Grund auf neu aufgebaut, und bis heute macht der Anteil an Transaktionsbezogenen Abfragen