Alibaba AI bemüht sich eifrig um Nachholbedarf. Ist die "Genialität" von Ant Group wirklich genial?
Text | Deng Yongyi
Redaktion | Su Jianxun
Unternehmen aus dem Alibaba-Konzern gehen auf dem B2C-Markt mit vollem Druck vor.
Am 19. November kündigte Ant Group offiziell die Einführung der neuen App "Lingguang" an. In der ersten Runde wurden drei Funktionsmodule gestartet, nämlich "Lingguang-Dialog", "Lingguang-Flash-App" und "Lingguang-Öffnen der Augen".
"Lingguang" ist als ein AI-Assistent zur "generativen Erstellung von multimodalen Inhalten über Code" positioniert. Mit einem Satz erklärt: Die Antworten des AI-Assistenten sind nicht mehr nur reine Texte. Bei jedem Dialog wird ein interaktiver Webseiteninhalt geliefert, der Bilder, 3D-Modelle, Animationen, Karten, Tabellen, Audio- und Videodateien und andere multimodale Inhalte generieren kann.
△Quelle: Lingguang
In der "Flash-App" muss der Benutzer nur einen natürlichen Sprachsatz eingeben, und Lingguang kann in 30 Sekunden eine bearbeitbare und interaktive Mini-App generieren, die verschiedene Informationsausgabemöglichkeiten unterstützt.
"Lingguang-Öffnen der Augen" ist eher wie ein visueller Assistent. Der Benutzer kann Bilder hochladen oder Echtzeitfotos machen, damit die KI das Bildinhalt erkennt und versteht und anschließend relevante Informationen liefert oder weitere Aktionen ausführt.
Seit der Veröffentlichung am 18. November bis zum Zeitpunkt der Redaktion hat die App "Lingguang" bereits über eine Million Downloads erreicht und belegt Platz 6 in der Gesamtliste des App Stores. Dieser Wachstumsgeschwindigkeit hat auch mehrere phänomenale AI-Apps übertroffen. Laut den Daten der mobilen Anwendungsanalyseagentur Appfigures hat die kürzlich viel diskutierte Sora2 fünf Tage gebraucht, um die Million Downloads zu erreichen.
Was noch bemerkenswert ist: Am 18. November hat Alibaba seine eigenen AI-B2C-Anwendungen renoviert und integriert und sie in Form der "Qianwen"-App neu veröffentlicht. Nur einen Tag später wurde "Lingguang" von Ant Group vorgestellt.
Warum wurden zwei dialogbasierte AI-Assistenten nur einen Tag auseinander veröffentlicht? He Zhengyu, CTO der Ant Group, erklärte, dass es bei der Produktveröffentlichung keine vorherige Absprache über den Zeitpunkt gegeben habe, sondern es sei einfach ein Zufall.
Ein wichtiger Hintergrund ist, dass Alibaba in den letzten Jahren nicht viel in B2C-Anwendungen investiert hat. Seit 2025, als das AI-Geschehen wieder in die Modellkonkurrenz eintrat, hat Alibaba offensichtlich begonnen, in B2C-Anwendungen schnell aufzuholen. Bei der Veröffentlichung von "Qianwen" hat Alibaba auch hochkarätig angekündigt, den Kampf um die AI-B2C-Markt zu beginnen und scheint sich einen neuen Zugang zu sichern.
Für Alibaba ist es auch wichtig, das Risiko zu diversifizieren. "Herr Ma hat uns auch ermutigt, in die Spitzengruppe der App Store-Liste aufzusteigen", sagte He Zhengyu, CTO der Ant Group.
Die aktuelle Modellfähigkeit ändert sich noch schnell und ist mit vielen Unsicherheiten verbunden. Es ist daher eine vernünftige Strategie, in mehrere Richtungen zu setzen. "Ich vergleiche es gerne damit, wenn man im Wüstenwasser sucht, würde man nicht alle Leute in eine Richtung schicken, sondern mehrere Teams in verschiedene Richtungen schicken."
Die beiden Produkte haben auch deutliche Unterschiede in ihrer Positionierung.
Betrachtet man die Positionierung, ist "Qianwen", das auf dem Alibaba-Flaggschiffmodell Qwen basiert, eher ein Ausgangspunkt, um die Modellstärke von Alibaba zu demonstrieren. Es eignet sich für die Bearbeitung von allgemeinen Wissensfragen, langfristigen Texten und komplexen logischen Schlussfolgerungen.
Im Gegensatz dazu legt "Lingguang" mehr Wert auf die Interaktionsinnovation auf mobilen Geräten. "Lingguang" kann nicht nur Fragen beantworten, sondern auch durch die Generierung von Code multimodale Inhalte (Diagramme, Schnittstellen usw.) rendern und direkt eine Webseite mit reichhaltigen Informationen liefern. Zweitens setzt es auf die Codefähigkeit, damit die KI direkt Mini-Apps für die Benutzer generieren kann.
He Zhengyu fügte jedoch hinzu, dass das Ziel von Lingguang nicht der Zugang zu einem allgemeinen Assistenten ist, und es auch nicht wie Apps wie Doubao auf die Begleitfunktion abzielt, sondern es als Effizienzwerkzeug positioniert ist.
Keine AI-Begleitung, sondern ein AI-Assistent mit höherer Informationsdichte
Der offensichtlichste Unterschied zwischen Lingguang und traditionellen allgemeinen AI-Assistenten liegt in der Innovation der Informationspräsentation.
Dies ist wie ein Schritt vorwärts in der Dialogform des herkömmlichen AI-Assistenten. Die Antworten der KI bestehen nicht mehr nur aus Texten, sondern können auch Bilder zeichnen, Animationen erstellen, 3D-Modelle generieren und Diagramme erstellen, wie ein Lehrer, der während des Erzählens zeichnet, so dass die Informationen greifbar werden.
Nehmen wir als Beispiel die Frage "Wie macht man süß-saure Spareribs". Ein traditioneller AI-Assistent würde wahrscheinlich eine lange Textrezeptur geben. Aber nicht jeder ist an diese langatmige Interaktion gewöhnt. Lingguang möchte jedoch die Informationen in verschiedenen Modalitäten präsentieren.
Das Magazin "Intelligent Emergence" hat das Rezeptsszenario getestet, indem es z. B. nach "Wie macht man süß-saure Spareribs" gesucht hat.
Das erste Erlebnis war sehr reibungslos. Lingguang hat in wenigen Sekunden ein farbenfrohes Langbild von süß-sauren Spareribs generiert. Es gibt nicht nur detaillierte Schritte, sondern auch eine ansprechende Textsatzung mit verschiedenen Schriftarten, Untertiteln, Diagrammen und sogar Emojis, so dass der Benutzer die Informationen schneller verstehen kann.
△Quelle: Intelligent Emergence
Cai Wei, der Produktverantwortliche von Lingguang, hat einen Vergleich verwendet, um dies zu erklären: "Es ist wie der Übergang von der Email- zur Web-Zeit. Früher konnte man in Emails nur Texte schreiben, aber jetzt kann man auf Webseiten Bilder, Videos und interaktive Schaltflächen sehen. Wir hoffen, dass die Antworten der KI auch eine ähnliche Informationsdichte erreichen können."
Diese "what-you-see-is-what-you-get"-Interaktion eignet sich natürlich besser für die Art, wie Menschen die Welt wahrnehmen, und kann auch in mehr Szenarien angewendet werden. Beispielsweise kann die KI beim Schreiben einer Dissertation direkt ein Diagramm generieren, wenn man eine Frage stellt. Beim Planen einer Einrichtung kann sie ein 3D-Wohnungsmodell zeichnen. Wenn man über das Sonnensystem spricht, erscheint eine Planetenbewegungsanimation im Dialogfenster.
"Wir kommen jeden Tag mit verschiedenen Informationen in Kontakt und sind oft in einem Meer von Informationen ertrinken", sagte Cai Wei. "Aber welche Informationen sind wichtig? Früher haben wir in Suchmaschinen gesucht, und es kamen uns eine Reihe von Links, die wir einzeln anklicken mussten. Wir möchten lieber eine effizientere Methode finden, um die Informationsübertragungseffizienz zu maximieren."
Die Optimierung der Informationspräsentation ist der erste Schritt. Ein weiteres Stärken der App "Lingguang" ist die "Flash-App", die automatisch interaktive "Mini-Apps" gemäß den Benutzeranforderungen generieren kann.
Wenn man beispielsweise sagt: "Hilf mir, einen Stoppuhr zu erstellen", wird in 30 Sekunden eine direkt verwendbare Stoppuhr-App generiert. Diese Mini-Apps können direkt verwendet, bearbeitet, gespeichert und geteilt werden, so wie echte Apps.
△Quelle: Intelligent Emergence
Dieser Technologieansatz ist nicht schwierig in der Theorie. Alle Spitzenmodellhersteller verwenden derzeit diese Methode, um ihre AI-Fähigkeiten zu demonstrieren. Das Wichtigste ist jedoch, ob die von der KI generierten Webseiten und Apps tatsächlich brauchbar sind.
Die Schwierigkeiten liegen eher in der Modellarchitektur und der technischen Umsetzung. He Zhengyu, CTO der Ant Group, hat in einem Interview eine Statistik genannt: Im Vergleich zur reinen Textausgabe ist die Codeexpansion etwa 5 - 6 Mal höher.
Einfach ausgedrückt: Für einen 15-Wort-Befehl wie "Generiere einen zentrierten blauen 'Absenden'-Button" muss das Modell eine tatsächlich interaktive Komponente generieren, und der erforderliche Code kann leicht mehrere Dutzend oder sogar hundert Zeichen betragen.
△Quelle: Intelligent Emergence
Die Schwierigkeit besteht darin, dass es mit einfachen Befehlen viel Rechenleistung und Zeit erfordert, um das Modell dazu zu bringen, eine große Menge an Inhalten zu generieren (hohe Codeexpansion). Um die Hochleistung und Stabilität des Modells sicherzustellen, hat Lingguang eine Reihe von technischen Optimierungen vorgenommen.
Dies erfordert nicht nur die Fähigkeit zur Codegenerierung, sondern auch eine präzise Inferenzfähigkeit (um zu entscheiden, wie die Informationen präsentiert werden), die Fähigkeit zur Toolintegration (dynamische Generierung von Karten und Diagrammen), mathematische Fähigkeiten (Verarbeitung von Datenvisualisierung) sowie ein tiefes Verständnis der Benutzerabsicht.
Deshalb wird Lingguang innerhalb der Ant Group als "Produktentwicklung an der technologischen Frontier, an der instabilsten Grenze" definiert.
Im Vergleich zu anderen Produkten, die AI-generierte Web-Apps entwickeln, zeichnet sich Lingguang dadurch aus, dass es direkt auf mobilen Geräten einsetzbar ist und fertige Anwendungen liefert, was einen höheren technischen Schwierigkeitsgrad bedeutet.
△Eine "Was soll ich essen?"-App, erstellt mit Lingguang. Quelle: Ant Group
DeepSeek hat die Großkonzerne von den Lasten der App-Entwicklung befreit
Die Veröffentlichung von DeepSeek R1 im Januar dieses Jahres war der Wendepunkt, als Ant Group beschloss, sich vollständig auf die AGI zu konzentrieren. He Zhengyu beschrieb seine Gefühle in diesem Moment mit drei Worten: Aufregung, Dringlichkeit und Scham.
"Die AGI war bisher eine Legende mit Milliarden- oder sogar Billionen-Dollar-Investitionen. DeepSeek hat es mit sehr begrenzten Ressourcen geschafft, was uns ein enormes Vertrauen gegeben hat", sagte He Zhengyu. "Wir haben uns auch gefragt, warum wir viele unserer technologischen Erkenntnisse nicht besser zusammengeführt und in einem Produkt umgesetzt haben, so dass die Benutzer direkt den Nutzen spüren können."
Nach dem chinesischen Neujahr hat Ant Group Ressourcen zusammengetragen und eine unabhängige AGI-Organisation namens "Inclusion AI" gegründet, eine dreiseitige Organisation, die Forschung, Technik und Produktentwicklung vereint.
Strategisch gesehen hat Ant Group auch eine Entscheidung getroffen: Es will nicht den Zugang zu einem allgemeinen AI-Assistenten erobern - wie beispielsweise Doubao, das auf die AI-Begleitfunktion abzielt und den Benutzern Zeit vertreiben möchte. Stattdessen konzentriert es sich zunächst auf eine speziellere Richtung: Coding-Fähigkeit + Multimodale Inhalte, und positioniert sich als Effizienzwerkzeug.
Um dieses spezielle Ziel zu erreichen, hat Ant Group einige Kompromisse gemacht. Beispielsweise haben die Modellhersteller in diesem Jahr stark um die Verbesserung der Inferenzfähigkeit konkurriert, aber Lingguang hat diese Funktion nicht in das Produkt integriert. "DeepSeek hat es bereits gut genug gemacht und kann vielen Problemen helfen. Es ist nicht notwendig, es noch einmal zu reproduzieren", sagte Cai Wei.
Ant Group setzt auf die stetig wachsende Coding-Fähigkeit der Basis-Modelle.
Im März 2025, als das Projekt "Lingguang" gestartet wurde, war die Coding-Fähigkeit der Basis-Modelle noch in einem sehr frühen Stadium, und die Ergebnisse der App-Generierung mit einem Satz waren sehr enttäuschend.
"Wir wussten damals, dass die Coding-Fähigkeit sehr wichtig ist und sich stetig verbessern wird. Aber wie weit diese Entwicklung gehen würde und ob sie in drei, sechs oder neun Monaten die Benutzererwartungen erfüllen würde, war sehr ungewiss", sagte Cai Wei.
Die Fähigkeit des Modells bestimmt die Obergrenze des Produkts. Ant Group hat entschieden, sowohl von der Modell- als auch von der Produktsicht her voranzugehen. Das Basis-Modell-Team hat in dieser Phase die unterliegende Coding-Fähigkeit verbessert, und das Anwendungs-Team hat sich um die Nachbearbeitung und Produktoptimierung gekümmert.
Die Funktionsupdates, die Ant Group vornimmt, sind alle langfristig akkumulierbar und wiederverwendbare Module. Wenn das Basis-Modell aktualisiert wird, können alle Nachbearbeitungsoptimierungen hinzugefügt werden, anstatt alles von vorne zu beginnen.
Nach der Veröffentlichung von DeepSeek haben sich die AI-Anwendungen der verschiedenen Unternehmen in ihren Produktansprüchen deutlich unterschieden. In der heutigen Zeit ist die Produktvision möglicherweise wichtiger als der kurzfristige Wettbewerb.
Die Differenzierung ist das wichtigste Problem auf dem heutigen AI-Markt. Die allgemeinen AI-Assistenten basieren auf der ständigen Verbesserung der Basis-Modelle, und der Wettbewerb ist sehr stark. Beispielsweise geht Doubao von ByteDance einen eher populären Weg mit stärkerer Schwerpunktsetzung auf multimodale Interaktionen wie Sprachsteuerung. DeepSeek und Kimi konzentrieren sich eher auf spezialisierte Arbeitsumgebungen.
Wenn man die AGI-Strategie von Ant Group in einem Satz zusammen