In drei Tagen habe ich gesehen, wie die künftige Künstliche Intelligenz in unser Leben eingreifen wird.
Am 28. Juli endete die dreitägige Welt-Künstliche-Intelligenz-Konferenz 2025 (im Folgenden WAIC genannt).
Insgesamt gesehen, wenn man sie als "weltweit" bezeichnen will, fehlt es noch etwas: Einerseits waren außer Google nur Tesla mit seinem "Auto - Optimus-Roboter" vertreten und hatte einen Stand aufgebaut. Andererseits, obwohl es eigentlich die Bühne für Roboter sein sollte, entschieden viele Hersteller aufgrund einer anderen WRC (Welt-Roboterturnier) in Peking eine Woche später, ihre Schwergewichte für die nächste Veranstaltung aufzubewahren.
Dennoch stieg die Popularität der WAIC von Jahr zu Jahr. In diesem Jahr versammelten sich mehr als 1.500 Experten aus über 70 Ländern und Regionen sowie mehr als 800 Unternehmen in der Shanghai World Expo Exhibition & Convention Center. 12 Turing-Preis- und Nobelpreisträger waren ebenfalls anwesend. Die Ausstellungsfläche überstieg erstmals 70.000 Quadratmeter, und die Besucherzahl in den drei Tagen wird auf 350.000 geschätzt. Die Eintrittskarten waren bereits zwei Tage vor der Eröffnung ausverkauft, und Schwarzhändler boten sie vor Ort für Tausende Yuan an.
Außer der großen Begeisterung lieferte diese WAIC auch viele Signale.
Yilan Business hat an der Veranstaltung vier offensichtlichste Veränderungen zusammengefasst:
1. Generative KI ist "allgegenwärtiger" geworden und hat sich von der Textgenerierung und Bildgestaltung bis in die Kernbereiche wie Industrie, Medizin und Verkehr ausgebreitet; 2. Der Fortschritt der Rechenleistung: Chinesische Chips und die ganzheitliche Zusammenarbeit sind zu häufigen Begriffen geworden. Der Wettbewerbsschwerpunkt hat sich von der "Leistung eines einzelnen Chips" auf die "Effizienz der gesamten Kette" verlagert;
3. Roboter können nicht nur "Stellungen einnehmen", sondern haben auch deutlich verbesserte Fähigkeiten in Bewegungskontrolle, Emotionsinteraktion und "Kunststücken"; 4. Robotaxi hat einen großen Schritt vorwärts getan. Die Hersteller haben immer mehr Fahrerlaubnisse erhalten, und das multimodale Modell im Fahrzeug ist dabei, die Vorstellungskraft des Verkehrssystems neu zu formen.
Allgegenwärtige KI
Das stärkste Gefühl bei dieser WAIC war: Große Modelle befassen sich nicht mehr nur mit "Parametern", sondern gehen in verschiedene konkrete Szenarien ein - von der Fahrzeugkabine bis zur Produktionshalle, vom Online-Service bis zum Kaffee-Roboter in der Ausstellungshalle kann man sie überall sehen.
Zunächst hat die Fähigkeit der großen Modelle selbst einen Sprung gemacht. Das neue Basis-Modell Step 3 von Jieyue Xingchen nutzt die MoE-Architektur mit 321 Milliarden Parametern und 3,8 Milliarden aktiven Parametern. Es ist das erste vollformatige, native multimodale Inferenzmodell. Es kann gleichzeitig Text, Bilder und mathematische Symbole verstehen und hat eine Generationenüberschreitende Verbesserung der Inferenz- und Decodier-Effizienz auf chinesischen Chips erreicht, was bedeutet, dass Modelle, die "klüger aber rechenleistungsschonender" sind, in die Anwendungsphase eintreten.
Was die "Anwendung" betrifft, hat MiniMax eine andere Lösung gefunden - es hat das Modell direkt in einen ganzheitlichen intelligenten Agenten namens MiniMax Agent umgewandelt. Er kann Aufgaben zerlegen, APIs aufrufen, Zahlungen initiieren und lange Prozesse steuern. Bei der Demonstration vor Ort konnte er mit einem Satz einen Unternehmensdaten-Dashboard generieren oder eine einfache E-Commerce-Website automatisch aufbauen und den Zahlungszyklus abschließen, was die erste Form eines "KI-Kollegen" zeigt. 12 schnelle Iterationen innerhalb eines Monats spiegeln auch das Tempo des Wettbewerbs in diesem Bereich wider.
Das Sicherheitsrisiko wurde von Hehe Information separat behandelt. Seine KI-Antifälschungstechnologie kann in Millisekunden Tieffake erkennen, was besonders für Branchen wie Finanzwesen und Verwaltung von entscheidender Bedeutung ist. Der Stand lockte viele Besucher mit der Interaktion "Finde den Unterschied in den Gemälden": Nach dem Scannen der verfälschten "Mona Lisa" und "Sonnenblumen" durch das Modell werden die Anomalien in Licht und Textur der gefälschten Bereiche angezeigt, und es wird eine Bewertung der Echtheit gegeben. Diese Technologie ist auch für Hochrisikoszenarien wie Gesichtsveränderungen und Quittungsverfälschungen geeignet.
Baidu zeigte auf der Ausstellung eine ganze "Anwendungsgenerierungs-Fertigungsstraße". Auf der einen Seite hat GenFlow 2.0 die Fähigkeit, mehrere intelligente Agenten zu steuern und auf einmal Präsentationen, Diagramme, Webseiten und Skripte zu generieren; auf der anderen Seite besteht die Miaoda-Plattform, auf der die Nutzer ihre Anforderungen in einem Satz beschreiben können und in drei Minuten eine lauffähige Anwendung generieren lassen können. Bei der Live-Demonstration wurde ein "Anmeldeprogramm für Veranstaltungen" von der Oberfläche bis zur Logik automatisch generiert. Die verbesserte Version des Digitalhumans Nova wurde ebenfalls vorgestellt. Seine Bewegungen sind natürlicher, und die Sprachklonung ist näher an einem echten Moderator, was für die Live-Streaming- und Kurzvideo-Marketing-Szenarien geeignet ist.
Agora, das sich auf Echtzeitinteraktion konzentriert, hat eine neue Version des dialogorientierten KI-Engines vorgestellt, die drei neue Fähigkeiten wie Stimmgelerkennung, visuelle Verständnis und Interaktion mit Digitalhumans hat. Der interaktive Stofftier "Fu Zai" war ein beliebtes Exponat vor Ort: Er kann in einem lauten Umfeld die Stimmen verschiedener Personen unterscheiden, präzise auf Befehle reagieren und durch die Kamera Gesten und Mimiken erkennen und anthropomorphe Reaktionen zeigen. Seine Anwendungspotenziale in Bereichen wie Bildung, Kundenservice und Unterhaltung sind offensichtlich.
Alibaba Cloud hat offiziell seinen ersten "Superhirn" für KI-Agents namens Wuying AgentBay vorgestellt. Dieser Cloud-Computer kann gleichzeitig Code ausführen, Webseiten öffnen, Daten analysieren und Tabellen erstellen. Er hat mehrere KI-Fähigkeiten wie visuelles Verständnis, natürliche Sprachsteuerung und Aufgabenanalyse und kann nahtlos zwischen Systemen wie Windows, Linux und Android wechseln. Man kann ihn mit nur drei Codezeilen verbinden, was wie ein "Einzug in einen fertigen Wohnung" ist.
Bei dieser Konferenz hat Alibaba Cloud auch seine ganzheitlichen Fähigkeiten von der Infrastruktur über die Modelle bis hin zu den Plattformanwendungen vollständig präsentiert: Dazu gehören der Cloud-native CPU Yitian 710, das Feitian-Cloud-Computing-Betriebssystem, die HPN7.0-Architektur für intelligente Rechenleistung, der AI Stack All-in-One sowie die Tongyi Qianwen- und Tongyi Wanxiang-Großmodelle und die Bailian- und PAI-Plattformen.
Insgesamt zeigten sich in der generativen KI-Ausstellung zwei Signale: Erstens ist die Multimodalität und die Agentenbildung zur Konsens geworden. Große Modelle werden zu Werkzeugen, die "arbeiten" können, anstatt nur Parameter zu präsentieren; zweitens wurden die Themen Sicherheit und Kosten in den Vordergrund gerückt, und die Hersteller beginnen, sich dem Problem der Fälschungskontrolle und der Inferenz-Effizienz zu stellen.
GPU-Bereich: Der umfassende Angriff chinesischer Rechenleistung
Wenn man die generative KI als "Gehirn" betrachtet, dann ist die Rechenleistung der "Muskel". Auf dieser WAIC waren die chinesischen GPU-Hersteller fast reihenweise vertreten und zeigten eine kollektive "Muskelprobe" von der Chip-Architektur bis zur Lösung für intelligente Rechenzentren.
Das Ausstellungsgebiet von Huawei zeigte die neuesten Fortschritte der Ascend AI. Der Kernpunkt ist der Ascend Cloud Service basierend auf dem CloudMatrix 384 Superknoten: 384 Ascend NPUs und 192 Kunpeng CPUs sind über das neue Hochgeschwindigkeitsnetz MatrixLink vollständig gleichberechtigt miteinander verbunden und bilden einen super "KI-Server" mit einer Rechenleistung von 300 PFlops. Dadurch wurde die Bandbreitenleistungsschranke der Kommunikation zwischen Maschinen erfolgreich überwunden, und es wurde ein Übergang von der Ressourcenversorgung auf Serverebene zur Matrixebene erreicht.
Der CloudMatrix 384 Superknoten von Huawei Cloud hat auch vier technische Merkmale: Erstens hat er eine starke Durchsatzleistung und kann eine Hardware-Software-Kooptimierung erreichen. Der Decodier-Durchsatz pro Karte erreicht 2.300 Tokens; zweitens deckt er viele gängige Modelle ab und hat mehr als 160 gängige Branchenmodelle gesammelt, die eine effiziente Migration von Modellen unterstützen können; drittens hat er eine hohe Effizienz bei der Parallelisierung von Experten. Es ist das erste großangelegte parallele Expertensystem in China, das eine systemweite Optimierung erreichen kann, um einen höheren Durchsatz und eine geringere Decodierverzögerung zu unterstützen; viertens ist es skalierbar, mit geringem Anfangsinvestment und jährlichen Updates. Es kann flexibel und bedarfsgerecht eingesetzt werden, was die Umsetzung von "KI +" besser unterstützen kann.
MuXi Technology hat sein neues Flaggschiffprodukt - den Xiyun C600 GPU - vorgestellt. Dieser Chip nutzt die eigene GPU-IP-Architektur und hat einen vollständig chinesischen Lieferketten-Closed-Loop von der Entwicklung über die Herstellung bis zur Verpackung und Prüfung aufgebaut. Der Xiyun C600 unterstützt eine große Speicherkapazität und gemischte Rechenleistung mit mehreren Genauigkeiten und ist mit der MetaXLink-Superknoten-Erweiterungstechnologie ausgestattet, um die Trainings- und Inferenzanforderungen der nächsten Generation generativer KI zu erfüllen. Bemerkenswerterweise ist er mit einem ECC/RAS-Sicherheitsschutzmodul ausgestattet und zielt auf Szenarien wie Finanzwesen und Verwaltung ab, um sich vollständig mit internationalen Flaggschiff-GPU-Produkten zu messen.
Der Stand von Moore Threads war eher wie ein "Ganzheitlicher Rechenleistungssupermarkt". Es nutzt die vollfunktionalen GPUs als Basis und deckt die gesamte Produktlinie von der Cloud bis zum Endgerät ab: Der Flaggschiff-Server MCCX D800 X2 für das Training von Großmodellen basiert auf dem selbst entwickelten OAM-Modul und der Hochgeschwindigkeits-ganzheitlichen Verbindungsarchitektur und kann die Skalierung von Billionen von Parametern unterstützen. Die neu vorgestellte intelligente Rechenbeschleunigungskarte MTT S4000 ist sowohl für Training als auch für Inferenz geeignet. Sie hat einen 48 GB Grafikspeicher und eine 768 GB/s Bandbreite pro Karte und unterstützt die gemischte Genauigkeit von FP8 und FP64. Die Cloud-Rendering-Karte MTT S3000 und die Desktop-Grafikkarte MTT S80 richten sich jeweils an den Markt für Cloudspiele, Digitaltwin und Privatverbraucher. Außerdem gibt es das AI-Rechenmodul für Randbereiche wie Industrie und Verkehr, das mit einer Rechenleistung von 50 TOPS eine kollaborative Bereitstellung zwischen Edge und Cloud ermöglicht.
Der größte Vorteil von Moore Threads liegt in seiner ganzheitlichen "Cloud - Edge - Endgerät"-Strategie. Die gleiche MUSA-Architektur kann sowohl das Training von Großmodellen als auch die Grafikrendering und die wissenschaftliche Berechnung unterstützen, was seine Produkte natürlich an die Anforderungen der Multimodalität und der Embodied Intelligence anpasst.
Suoyuan Technology hat mit dem Thema "Das Feuer der Chips erobert die Welt" eine praktische kommerzielle Umsetzung gezeigt. Der Stand zeigte vor allem die massenhafte kommerzielle Anwendung der "Suoyuan® S60" KI-Inferenzkarte, insbesondere in Szenarien wie Chatbots, Codegenerierung, Suchempfehlungen und Werbeplatzierungen. Suoyuan hat auch die DeepSeek All-in-One-Serie vorgestellt, die auf die Anpassung an chinesische CPUs und die Optimierung für verschiedene Szenarien abzielt, um Unternehmen mit niedrigeren Barrieren in die KI-Inferenzbranche einzuführen. Sie haben gleichzeitig die Implementierungsfälle ihrer intelligenten Rechenzentren in Qingyang, Wuxi, Yichang und anderen Orten bekannt gegeben und betont, dass der Weg "zuerst kommerzialisieren, dann verbessern" ist.
Insgesamt hat sich der Schwerpunkt des Wettbewerbs um die Rechenleistung von der Leistung einer einzelnen Karte auf die Effizienz und die Kosten der gesamten Kette verlagert - insbesondere angesichts des kontinuierlichen Absinkens der Inferenzkosten von Großmodellen wird der "Kostenleistungs"-Vorteil chinesischer GPUs vom Markt vergrößert.
Embodied Intelligence: Kann auftreten und arbeiten
Wenn man sagt, dass die Roboterausstellung im vergangenen Jahr noch im Stadium "gehen und stehen können" war, hat die Embodied Intelligence in diesem Jahr begonnen, "auftreten und arbeiten zu können". Sowohl bei Bühnenaufführungen als auch bei industriellen Operationen waren die Bewegungen der Roboter flüssiger, ihre Reaktionen empfindlicher, und sie hatten sogar etwas "Emotionsausdruck".
Qianxun Intelligence war erstmals auf der WAIC vertreten und brachte den humanoiden Roboter Moz1 mit. Dies ist sein Starprodukt für verschiedene Szenarien. Mit dem selbst entwickelten Spirit v1 VLA-Modell und einem erstklassigen Bewegungskontrollsystem kann der Moz1 schwierige Bewegungen wie Moonwalk, S-förmige Kurvenfahrt und aktives Gleichgewichtschallenge ausführen, und die Glätte ist fast so gut wie die eines Menschen. Der Stand hatte mehrere Interaktionsbereiche: Im Getränkebereich kann der Moz1 nach dem Bestellen über das Scannen eines Codes ein Getränk präzise greifen und ausliefern. Im Fernsteuerungsbereich können die Besucher die Erfahrung "Einen Roboter im Handheld-Labyrinth zu steuern" machen, indem sie eine Null-Latenz-Synchronisierung nutzen. Im Kleiderfalzbereich kann der Moz1 durcheinander liegende Kleider erkennen und präzise zu einem ordentlichen "Tofu-Block" falten, was seine starke Generalisierungsfähigkeit zeigt.
Fourier Intelligence hat einen anderen Weg gewählt - die Kombination von Emotionalität und Rehabilitation. Es brachte auf der WAIC den GR-3, einen interaktiven Begleitroboter, der bald auf den Markt kommen wird. Er hat erstmals eine weiche Hautumhüllung und eine Mauve-Farbdesign, was ihn nicht mehr "eiskalt" erscheinen lässt. Der GR-3 ist für Szenarien wie Gesundheitsfürsorge und Begleitung konzipiert und kann mehrdimensionale Dienstleistungen wie Patientenführung, k