Im Jahr 2025: Glauben chinesische Large Language Models nicht an das Prinzip "Mit genügend Kraft gelingt alles"?
Der generative KI-Boom hat sich über drei Jahre hinweg entwickelt. 2025 wird ein Jahr der Architekturinnovation für KI sein. Drei Entwicklungspfade verweben sich miteinander. Angesichts der Debatte darüber, dass die Skalierungsregel (Scaling Law) ihre Grenzen erreicht hat, beginnt man, neue Paradigmen für die Evolution der KI zu definieren.
Der erste Entwicklungspfad ist die Vertiefung des Kognition: von der "Intuition" zur "Logik". Im Jahr 2025 wird es ein konsensfähiger Fortschritt bei den führenden Modellen sein, dass durch verstärktes Lernen (RL) in Kombination mit längeren Zwischenschritten der Inferenz die Modelle von der schnellen Mustererkennung, die eher der System-1-Art (schnelles Denken) entspricht, allmählich zur mehrstufigen Inferenz übergehen, die der System-2-Art (langsames Denken) näher kommt.
Der zweite ist der Durchbruch in der Dimension: von der "Sprache" in den "physischen Raum". Die von Fei-Fei Li betonte "räumliche Intelligenz" (Spatial Intelligence) lässt die Evolutionslogik der KI von der "Verständnis der Welt beschreibenden Symbole (Sprache)" zur "Verständnis der Welt selbst (Physisch)" evolvieren.
Der dritte ist die Umstrukturierung der Effizienz: von der "Kraftästhetik" zur "Kosteneffizienz". Auf der Ebene der industriellen Umsetzung kehrt die Evolutionslogik der Technologie schließlich zur maximalen Rechenleistungseffizienzratio zurück. Um die tiefe Inferenz und das räumliche Verständnis zu unterstützen, muss die Modellarchitektur "leichter" werden.
Architekturinnovationen, repräsentiert durch MoE (Mixture of Experts) und sparse Attention (Sparse Attention), werden der Schlüssel zur Lösung des Problems des Kollaps der Rechenleistung bei unendlichem Kontext (Infinite Context) sein.
Im Dezember 2025 fand auf der Tencent Technology HiTechDay ein Round-Table-Diskussionsforum mit dem Thema "Weitere Evolution der Modelle: 2025, die KI definiert die Welt neu" statt, das sich um die drei Aspekte Tiefe, Dimension und Effizienz der Evolution der großen Modelle drehte.
Xiong Yuxuan, Assistentprofessor an der Fakultät für Künstliche Intelligenz und Pädagogik der Zentralchina-Normaluniversität, moderierte das Forum. Drei Gäste, Wang Zhongyuan, Direktor des Peking Institute of Intelligent Artificial Intelligence, Liu Zhiyuan, Mitbegründer und Chefwissenschaftler von Mianbi Intelligence, und Chen Shi, Investmentpartner von Fengrui Capital, interpretierten aus ihren jeweiligen Bereichen die tiefgreifenden Beobachtungen zur Evolution der großen Modelle im Jahr 2025.
Wang Zhongyuan stellte fest, dass die Evolution der großen Modelle eine qualitative Veränderung von "Lernen aus Texten" (Learning from Text) zu "Lernen aus Videos" (Learning from Video) durchmacht. Videodaten enthalten reichhaltige raumzeitliche Informationen und dynamische Interaktionshinweise, die eine Schlüsselquelle für das Lernen der dynamischen Evolutionsgesetze der physischen Welt durch die Modelle darstellen. Gleichzeitig sind sie derzeit die am leichtesten skalierbar zu gewinnende Art von multimodalen Daten und eine Schlüsselbrücke für die KI, um "von der digitalen Welt in die physische Welt" zu gelangen. Sie bieten auch die Grundlage für das Aufbauen eines "Weltmodells" für den Ausbruch der eingebetteten KI (Embodied AI).
Liu Zhiyuans "Dichtegesetz" (Densing Law) besagt, dass, ähnlich wie das Moore'sche Gesetz für Chips, die Zukunft der KI darin besteht, die "Intelligenzdichte" pro Parameter stetig zu erhöhen. Er prophezeit mutig, dass die zukünftige Rechenleistungslage sein wird, dass "die Cloud für die Planung zuständig ist und das Endgerät für die Ausführung". Bis 2030 könnten wir es sogar schaffen, die Fähigkeiten auf GPT-5-Niveau auf Endgeräten zu tragen. Dies ist der Kernweg für die chinesische KI, um sich in einer rechenleistungseingeschränkten Umgebung durchzusetzen.
Betrachtet man die Realität der Umsetzung von großen Modellen in Unternehmen, so meint Chen Shi, dass die "Doppelkern-Dynamik", die sich aus den Beziehungen zwischen China und den USA sowie zwischen Open-Source- und Closed-Source-Modellen ergibt, bereits etabliert ist. Die "Eingangsschutzmauern" für die Kommerzialisierung haben sich in eine dreistufige Pyramide von "Rechenleistung, Fähigkeiten und Ökosystem" gewandelt. Zwischen den Märkten für Business-to-Business (ToB) und Business-to-Consumer (ToC) wird der "ToP (To Professional)"-Sektor, der auf professionelle Nutzer abzielt, zuerst einen geschlossenen Geschäftsprozess etablieren.
Für Unternehmer liegen die Chancen nicht mehr auf der Oberfläche, sondern im "Tiefenbereich von Branchen, die für die großen Modelle schwer zugänglich sind". Sie müssen sich bemühen, eine Geschäftsstuktur aufzubauen, die die Zyklen der Modelliteration überdauern kann.
Im Folgenden finden Sie die Transkription des Round-Table-Diskussionsforums. Es wurden einige Passagen zur Beibehaltung der Bedeutung gekürzt und angepasst:
01 Die drei Schlüsselwörter für die Evolution der großen Modelle im Jahr 2025
Xiong Yuxuan: Bitten Sie zunächst alle Gäste, in möglichst einfachen Worten die Schlüsselwörter, die Schlüsseltechnologien und die Produkte der großen Modelle zusammenzufassen, die Ihnen im Jahr 2025 am meisten in Erinnerung geblieben sind.
Wang Zhongyuan: Ich denke, dass ein wichtiger Wandel im Jahr 2025 darin besteht, dass die großen Sprachmodelle in einen relativ reifen Zustand gekommen sind und nun mit der Optimierung der Effizienz und der Kommerzialisierung beginnen. Gleichzeitig hat die Multimodalitätstechnologie einen neuen Durchbruch erreicht, und die Künstliche Intelligenz beschleunigt ihren Übergang von der digitalen Welt in die physische Welt.
Liu Zhiyuan: Man sieht, dass Agenten, tiefes Denken und die Fähigkeiten der großen Modelle in Fachgebieten wie Mathematik und Code immer stärker werden. Ich denke, dass das Schlüsselwort dahinter das verstärkte Lernen sein sollte.
Chen Shi: Ich betrachte die Sache aus einer anderen Perspektive und finde, dass es ein Schlüsselwort namens "Doppelkern-Dynamik" gibt. Dies hat zwei Bedeutungen: Erstens, die Doppelkern-Dynamik zwischen Open-Source- und Closed-Source-Modellen. Zweitens, die Doppelkern-Dynamik zwischen chinesischen und amerikanischen Unternehmen und Talenten. Insbesondere im Jahr 2025 war es für uns sehr aufregend, dass die großen chinesischen Modelle einen Durchbruch erzielen konnten.
02 Hat die Skalierungsregel (Scaling Law) ihre Grenzen erreicht? Neue Paradigmen für die Modelliteration
Xiong Yuxuan: Die Konkurrenz zwischen den SOTA-Modellen von OpenAI und Google ist derzeit sehr heftig. Ein Trend ist, dass die Grenznutzen des bloßen Aufwands an Rechenleistung und Parametern abnimmt.
Die erste Frage richtet sich an Herrn Direktor Wang. Glauben Sie, dass die sogenannte Skalierungsregel (Scaling Law) im Jahr 2025 ihre Grenzen erreicht hat? Wenn die Parameter nicht mehr das einzige Kriterium sind, welche neuen Kernvorteile hat das Peking Institute of Intelligent Artificial Intelligence derzeit in der Trainingsmethode?
Wang Zhongyuan: Ich denke, dass man die Frage, ob die Skalierungsregel ihre Grenzen erreicht hat, je nach Modelltyp beantworten muss. Bei den großen Sprachmodellen hat die Verbesserungsgeschwindigkeit ihrer Leistung aufgrund der Knappheit der Internet-Text-Daten nicht mehr so schnell zugenommen wie zuvor. Andererseits haben kürzlich Modelle wie das Gemini 3 Pro und das von unserem Institut veröffentlichte Wujie·Emu3.5 neue Verbesserungsmöglichkeiten in der Multimodalität gefunden.
Ich denke, dass die Verbesserung der großen Modelle von der bisherigen Methode des Lernens aus Texten (Learning From Text) zur Methode des Lernens aus Videos (Learning From Video) evolvieren wird. Die Menge an Videodaten ist um ein Hundert-, Tausend- oder sogar Millionfaches größer als die Menge an Internet-Text-Daten. Diese Daten wurden bisher noch nicht sehr effektiv für das Training von Multimodal-Modellen genutzt. Dies ist eine neue Entwicklungsmöglichkeit für die großen Modelle in der Zukunft.
Xiong Yuxuan: Die nächste Frage richtet sich an Herrn Professor Liu. Mianbi hat immer die Verbesserung der "Fähigkeitsdichte" der Modelle angestrebt. Wir hatten in der Vergangenheit die Gewohnheit, dass kleine Modelle eine geringere Intelligenz bedeuten. Aber die MiniCPM-Serie von Mianbi hat einige überlegene Leistungen erzielt.
Wo sehen Sie die physikalische Obergrenze für die Verbesserung der Intelligenz kleiner Modelle? Wird es in Zukunft eine Situation geben, in der die Cloud für die Planung und das Endgerät für die Ausführung zuständig ist?
Liu Zhiyuan: Es gibt sicherlich eine physikalische Obergrenze. Unser "Dichtegesetz" hat eine Entwicklungsmethode für die großen Modelle entdeckt, die dem Moore'schen Gesetz für Chips ähnelt. Das heißt, dass wir alle 100 Tage die Dichte des Modells erhöhen können. Genau wie das Moore'sche Gesetz für Chips durch technologische Innovationen erreicht wird, müssen wir auch durch feinere technologische Innovationen mehr Wissen in einen kleineren Raum packen.
Betrachtet man die Sache aus einer dynamischen Perspektive, wird diese Dichte stetig steigen. Was die physikalische Obergrenze ist, muss noch durch die bessere Konstruktion der technologischen Theorie der Künstlichen Intelligenz geklärt werden. Darüber hinaus wird die Zusammenarbeit zwischen Cloud und Endgerät sicherlich die Zukunft sein. Wir brauchen keinen Yang Zhenning der KI für jeden Menschen, aber wir brauchen viele Experten in der Cloud. Es muss eine Aufteilung der Arbeit zwischen Endgerät und Cloud geben.
Xiong Yuxuan: Die nächste Frage richtet sich an Herrn Chen. Aus Sicht eines Anlegers, hat sich die "Eingangsschutzmauer" von Unternehmen, die mit großen Modellen arbeiten, im Jahr 2025 verändert? Früher sagten wir immer, dass Rechenleistung und Daten das Entscheidende seien. Ist es jetzt die Fähigkeiten, die Anwendungen oder das Ökosystem, die das entscheidende sind?
Chen Shi: Die Branche der großen Modelle ist ein Bereich, in dem der Sieger alles gewinnt. Es werden weltweit nur wenige Unternehmen übrig bleiben. Die "Eingangsschutzmauer" ist vielfältig. Ich verstehe sie als eine dreistufige Struktur.
Die unterste Stufe ist die Beschaffung, Organisation und effektive Nutzung von Rechenleistung. Die zweite Stufe sind die Fähigkeiten des Modells. Dies betrifft die Obergrenze des Modells. Wenn ein Modell nicht auf dem neuesten Stand (SOTA - State-of-the-art) bleibt, wird es allmählich zurückfallen. Die wichtigste dritte Stufe ist das Ökosystem, einschließlich der Möglichkeit, über Anwendungen auf die Nutzer zuzugreifen, die Zusammenarbeit mit Partnern, um die Nutzer zu erreichen, und die Möglichkeit, kontinuierlich Datenrückmeldungen zu erhalten. Also ist die Grundlage die Rechenleistung, die Mitte die Fähigkeiten und die Oberseite das Ökosystem.
03 Vom Spielzeug zum Werkzeug: Die kommerziellen Engpässe von KI-Agenten
Xiong Yuxuan: Das Jahr 2025 wird als das "Jahr der kommerziellen Einführung von KI-Agenten" bezeichnet. Aber die Nutzer geben allgemein an, dass die Demos zwar vielversprechend sind, aber die Praxis enttäuscht. Ich möchte Herrn Direktor Wang fragen, welche technologischen Engpässe derzeit die größte Hürde darstellen, damit KI-Agenten von Spielzeugen zu Werkzeugen werden können?
Wang Zhongyuan: Ich denke, dass es drei Gründe dafür gibt.
Erstens, die Fähigkeiten der Basis-Modelle sind immer noch unzureichend, insbesondere in der Kernfähigkeit der Inferenz gibt es noch Verbesserungspotenzial.
Zweitens, wenn die Modelle in verschiedene Branchen gehen, um branchenspezifische Probleme zu lösen, müssen sie auf der Grundlage von Branchen-Daten weiter trainiert oder angepasst werden. Aber oft tritt das "Wippe-Effekt" auf, d. h. wenn die Fähigkeiten in einer bestimmten Richtung verbessert werden, verschlechtern sich die Fähigkeiten in anderen Richtungen.
Drittens, es gibt Probleme mit dem Gedächtnis- und Vergessensmechanismus der Modelle. Ein Mensch vergisst nicht plötzlich, wie man kocht, nachdem er gelernt hat, wie man fährt. Aber die Modelle haben noch viele Probleme in dieser Hinsicht zu lösen.
Xiong Yuxuan: Die nächste Frage richtet sich an Herrn Professor Liu. Mianbi hat einige Forschungen an Endgerät-basierten KI-Agenten durchgeführt. Was halten Sie für den größten Unterschied zwischen Endgerät-basierten und Cloud-basierten KI-Agenten? Wie können Sie das Problem lösen, dass Endgeräte mit begrenzter Rechenleistung sowohl schnell reagieren als auch tief denken müssen?
Liu Zhiyuan: Die Endgeräte sind ein sehr wichtiger Aspekt für die Umsetzung von KI-Agenten, einschließlich eingebetteter Roboter, Autos, PCs und Mobiltelefone. Die Endgeräte sind am nächsten an den Nutzern und können die Anforderungen an Privatsphäre, Echtzeit und Stabilität erfüllen. Aber die Herausforderung besteht darin, dass die Rechenleistung der Endgeräte begrenzt ist. Dies erfordert, dass wir die Modelle mit einer höheren "Dichte" ausstatten, um stärkere Fähigkeiten zu erreichen.
Endgerät-basierte KI-Agenten sind am nächsten an den Nutzern und müssen eine gute Fähigkeit zur Wahrnehmung und zum Verständnis von multimodalen Daten haben, eine gute Fähigkeit zur individuellen Serviceleistung für die Nutzer und eine gute Fähigkeit zur Generierung von Handlungsanweisungen nach außen. Dies ist ein relativ großer Unterschied zu den hauptsächlich in der digitalen Welt befindlichen Cloud-basierten KI-Agenten.
Xiong Yuxuan: Herr Chen, welchen Typ von Agenten halten Sie für den profitabelsten im Jahr 2025? Einen, der in der B2B-Branche die Aufgaben von Junior-Mitarbeitern übernimmt, oder einen, der im B2C-Bereich ein persönlicher Begleiter für das tägliche Leben ist?
Chen Shi: Ich habe letztes Jahr eine Meinung vertreten: Zwischen dem B2B- und B2C-Markt gibt es eigentlich einen ToP (To Professional)-Sektor mit hohem Wert, d. h. einen Markt für "Super-Nutzer" oder "Experten-Nutzer".
Betrachtet man China und die USA, so ist derzeit der ToP-Sektor derjenige, in dem die KI-Branche die höchste Liquiditätsrate erzielt. Dies gilt sowohl für die beliebte AI Coding als auch für die bezahlten Tools in der Creator-Ökonomie. Selbst wenn ChatGPT eine riesige wöchentliche Aktivitätszahl hat, sind die meisten