StartseiteArtikel

Glaube und Durchbruch: Vorausschau auf die Trends der Künstlichen Intelligenz 2026

腾讯研究院2025-12-22 17:26
Eine intern veröffentlichte Rote Alarmmeldung hat erneut die Trommel für den weißen-hotten Wettbewerb im Bereich Künstlicher Intelligenz geschlagen.

Niemand hätte gedacht, dass im dritten Jahrzehnt von ChatGPT keine Feiern und Gedenkveranstaltungen stattfinden würden, sondern stattdessen eine interne Rote Alarmmeldung erneut die Trommel für die weiße-hitze Intelligenzkonkurrenz schlägt. Angesichts der beeindruckenden Effekte von Gemini 3 hat OpenAI die Einführung von GPT 5.2 beschleunigt und mit mehr Ressourcen in mehreren Indikatoren die Überholung erzielt. Doch nach drei Jahren werden die Leistungsunterschiede und Paradigmenunterschiede zwischen den großen Modellen immer kleiner, und in der Branche gibt es viele Zweifel daran, dass die Entwicklung von großen Modellen an ihre Grenzen stößt. Andererseits gibt es auch viele Menschen, die fest an die Ankunft von AGI glauben, und die Branche ist von vielen Debatten und Spaltungen geprägt.

Stehend am Ende des Jahres 2025 und zurückblickend auf den Weg, den wir zurückgelegt haben, von der Popularität von DeepSeek über die Popularität von Studio Ghibli-Animationen nach GPT4o, Sora2s gemeinsame Aufnahmen mit Sam Altman bis hin zu den verschiedenen Darstellungen von Doraemon in den Bildern, die von Google Nano Banana generiert wurden. Manchmal hat man das Gefühl, als wäre man in eine andere Welt geraten. Eine Technologie, die noch dieses Jahr neu war, scheint schon seit Jahren populär zu sein.

Betrachtet man die Zukunft von 2026, so spürt man nicht nur die Sorge um die Intelligenzgrenzen von großen Modellen und die Unsicherheit bei der Rendite der Investitionen, sieht auch mehr Meinungsverschiedenheiten, sondern auch die Hartnäckigkeit und das Vertrauen der Menschen sowie die Hoffnung auf Durchbrüche in mehreren Richtungen. Mehr Erwartungen und Explorationen kommen auf uns zu.

Vertrauen

1. Die Skalierungsgesetz treibt die kontinuierliche Evolution hin zu AGI an

Seit dem Auftauchen von ChatGPT glaubt der Mainstream in der Branche, dass die Intelligenz von Maschinen wie ein physikalisches Gesetz wachsen wird, wenn man ständig die Rechenleistung erhöht, die Daten erweitert und die Parameter stapelt, bis man den Singularitätspunkt von AGI erreicht.

Allerdings werden die Zweifel an der Skalierungsgesetz immer lauter, da die Verbesserung der Intelligenz von großen Modellen in den letzten zwei Jahren allmählich verlangsamt hat und es Ansichten wie die Theorie der Datenknappheit gibt. Ist die Skalierungsgesetz die Treppe zum Altar oder eine Babelturm, die die Menschen in einem mathematischen und statistischen Labyrinth erbaut haben und die nie fertiggestellt werden kann? Gary Marcus meint, dass große Modelle die Welt nicht wirklich verstehen, sondern nur die sprachliche Korrelation in einer riesigen Menge an Texten anpassen, während echte Intelligenz Abstraktion, kausale Modellierung, symbolische Inferenz und Langzeitgedächtnis beinhalten sollte. Kürzlich hat Ilya in einem Podcast gesagt, dass die Skalierungsgesetz ihre Grenzen erreicht und dass die verstärkte Lernmethode zwar eine enorme Rechenleistung verbraucht, aber keine echte Skalierung darstellt. Zukünftige Durchbrüche werden von besseren Lernmethoden stammen, nicht von einer einfachen Skalierung.

Iljas Meinung hat ihre Berechtigung, denn es geht nicht um die Größe, sondern um gute Lösungen für Probleme. Aber vor dem Hintergrund, dass es keine bahnbrechenden Innovationen in der unteren Architektur und keine umwerfenden Veränderungen in der Trainingsmethode gibt, ist die Skalierungsgesetz immer noch ein gangbarer Weg. Aus Sicht der Ingenieurwissenschaften und der Branchenlogik ist die Skalierungsgesetz derzeit der zuverlässigste und praktikabelste Wachstumspfad. Ihre Vorteile liegen darin: Erstens kann die Leistungssteigerung vorhergesagt werden, indem man die Trainings-FLOPs erhöht und die Daten optimiert; zweitens kann die Brancheninvestition bewertet werden, da die Faktoren wie Rechenleistung, Algorithmus und Daten linear skaliert werden können; drittens muss das Personal- und Ingenieursystem nicht von Grund auf neu aufgebaut werden, sondern kann auf der Grundlage der bestehenden Architektur durch Ingenieurwissenschaften und Algorithmusoptimierung ständig verbessert werden.

Die gute Leistung von Gemini 3 seit seiner Veröffentlichung im November und die Forschung an DeepSeek V3.2 bestätigen, dass die Skalierungsgesetz auch in der gegenwärtigen Phase noch wirksam ist. Dies gibt auch der aufrührenden neuen AI-Infrastruktur in den USA mehr Selbstvertrauen. Die Gesamtleistung der geplanten und in Bau befindlichen großen Rechenzentren in den USA hat bereits 45 Gigawatt (GW) überschritten, und diese Bauboom wird voraussichtlich über 2,5 Billionen US-Dollar an Investitionen anziehen. Im Hinblick auf die zukünftige Rechenleistung hat Huang Renxun auch drei Ansichten zur Skalierungsgesetz vorgeschlagen und meint, dass es in der Vorabtrainingsphase, der verstärkten Nachtrainingsphase und der Inferenzphase Skalierungsgesetze gibt, die das kontinuierliche Wachstum der Rechenleistung unterstützen.

Die von Huang Renxun in einem Interview mit Bg 2 Pod vorgeschlagene AI-Skalierungsgesetz

Daten sind derzeit das dringendste Problem bei der Evolution von großen Modellen. Da die Rechenleistung derzeit kein Hauptengpass darstellt und die Parametergröße weiter vergrößert werden kann, fehlen jedoch qualitativ hochwertige und nutzbare Daten. Die Branche sucht derzeit nach einem systematischen Ansatz zur Datenerweiterung. Derzeit besteht ein gewisser Konsens darin, nicht einfach mehr Internettexte zu sammeln, sondern ein skalierbares Datenerzeugungssystem zu erstellen, indem man synthetische Daten, Inferenzprozessdaten, verstärkte Lernmethodedaten, Umgebungsrückmeldedaten, multimodale Daten und körperliche Daten nutzt. Man hofft, nicht nur passiv Daten zu sammeln, sondern eine fähigkeit zu entwickeln, die ingenieurmäßig umsetzbar, steuerbar und skalierbar ist. Durch bessere Lernalgorithmen soll die Lernleistung weiter verbessert werden.

In der absehbaren Zukunft wird es die Zeit der neuen Skalierungsgesetz sein, die nicht nur auf einer einfachen Anhäufung von Rechenleistung beruht, sondern sich in Richtung auf die Vergrößerung der Quantität und die Verbesserung der Qualität ausdehnt. Mit der reichlichen Unterstützung von Rechenleistung können die Forscher eine große Anzahl von Ressourcen nutzen, um möglichst viele Optimierungsmöglichkeiten für Algorithmen und Architekturen zu erkunden, was möglicherweise zu einem Durchbruch in der Grundleistung führt. AGI wird wahrscheinlich aus der Kombination von Skalierung und struktureller Innovation stammen, einschließlich Weltmodellen, neuen effizienten Trainingsarchitekturen, körperlicher Intelligenz, Langzeitgedächtnismechanismen, instrumentellen Ausführungsketten und höherwertigen Ausrichtsystemen.

2. Der ChatGPT-Moment für Multimodale Modelle ist gekommen, was möglicherweise einen nichtlinearen Sprung der Intelligenz vorantreibt

Multimodale Modelle wie Google Gemini und OpenAI Sora können bereits Texte gut zusammenfassen und lebendige Präsentationen, Podcasts und Videofilme generieren, was eine tiefe Verständnis der Inhalte ermöglicht. Man kann sagen, dass der ChatGPT-Moment für Multimodale Modelle gekommen ist. Wenn man die Evolution des Lebens betrachtet, ist Sprache eigentlich eine höhere Form der Intelligenz, und der Durchbruch der großen Modelle in dieser Welle begann tatsächlich mit der Sprache, was genau im Gegenteil zur Evolution des Lebens verläuft. In Zukunft kann der Fortschritt der Multimodalen Technologie die Evolution der Intelligenz auf einem anderen Weg erkunden und möglicherweise einer der Schlüsselfaktoren für einen nichtlinearen Sprung der Intelligenz von KI sein.

Betrachtet man die Geschichte der biologischen Evolution, so stellt man fest, dass Intelligenz keine plötzlich auftauchende abstrakte Fähigkeit ist, sondern das Ergebnis einer schrittweisen Entstehung im Zuge der Komplexifizierung des Wahrnehmungs- und Handlungssystems. Die Entstehung des Sehvermögens wird allgemein als ein entscheidender Wendepunkt angesehen. In den frühen Lebensformen konnten lichtempfindliche Zellen nur zwischen Hell und Dunkel unterscheiden, während die Entstehung des abbildenden Sehvermögens es den Lebewesen ermöglichte, Raumstrukturen, Objektgrenzen und Bewegungsverhältnisse zu erkennen. Diese Veränderung hat direkt die wahrnehmbare und handlungsfähige Welt der Lebewesen vergrößert, und die Komplexität der Jagd- und Fluchtverhaltensweisen hat sich drastisch erhöht. Das Nervensystem war gezwungen, stärkere Verarbeitungs- und Entscheidungsfähigkeiten zu entwickeln. Im Ergebnis hat das Sehvermögen nicht nur eine weitere Sinneswahrnehmung hinzugefügt, sondern auch einen stufigen Sprung in der kognitiven Fähigkeit und der Intelligenz ausgelöst.

Vor mehr als 500 Millionen Jahren im Kambrium begannen die Organe „Augen“ aufzutauchen, und die Evolutionsgeschwindigkeit der Tiere hat stark zugenommen

Seit langem lernen große Sprachmodelle die Welt hauptsächlich im Textraum. Ihr Verständnis ist kein echtes Verständnis, und ihre Wahrnehmung ist keine echte Wahrnehmung. Im Wesentlichen stammt es aus der hohen Komprimierung und Abstraktion der Realität durch die Sprache. Obwohl diese Methode bereits erstaunliche Sprachinferenz- und Wissensintegrationfähigkeiten gezeigt hat, steht sie immer vor einer grundlegenden Beschränkung, nämlich dass die Welt, mit der das Modell in Kontakt kommt, eine von Menschen gefilterte, beschriebene und neu aufgebaute zweite Welt ist. Eine anschauliche Metapher ist: Obwohl ein großes Modell die Aromen und den Geschmack von Rotwein lebendig beschreiben kann, hat es keinen Tropfen Rotwein getrunken und auch keinen Weinglas umgeworfen.

Der Fortschritt von Multimodalen Modellen hat die Möglichkeit, diese Voraussetzung teilweise zu ändern. Modalitäten wie Bilder, Videos und Sprache sind keine Interpretationen der Welt, sondern direkte Abbildungen des Weltzustands. Sie enthalten von Natur aus räumliche Kontinuität, zeitliche Entwicklung und implizite physikalische Beschränkungen, wie Objektkonstanz, Verdeckungsverhältnisse, Bewegungsbahnen und kausale Reihenfolgen. Diese Informationen sind in Texten schwer vollständig ausdrückbar, aber in Multimodalen Daten passiv, aber zwangsläufig vorhanden. Wenn ein Modell Multimodales lernt, muss es sich einem strukturellen Beschränkungsraum stellen, der der realen Welt näher ist, was die Möglichkeit bietet, ein robusteres Weltmodell zu entwickeln.

Noch wichtiger ist, dass Multimodales die Möglichkeit eröffnet, einen geschlossenen technologischen Kanal für die „Wahrnehmung - Entscheidung - Handlung“ zu schaffen. Wenn Multimodale Wahrnehmung mit Werkzeuggebrauch, Robotersteuerung, Softwarebedienung usw. kombiniert wird, wird die Intelligenz nicht länger auf die Beantwortung von Fragen und die Generierung von Inhalten beschränkt, sondern kann in der Umgebung versuchen, korrigieren und planen, um sich durch Rückmeldung ständig zu verbessern und einen Sprung in der Intelligenz zu erreichen.

3. Die Forschung und Exploration blühen in Bereichen wie der unteren Architektur und dem Lernparadigma auf

Für die Branche von großen Modellen ist die forschungsgetriebene Methode immer der Kernparadigma gewesen. Eine große Anzahl von Experimenten ist in der Forschung und Entwicklung unverzichtbar. Die parallele Durchführung von Experimenten in mehreren Richtungen in kleinen Teams war schon immer eine effektive Organisationsform von Pionierinstitutionen wie OpenAI. Dieser etwas wie ein Rennenmechanismus ähnliche Ansatz eignet sich sehr gut für den Bereich von großen Modellen, in dem die Wege ständig weiterentwickelt werden. Es wird erwartet, dass im neuen Jahr in Bereichen wie der unteren Architektur, dem Trainingsparadigma, der Bewertungsmethode, dem Langzeitgedächtnismechanismus und Agenten mehr bahnbrechende Ergebnisse erzielt werden können.

In den letzten zwei Jahren sind weltweit eine Reihe von Labors mit nichtkonsensuellen und technologisch einzigartigen Ansätzen aufgetaucht. Dazu gehört das von Ilya gegründete SSI, das sich auf sichere Superintelligenz konzentriert und bereits 3 Milliarden US-Dollar an Investitionen angezogen hat. Das von der ehemaligen OpenAI-CTO Mira gegründete Thinking Machines Lab konzentriert sich auf die Lösung von Problemen wie der Zuverlässigkeit, Anpassbarkeit und Multimodalen Zusammenarbeit von KI-Systemen und hat kürzlich sein erstes Produkt Tinker vorgestellt, das Entwicklern und Forschern helfen kann, Sprachmodelle zu optimieren. In der Richtung der Kombination von physischer Welt und Agenten konzentriert sich das von Fei-Fei Li gegründete World Labs auf räumliche Intelligenz und versucht, KI-Modelle in der Lage zu versetzen, dreidimensionale Umgebungen und physikalische Gesetze zu verstehen, um die Lücke von großen Sprachmodellen auf dem Gebiet der physikalischen Interaktion zu schließen. Nach seiner Abgabe von Meta wird Yann LeCun sich der AI-Start-up-Firma AMI widmen, die sich auf fortschrittliche Maschinenintelligenz konzentriert und das Ziel hat, ein System zu entwickeln, das die physische Welt verstehen, ein dauerhaftes Gedächtnis haben, inferieren und komplexe Handlungssequenzen planen kann. In der Richtung von Agenten meint die europäische H Company, dass, wenn KI nicht in der Lage ist, komplexe reale Probleme kontinuierlich zu lösen, ist auch die flüssigste Gesprächsfähigkeit nur eine scheinbare Intelligenz. Sie konzentriert sich auf die Entwicklung eines kognitiven Systems, das komplexe Aufgaben kontinuierlich lösen kann, und hofft, einen Super-Agenten zu schaffen, der wie ein Mensch Werkzeuge bedienen und komplexe Arbeitsabläufe ausführen kann.

Im Bereich der Innovation der unteren Architektur und des Trainingsparadigmas gibt es auch viele vielversprechende Forschungen. Das japanische Sakana AI ist ein Labor, das sich klar gegen die Mainstream-Richtung der Skalierungsgesetz von großen Modellen stellt. Es wurde von mehreren ehemaligen Kernforschern von Google DeepMind gegründet, darunter Llion Jones, einer der Hauptautoren der Transformer-Publikation. Sie befürworten Evolution und Gruppenintelligenz und suchen nach einem effizienten Weg, um die Abhängigkeit von Rechenleistung zu verringern. Erstens das evolutionäre Modell (Evolutionary AI), das nicht darauf abzielt, ein perfektes Modell in einem Zuge zu trainieren, sondern es erlaubt dem Modell, sich durch Mutation, Selektion und Kombination in einem dynamischen Prozess ständig zu entwickeln. Zweitens die Gruppenintelligenz und die Zusammenarbeit von mehreren Modellen, bei der mehrere Modelle mit komplementären Fähigkeiten und unterschiedlichen Strukturen als ein Ökosystem betrachtet werden und durch Zusammenarbeit, nicht durch die Optimierung eines einzelnen Modells, eine stärkere Gesamtintelligenz entsteht. Das von MIT stammende Liquid AI hat eine flüssige neuronale Netzwerkarchitektur entwickelt, die eine grundlegende Umgestaltung der Funktionsweise von neuronalen Netzwerken darstellt. Sie meinen, dass ein wirklich universelles und robustes Intelligenzsystem sich an die Umgebung anpassen sollte, anstatt wie das aktuelle Vorabtraining einmal trainiert und dann für immer eingefroren zu sein. Dies ist die Bedeutung des Begriffs „flüssig“, nämlich dass das Netzwerk keine feste Struktur hat, sondern ein kontinuierlich entwickelndes dynamisches System ist. Im