StartseiteArtikel

Drei Spitzen-Experten in der KI-Technologie sind selten auf einer Bühne zusammengekommen und über die größte „Rashomon-Situation“ in der KI-Branche gesprochen.

阿菜cabbage2025-05-28 19:57
Letztes Jahr bestand in der Branche ein starker Konsens in Bezug auf das Glaubenssystem, während sich alle dieses Jahr nach Nichtkonsensaussagen umsehen.

Text | Zhou Xinyu

Redaktion | Su Jianxun

Ist das Pre-Training immer noch der Königsweg? In der heutigen KI-Branche ist dies das größte "Rashomon"-Ereignis.

Im Jahr 2023 war das Modell-Pre-Training immer noch das erste Prinzip. Doch von der öffentlichen Äußerung des ehemaligen Chefwissenschaftlers von OpenAI, Ilya, dass das Pre-Training am Ende sei, bis zum Aufstieg von DeepSeek R1, das auf Reinforcement Learning setzt, deutet alles darauf hin, dass das Pre-Training nicht mehr so angesehen wird wie früher.

Von der allgemeinen Wertschätzung bis zum Rufverlust - die Veränderung der Situation des Pre-Trainings ist ein Spiegelbild des ständigen Flusses zwischen "Konsens" und "Nicht-Konsens" in der KI-Branche.

Im Hinblick auf den Konsens und Nicht-Konsens in Bezug auf KI-Technologien hat die Ant Group am 27. Mai 2025 einen Austauschtermin organisiert auf dem "Technologie-Open Day".

Die Teilnehmer der Runde Tabelle sind die derzeit heißesten Unternehmer, Technologie-Manager und Wissenschaftler:

Cao Yue, Gründer der Videomodell-Firma Sand.AI und ehemaliger Mitbegründer von Light Year Beyond. Nach Abschluss von zwei Finanzierungsrunden im Juli 2024 hat das Unternehmen einen Schätzwert von über 100 Millionen US-Dollar erreicht;

Lin Junyang, Technischer Leiter von Alibaba Tongyi Qianwen (Qwen). Von der Veröffentlichung von M6 im Jahr 2021 bis zu Qwen3 im Jahr 2025 war er der uneingeschränkte Chef bei den Modellen;

Kong Lingpeng, Assistentprofessor an der Universität Hongkong und Mitdirektor des NLP LAB. Das von ihm geleitete Diffusions-Inferenzmodell Dream 7B hat sich als neues SOTA (State of the Art) unter den Open-Source-Diffusions-Sprachenmodellen etabliert.

△Quelle: Foto des Autors

In gewisser Hinsicht haben sowohl Cao Yue als auch Kong Lingpeng in ihrem Prozess der Erkundung des "Nicht-Konsens" in der KI viel gewonnen - beide versuchen, die vorherrschenden Architekturen für die Training von Sprach- und Bildmodellen aufeinander anzuwenden:

Indem er die vorherrschende Architektur des Multimodal-Modells, das Diffusionsmodell, auf das Sprachmodell anwendet, hat Kong Lingpeng bei der Entwicklung von Dream 7B erreicht, dass das Modell mit nur 7 Milliarden Parametern in mehreren Aufgaben besser abschneidet als DeepSeek V3 mit 67,1 Milliarden Parametern.

Umgekehrt hat Cao Yue die vorherrschende Auto-Regressive Route des Sprachmodells auf das Training von Videomodellen angewendet und so die unbegrenzte Erweiterung der generierten Videolänge erreicht.

Ihre Erfahrungen repräsentieren die derzeit spannendste Seite der KI-Branche: Die Annahme des Nicht-Konsens und die Verwirklichung von Innovationen.

Im Gegensatz dazu hat Alibaba den Ruf, sich an den Konsens zu halten: Seit langem hat Qianwen nur Dense-Modelle veröffentlicht, die einst vorherrschend waren. Erst im Februar 2025 hat das Team das erste MoE-Modell vorgestellt.

Als Leiter hat Lin Junyang auch häufig Kritik von außen gehört: "Ist Qianwen zu konservativ?" Auf der Runde Tabelle hat er sich geäußert: "Wir sind nicht konservativ, wir haben einfach viele Experimente gemacht, die fehlgeschlagen sind. Das ist wirklich traurig."

Dies ist auch die andere Seite der KI-Branche: Der Konsens repräsentiert oft die überwiegende Anzahl von erfolgreichen Erfahrungen.

Im Jahr 2023, als Alibaba das Qianwen-Großmodell trainierte, hat Lin Junyang beschrieben, dass man intern mehrmals die Transformer-Architektur "verändert" hat. Am Ende haben sie jedoch festgestellt, dass der Transformer immer noch die beste Lösung ist.

Sicherlich haben alle drei einen Wandel bemerkt: Letztes Jahr glaubte man noch stark an den Konsens, in diesem Jahr sucht jeder nach dem Nicht-Konsens.

Heute, so hat Lin Junyang ein Vergleich gemacht, sucht jeder in einer anderen Richtung, um zu sehen, wer das "Lotterypreis" trifft. "Obwohl es so scheint, dass sich die Wege widersprechen, gibt es eigentlich keine Widersprüche." Kong Lingpeng hat eine ähnliche Meinung.

Ein Beispiel ist, dass sowohl Kong Lingpeng, der auf der Grundlage des Sprachmodells ein Diffusionsmodell entwickelt, als auch Cao Yue, der auf dem Videomodell eine Auto-Regressive Route verfolgt, das Ziel haben, das Model Bias und das Data Bias auszugleichen, um bessere Ergebnisse zu erzielen.

Und was das Pre-Training betrifft, so hat es in den USA kürzlich einen neuen Nicht-Konsens gegeben: Das Pre-Training ist noch nicht vorbei. Derzeit steht Lin Junyang auf der Seite des neuen Nicht-Konsens. Er hat enthüllt: "Wir haben noch viel Daten, die wir nicht in (Qianwen) eingefügt haben. Jedes Mal, wenn wir Daten einfügen, verbessert sich die Leistung."

Im Folgenden finden Sie die Zusammenfassung des Inhalts der Runde Tabelle von "Intelligente Entstehung", der Inhalt wurde bearbeitet:

Qianwen ist nicht konservativ, es ist nur, dass viele Experimente fehlgeschlagen sind

Zhou Jun (Künstlername: Xiting), Leiter des Ant Bailing-Großmodells: Was ist der Gedanke hinter der Verwendung von Diffusionsmodellen für die Sprachgenerierung?

Kong Lingpeng: Wenn man seine Daten nicht kennt, sollte man nicht zu viele Annahmen über die Daten machen, sondern dem Modell mehr überlassen, das ist der Grund, warum wir das Diffusionsmodell für das Training von Sprachmodellen verwenden.

Einige Daten haben eine von links nach rechts gerichtete Bias (Abweichung, die den Unterschied zwischen dem Ausgabewert und dem wahren Wert darstellt), wie beispielsweise 3 + 3 = 6. Es ist unmöglich, zuerst die 6 zu haben und dann den Vorgang davor zu ergänzen. Andere Daten, wie beispielsweise wenn ich drei Meetings habe, wobei das Meeting A nach dem Meeting B stattfindet und das Meeting B mittags sein muss, bedeuten, dass die Daten nicht vollständig von links nach rechts verlaufen können.

Nehmen wir das Text-Diffusionsmodell wie Gemini Diffusion als Beispiel. Es ist ein Modell, das weniger Annahmen macht als ein Auto-Regressives Modell, das von links nach rechts lernt. Es kann bidirektional lernen und auch parallele Aufgaben bearbeiten.

Xiting: Bitte teilen Sie uns in Bezug auf die Praxis die technischen Herausforderungen der vorherrschenden Architekturen im Multimodal-Bereich mit.

Cao Yue: Sprache und Video sind in gewisser Hinsicht ziemlich ähnlich. Beide haben in der Zeitdimension eine starke kausale Priori, d.h. eine zeitliche Kausalbeziehung.

Das im vergangenen Jahr veröffentlichte Sora hatte tatsächlich keine solche Priori. Das generierte 5-Sekunden-Video wurde direkt von einem einzigen Modell modelliert.

Unsere eigene Erfahrung ist, dass die zeitliche kausale Priori von Videos sehr stark ist. Menschen sehen Videos in einer bestimmten Reihenfolge. Warum? Weil die Speicherung von Videoinformationen in einer bestimmten Reihenfolge erfolgt.

Wenn wir eine Trainingsmethode entwickeln können, die die zeitliche Reihenfolge codiert, können wir möglicherweise die Informationen in Videos besser nutzen und so die Obergrenze des Modells erhöhen.

Xiting: Teilen Sie uns Ihre Veränderung der Wahrnehmung der Transformer-Architektur mit und wie Sie die derzeitigen Herausforderungen des Transformers sehen.

Lin Junyang: Ich habe eine besondere Verbundenheit mit dem Transformer, weil er kurz nach meinem Eintritt in die Branche aufgetaucht ist. Deshalb bin ich persönlich dem Transformer sehr dankbar.

Im Laufe der Zeit haben wir versucht, viele Dinge zu ändern, aber am Ende haben wir festgestellt, dass der Transformer tatsächlich sehr nützlich ist. Im Jahr 2022 haben viele Leute Details geändert, wie beispielsweise die Aktivierungsfunktion des Transformers. Man hat gemerkt, dass Google immer noch sehr stark ist und dass PaLM (ein von Google auf der Grundlage des Transformers trainiertes Modell) sehr effektiv ist.

Insbesondere im Jahr 2023, als wir mit Qianwen begannen, war es anfangs ziemlich schwierig. Vielleicht haben einige von Ihnen unsere frühen Modelle benutzt. Es gab viele Varianten, aber am Ende haben wir festgestellt, dass die Grundstruktur des Modells nicht einfach verändert werden sollte. Ich denke, dass es da etwas "mysteriös" ist.

Es gibt eine Kritik an Qianwen, dass wir relativ konservativ seien. Tatsächlich sind wir nicht konservativ, wir haben viele Experimente gemacht, die fehlgeschlagen sind. Das ist traurig.

Es gibt noch etwas, das bemerkenswert ist, das MOE-Modell. Wir haben bereits im Jahr 2021 mit MOE gearbeitet, damals war es das M6-Modell. Damals haben wir festgestellt, dass MOE gut skalierbar ist, aber das Modell nicht besonders stark ist.

MOE ist immer noch ein lohnender Weg, denn heute wollen alle kommerziellen Unternehmen sowohl Effektivität als auch Effizienz. Die Architekturen, die wir heute erkunden, haben noch keine eindeutigen Ergebnisse. Wir befinden uns noch in der Experimentierphase und können sowohl die Vorteile als auch die Nachteile erkennen.

Aber ich denke, dass es eine gute Richtung ist, denn MOE hat tatsächlich die Möglichkeit, einen unbegrenzten Kontext zu ermöglichen. Bei einigen häufigen Langsequenzaufgaben, wie beispielsweise bei Programmieraufgaben oder Extraktionsaufgaben, ist es manchmal nicht so gut wie andere Lösungen.

Deshalb werden wir möglicherweise während der Arbeit an Transformer auch auf MOE achten.

Natürlich achten wir auch auf die Richtung von Herrn Kong, das Diffusion LLM (Diffusions-Sprachenmodell), das eine andere Linie ist. Derzeit scheint das Diffusions-Sprachenmodell in mathematischen, codierenden und Inferenzaufgaben tatsächlich gut zu performen.

Das ist ziemlich überraschend, denn als wir damals verschiedene Auto-Regressive Experimente gemacht haben, waren die Ergebnisse in diesen Aufgaben eher enttäuschend. Aber jetzt hat das Diffusionsmodell gute Ergebnisse. Aber seine allgemeine Fähigkeit hat noch viel Verbesserungspotenzial.

Ich denke, dass jeder in einer anderen Richtung sucht, um zu sehen, wer das "Lotterypreis" trifft.

Heute wird jede Wette immer teurer

Xiting: Welche Model-Optimierungsmethoden sind derzeit im Fokus der Branche? Welche Richtung haben Sie für die Effizienzoptimierung das größte Potenzial?

Lin Junyang: Alle achten sehr auf die Schritte von DeepSeek. Als wir sahen, dass DeepSeek den Sparse-Ratio (das Verhältnis der aktivierten Expertenanzahl zur Gesamt-Expertenanzahl) von MOE so hoch bringen konnte, waren wir sehr überrascht.

Aber wir haben tatsächlich auch einen ähnlichen Sparse-Ratio erreicht. Damals haben wir die Effizienz und die Effektivität des Modells getestet, um zu sehen, ob das Modell bei Vergrößerung die Effizienz beibehalten kann. Das Ergebnis war, dass ein Sparse-Ratio von 1:20 im Allgemeinen bessere Experimentergebnisse liefert, aber 1:10 ist eine relativ konservativere Option. Deshalb befinden wir uns eher in diesem Bereich.

Aber DeepSeek hat möglicherweise noch bessere Ergebnisse erzielt, der Sparse-Ratio kann bis zu 1:20+ erreichen.

MOE ist es lohnenswert, weiter zu erkunden. Je mehr Experten und je spärlicher das Modell, desto schlechter wird die Trainingsstabilität. Entsprechend müssen wir die Trainingsstabilität optimieren.

Aber bei der Auswahl der Modellarchitektur muss man heute vorsichtiger sein. Die Modellarchitektur kann möglicherweise für das Pre-Training sehr gut geeignet sein, aber für das Reinforcement Learning sehr ungeeignet, was viele Schwierigkeiten mit sich bringt. Deshalb wird jede Wette heute immer teurer.

Gleichzeitig muss die Modellstruktur auch die Langsequenzprobleme berücksichtigen.

Deshalb denke ich, dass bei der kombinierten Optimierung von Effektivität und Effizienz einerseits das Modell größer und spärlicher werden kann, andererseits kann es längere Sequenzen unterstützen; und während des Trainings sollte die Trainingsgeschwindigkeit von Langsequenzen nicht verlangsamt werden.

Xiting: Wie kann man die Interpretierbarkeit des Transformers verbessern und die Halluzinationen reduzieren?

Kong Lingpeng: Ich möchte zunächst auf Cao Yue antworten. Ich denke, dass es keine Widersprüche gibt, obwohl es so scheint, dass sich die Wege widersprechen.

Was wir tun, ist, das beste Bias für die Daten zu finden, oder ich glaube, dass mein Modell alle Bias beseitigen kann, aber das stellt auch höhere Anforderungen an mein Modell.

Zurück zum Thema Interpretierbarkeit und Halluzinationen des Modells: Ob der Transformer dafür verantwortlich ist, ist fraglich.

Ich möchte auch Lin Junyang eine Frage stellen. Es gibt eine Meinung, dass das Reinforcement Learning-Paradigma möglicherweise nicht gut für die "Halluzinationen" des Modells in der späten Phase ist, weil es möglicherweise falsche Inferenzmuster lernt.

Hat man in Qwen 3 und Qwen 2.5 solche Phänomene beobachtet?

Lin Junyang: Ich muss mich schlecht machen. Wir können die "Halluzinationen" tatsächlich nicht kontrollieren.

Deshalb müssen wir derzeit einige Probleme lösen. Ein Problem ist, wie man die "Halluzinationen" reduzieren kann, und zwar durch das Reinforcement Learning.

Ein weiteres Problem, das mit den "Halluzinationen" oder der Interpretierbarkeit zusammenhängt. Wir führen derzeit einige Studien über SAE (Sparse Autoencoder) durch und haben festgestellt, dass einige Probleme möglicherweise eng mit bestimmten Merkmalen zusammenhängen. Deshalb versuchen wir, durch SAE einige Merkmale zu finden und sie zu unterdrücken.

Selbst wenn es bei Reinforcement Learning "Halluzinations"-Probleme gibt, ist das nicht so schlimm, es kommt darauf an, wie man es löst.

Kong Lingpeng: Eine Architektur muss zunächst in Verbindung mit der Hardware betrachtet werden. Nach der Architektur kommen immer neue Probleme und neue Architekturen, beispielsweise gibt es einige Architekturen, die nicht gut für Reinforcement Learning geeignet sind.

Mein Gefühl ist, dass man nicht immer das feste Muster "GPU + Auto-Regression/Transformer + Pre-Training/SFT (Supervised Fine-Tuning) + Reinforcement Learning" anwenden sollte, um alle Dinge zu betrachten.

Lin Junyang: In Zukunft wird sich möglicherweise etwas ändern. Wir haben eigentlich keine Wahl, wir können nur mit GPU trainieren.

Ich habe einen Freund gefragt, der sich mit Hardware auskennt. Er hat gesagt, dass die GPU nicht gut für das Training von Transformer geeignet ist, und ich kann auch nicht selbst eine neue entwickeln.

Aber unser Unternehmen kann es versuchen, oder China hat möglicherweise die Chance, Hardware und Software zu integrieren. Deshalb können wir in Zukunft die Probleme tiefer betrachten.

Schöpfung ist eigentlich ein Such