StartseiteArtikel

Die Veränderung des Modells führt zu einer qualitativen Veränderung der Daten. Die Bund Summit 2025 diskutiert neue Paradigmen für die Datenverarbeitung.

时氪分享2025-09-14 15:22
Von der Quantitätssteigerung zur Qualitätsverbesserung

Es gibt immer weniger menschliche Daten, die für das Training von Large Language Models (LLMs) verwendet werden können. Das Skalierungsgesetz (Scaling Law) verliert allmählich an Gültigkeit. Wie kann die Obergrenze der Künstlichen Intelligenz erneut überschritten werden?

Am 12. September 2025 gaben mehrere renommierte Experten aus Wissenschaft und Industrie auf dem Insights-Forum "Data meets AI: Die Doppelmaschine im Zeitalter der Künstlichen Intelligenz" auf der 2025 Inclusion·Bundang-Konferenz neue Lösungsansätze an: Daten treiben die Entwicklung der Künstlichen Intelligenz voran, und die Künstliche Intelligenz wiederum bringt die Daten in eine neue Phase der Evolution. Die Fusion der beiden Motoren ist die Richtung der Weiterentwicklung.

Das Forum wurde gemeinsam von der Chinese Association for Artificial Intelligence, der Shanghai Jiao Tong University und der Ant Group organisiert.

01. Die Erstellung hochwertiger Daten wird zum neuen Durchbruch in der Entwicklung von Large Language Models

Als erste Antriebskraft im Zeitalter der Künstlichen Intelligenz wandeln sich die Daten von einer unterstützenden Rolle zu einem zentralen Treiber.

Der Professor Xiao Yanghua von der Fudan-Universität weist darauf hin, dass die Entwicklung von LLMs derzeit vor einer schwerwiegenden "Datenwand" steht. Die unmarkierten Textmengen tragen immer weniger zur Verbesserung der Modellleistung bei, und der Nutzen, den größere Datenmengen für die Leistungssteigerung bringen, steht im Vergleich zu den erforderlichen Trainingsaufwendungen in einem immer ungünstigeren Verhältnis. Er meint, dass die Datenwissenschaft für LLMs vom Stadium der Expertenwissen über das Stadium der quantitativen Wissenschaft bis hin zum Stadium der Selbstentwicklung voranschreiten muss. "Die Datenpraxis für LLMs erfordert ein Forschungsparadigma wie das von Tu Youyou, um aus der riesigen Menge ungeordneter Daten die Schlüsselkomponenten zu extrahieren, die die Fähigkeiten des Modells bestimmen."

Professor Xiao Yanghua von der Fudan-Universität

Xiao Yanghua teilte seine Praxis der Auswahl hochwertiger Textmengen mithilfe von Syntaxkomplexitätsindikatoren und kumulativer Verteilungssampling-Methoden mit. Die Experimente zeigen, dass die kontinuierliche Vorhersage des Modells, wenn nur 20 % der hochwertigen Daten aus einer Finanztextmenge von 10 Milliarden Token ausgewählt und trainiert werden, im Vergleich zur kontinuierlichen Vorhersage mit der gesamten Datenmenge die Genauigkeit bei der Bereichsfragenbeantwortung um 1,7 % verbessert.

Der Distinguished Professor Zhai Guangtao von der Shanghai Jiao Tong University betont, dass sowohl bei der Verfeinerung von Daten als auch bei der Synthese von Daten die Qualität priorisiert werden muss. Die Analyse der Datenqualität sollte bei der "Erlebnisqualität" beginnen, sowohl die menschliche als auch die maschinelle Erfahrung berücksichtigen, um so die Leistung der LLMs im datenzentrierten Paradigma weiter zu verbessern.

Li Ke, CEO von Haitian Ruisheng, teilte aus der Sicht der Industriepraxis die Entwicklungstrends der globalen KI-Datenbranche mit. Er meint, dass die Datenindustrie einen wichtigen Wandel von einer arbeitsintensiven zu einer technik- und wissenintensiven Branche durchmacht. Anhand mehrerer praktischer Beispiele wie Bewegungsaufnahmedaten, Markierungen für autonomes Fahren und Gedankenkettendatensätze zeigte Li Ke, wie hochwertige Daten für alle Branchen eingesetzt werden können.

Shan Dongming, Vorsitzender der Shanghai Kupasi Technology Co., Ltd., sagte, dass die Veränderungen der Modelle eine "Datenqualitätsveränderung" bewirken. Er stellte fest, dass ein hochwertiger Datensatz die Anforderungen von VALID² (Aktualität, Authentizität, große Stichprobe, Vollständigkeit, Vielfalt, hohe Wissensdichte) erfüllen sollte und erläuterte ausführlich die systemische Neugestaltung von Textmendaten in den drei Aspekten Methodologie, Infrastruktur und Branchenökosystem.

02. Technologische Innovationen treiben die Freisetzung des Datenwerts voran

Als zweite Antriebskraft verändert die KI-Technologie tiefgreifend die Art und Weise, wie Daten verarbeitet und genutzt werden.

Yang Haibo, Präsident von Guanglun Intelligence, sagte, dass die körperliche KI (Embodied AI) tausendmal mehr Daten benötigt als große Sprachmodelle und autonomes Fahren. Synthetische Daten sind eine wichtige Grundlage für das Skalierungsgesetz der körperlichen KI. Er betonte, dass synthetische Daten vier notwendige Bedingungen erfüllen müssen: reale physikalische Interaktionen, menschliche Demonstrationen im Loop, ausreichend vielfältige Szenarien und eine geschlossene Datenverifizierungsschleife. Yang Haibo meint, dass "man nicht im Trockenen lernen kann, zu schwimmen". Roboter müssen in eine physikalisch interaktive Umgebung eintreten, um Rückmeldungen aus der realen Welt zu erhalten und das Modell zu optimieren.

Zhao Junbo, Leiter des Data Intelligence Lab der Ant Technology Research Institute, meint, dass die nächste Generation des RL-Trainings von der Logik des "Richtig und Falsch" zur Logik des "Gut und Besser" wechseln sollte. Die neue "Rubric is Reward"-Mechanik, die er erforscht hat, kann mit nur 5.000 Daten und 10.000 Bewertungsstandards einen effizienten RL-Zyklus aufbauen, um sich von der Abhängigkeit von riesigen Mengen an SFT-Daten zu befreien und eine "Geschmacksausrichtung" zu erreichen. Er sagte, dass diese Methode in Bereichen wie Kultur, Kreativität und Emotionen eine stilisierte Generierung ermöglichen und den "Maschinenflavour" beseitigen kann.

Xu Lei, CTO von LanceDB, teilte die innovative Praxis eines Open-Source-Multimodal-Datensees mit. Er erklärte, dass im Gegensatz zu herkömmlichen Formaten wie Parquet und ORC das neu entworfene Lance-Format sowohl ein Dateiformat als auch ein Tabellenformat ist und zwei Kernfunktionen aufweist: datenevolution ohne Kopieren und effiziente Punktabfragen. Xu Lei führte das Beispiel von Runway ML an, das nach dem Import von PB an Videodaten in Lance die Daten so einfach verwalten kann wie mit SQL und 30 KI-Engineern ermöglicht, parallel an der gleichen Haupttabelle an der Iteration der Merkmalsentwicklung zu arbeiten.

Chen Chuan, Senior Director der Internet Solutions Architecture bei NVIDIA, stellte die effizienten Datenverarbeitungsinnovationen vor, die die generative KI antreiben, und teilte Lösungen für die GPU-Beschleunigung von Text zu Multimodalität mit.

Im Rahmen der Round-Table-Diskussion diskutierten die Experten eingehend über die Neugestaltung und die Chancen von Data Infra. Die Experten waren sich einig, dass sich mit der Veränderung des Rechenparadigmas die Datenverarbeitungstechniken, sei es aktiv oder passiv, neu gestalten und neu definieren müssen. Die Neugestaltung dient der Lösung der bereits bestehenden Probleme, während die Neudefinition auf die Zukunft ausgerichtet ist und die potenziellen Probleme angeht.

Das Forum hat die neuesten Ergebnisse der kooperativen Entwicklung von Daten und KI gezeigt und einen Leitfaden und praktische Wege für den Aufbau der Dateninfrastruktur im Zeitalter der Künstlichen Intelligenz geliefert. Die teilnehmenden Experten sagten, dass nur durch die tiefe Fusion von Daten und KI und die Etablierung eines umfassenden Datenstandardsystems und eines Qualitätsbewertungsrahmens das enorme Potenzial der KI-Technologie wirklich freigesetzt werden kann und das Zeitalter der Künstlichen Intelligenz auf eine höhere Stufe gebracht werden kann.