Das Team der Tsinghua-Universität hat das erste universelle Large Language Model für strukturierte Daten open source veröffentlicht.
Am 29. August 2025 gab die Forschergruppe um Professor Cui Peng der Fakultät für Informatik der Tsinghua-Universität gemeinsam mit der Firma Wenzhun Intelligence bekannt, dass das strukturierte Daten-Großmodell "LimiX" nun open source verfügbar ist. Diese Veröffentlichung markiert einen wichtigen Schritt in Bezug auf technologische Durchbrüche und die Öffnung der Ökosysteme im Bereich der intelligenten Verarbeitung strukturierten Daten in China. Sie wird die Hürden für die Anwendung von KI-Technologien auf strukturierten Daten in allen Branchen deutlich senken. Insbesondere im breiten industriellen Bereich, in dem strukturierte Daten die Kernbestände darstellen, wird das "LimiX"-Großmodell dazu beitragen, dass KI in den gesamten industriellen Produktionsprozess integriert wird, die Herausforderungen bei der Erschließung des Wertes industrieller Daten lösen und die Schlüsselstütze für die Realisierung von intelligentem Manufacturing und neuem Industrialisierung bieten, um den technologischen Wandel und die Optimierung und Modernisierung der Branchen voranzutreiben.
Im breiten industriellen Bereich sind strukturierte Daten die Kernbestände - industrielle Produktionsparameter, Betriebsdaten von Anlagen, Qualitätskontrolldaten, Forschungsexperimentdaten usw. liegen alle in Form von strukturierten Daten vor. Die Fähigkeit zur intelligenten Verarbeitung dieser Daten hat einen direkten Einfluss auf die Effizienz der Branche und die Forschungserfolge und ist auch der Schlüsselansatzpunkt für die Stärkung der industriellen Fertigung durch KI. Obwohl die allgemeinen Large Language Models (LLMs) dank ihrer starken Fähigkeiten in Textverstehen und -generierung bereits in Bereichen wie Inhaltserstellung und Dialoginteraktion weit verbreitet sind, weisen sie bei der Verarbeitung von strukturierten Daten wie Tabellen und Zeitreihen deutliche Schwächen auf: Grundaufgaben wie numerische Vergleiche und Berechnungen sind fehleranfällig, und sie sind nicht in der Lage, komplexe Aufgaben wie Datenklassifizierung, -prognose und -attribution zu bewältigen. Die Genauigkeit kann die tatsächlichen Branchenanforderungen nicht erfüllen. Daher hängt die Verarbeitung von industriellen strukturierten Daten derzeit immer noch von dem traditionellen Paradigma privater Daten und spezifischer Modelle ab. Da spezifische Modelle schwer zu verallgemeinern und nicht universell einsetzbar sind, müssen für verschiedene Szenarien mehrere spezifische Modelle trainiert werden, was teuer und wenig effektiv ist und die Multiplikatoreffekte der Datenelemente nicht nutzen kann. Dies schränkt die Umsetzung von KI in industriellen Szenarien stark ein.
Allgemeine Large Data Models (LDMs) für strukturierte Daten lösen gezielt dieses Problem: Im Gegensatz zu LLMs, die sich auf Texte konzentrieren, kombinieren LDMs die Technologien von struktureller kausaler Inferenz und vortrainierten Großmodellen. Sie können sowohl die inneren Zusammenhänge von strukturierten Daten erfassen als auch eine starke Verallgemeinerungsfähigkeit aufweisen und sind somit für verschiedene Aufgaben in verschiedenen Branchen geeignet. Das "LimiX"-Großmodell kann bis zu 10 Arten von Aufgaben wie Klassifizierung, Regression, Extraktion von hochdimensionalen Repräsentationen und kausale Inferenz unterstützen. In Szenarien wie industriellen Zeitreihenprognosen, Überwachung von anomalen Daten und Prognosen von Materialeigenschaften erreicht es oder übertrifft sogar die besten spezifischen Modelle, was eine universelle Lösung für verschiedene Szenarien und Aufgaben darstellt und eine One-For-All-Lösung für die Stärkung der Industrie durch KI bietet.
Von der technischen Leistung bis zur Umsetzung in der Branche wurden die Kernvorteile des "LimiX"-Großmodells ausführlich bestätigt. Die Ergebnisse von mehr als zehn Tests an über 600 Datensätzen zeigen, dass das "LimiX"-Großmodell ohne weitere Trainingsschritte bereits in wichtigen Indikatoren wie Genauigkeit und Verallgemeinerungsfähigkeit die besten spezifischen SOTA-Modelle erreicht oder übertrifft. Auf der Ebene der Branchenanwendung hat sich das "LimiX"-Großmodell bereits in mehreren realen industriellen Szenarien erfolgreich etabliert. Seine Eigenschaften wie keine erforderlichen Trainingsschritte, niedrige Bereitstellungskosten, hohe Genauigkeit und starke Universalität wurden von den Partnerunternehmen hoch geschätzt. Es ist eine praktische Technologielösung für die Umsetzung des Wertes industrieller Daten und beschleunigt die Bildung einer echten intelligenten Basis für die Kerngeschäftsszenarien in der breiten industriellen Vertikalbranche.
1. Forschungs- und Entwicklungsgruppe
Die Kernkraft hinter der Entwicklung des "LimiX"-Modells wurde von Professor Cui Peng der Fakultät für Informatik der Tsinghua-Universität zusammengetragen. Das Team vereint die Vorteile sowohl in der akademischen Forschung als auch in der Umsetzung in der Branche. Hinter den technologischen Durchbrüchen stecken tiefgreifende wissenschaftliche Forschungen und eine vorausschauende Ausrichtung.
Als Kern des Teams ist Professor Cui Peng einer der führenden Wissenschaftler im Bereich Datenintelligenz in China: Er ist nicht nur Empfänger des National Outstanding Youth Science Foundation Grants, sondern hat auch zweimal den zweiten Preis des National Natural Science Awards erhalten und wurde als Distinguished Scientist von der Association for Computing Machinery (ACM) ausgezeichnet. Seine akademische Einflussnahme wird von der internationalen wissenschaftlichen Gemeinschaft weitgehend anerkannt. Im Bereich der Grundlagenforschung hat Professor Cui Peng die neue Methode der "kausal inspirierte stabile Lernmethode" entwickelt, die die Leistungsbeschränkungen traditioneller maschineller Lernmethoden bei abweichenden Datendistributionen überwindet und eine wichtige theoretische Grundlage für die Forschung zur Zuverlässigkeit und Verallgemeinerungsfähigkeit von KI-Modellen legt.
Nachdem OpenAI im Jahr 2022 ChatGPT veröffentlichte und damit eine Welle von Großmodelltechnologien auslöste, erkannte Professor Cui Peng schnell das Entwicklungspotenzial von Großmodelltechnologien in Richtung strukturierten Daten und erweiterte seine Forschungsrichtung von kausal stabilen Lernmethoden auf das Gebiet der allgemeinen Large Data Models (LDMs) für strukturierte Daten. Basierend auf den bestehenden theoretischen Erkenntnissen hat das Team die Kernprobleme wie die Synthese von strukturierten kausalen Daten, das Design der Modellstruktur und die Verallgemeinerung über verschiedene Szenarien hinweg gelöst und schließlich den Leistungsdurchbruch des "LimiX"-Modells bei Aufgaben in verschiedenen Bereichen erzielt, was die Schlüsseltechnologiebasis für die Open-Source-Veröffentlichung darstellt.
2. Einführung in das "LimiX"-Großmodell
Das "LimiX"-Großmodell integriert verschiedene Fähigkeiten in ein einziges Basis-Modell, darunter Klassifizierung, Regression, Imputation fehlender Werte, Schätzung der Datendichte, Extraktion von hochdimensionalen Repräsentationen, Datengenerierung, kausale Inferenz, kausale Entdeckung und Prognose außerhalb der Verteilung. Gleichzeitig mit seiner ausgezeichneten Leistung in der Modellierung von strukturierten Daten erhöht es die Universalität des Modells erheblich.
Während der Vorhersagephase lernt das "LimiX"-Großmodell die kausalen Zusammenhänge in den Daten anhand von einer großen Menge kausal synthetisierter Daten. Im Gegensatz zu spezifischen Modellen, die die Muster der Datenmerkmale während der Trainingsphase memorieren, kann das "LimiX"-Großmodell direkt die kausalen Variablen in verschiedenen Kontextinformationen erfassen und die gemeinsame Verteilung der Daten durch konditionierte Maskenmodellierung lernen, um verschiedenen nachgelagerten Aufgaben wie Klassifizierung, Regression, Prognose fehlender Werte, Datengenerierung und kausaler Inferenz gerecht zu werden. Während der Inferenzphase kann das "LimiX"-Modell direkt auf der Grundlage der bereitgestellten Kontextinformationen inferieren und ohne Training direkt auf verschiedene Anwendungsfälle angewendet werden, was den Plug-and-Play-Modus realisiert und die vielfältigen Anforderungen an die Verarbeitung von strukturierten Daten effizient abdeckt.
Technische Architektur des Modells
Das "LimiX"-Großmodell nutzt die Transformer-Architektur und hat diese für die Modellierung von strukturierten Daten und die Verallgemeinerung von Aufgaben optimiert. Zunächst werden die Merkmale X und das Ziel Y aus dem Vorwissensspeicher jeweils embedded. Anschließend wird in den Hauptmodulen die Attention-Mechanik sowohl in der Stichproben- als auch in der Merkmalsdimension angewendet, um die Schlüsselmerkmale der Schlüsselstichproben zu fokussieren. Schließlich werden die extrahierten hochdimensionalen Merkmale jeweils an den Regression-Head und den Classification-Head weitergeleitet, um die Unterstützung für verschiedene Funktionen zu ermöglichen.
Konstruktion der Trainingsdaten
Im Gegensatz zu traditionellen Baummodellen und auf der Transformer-Architektur basierenden LLMs verwendet das "LimiX"-Großmodell während des Trainings vollständig generierte Daten und ist nicht auf reale Datenquellen angewiesen. Um den Datengenerierungsprozess effizient und kontrollierbar zu gestalten, nutzt das Team eine Datengenerierungsmethode basierend auf strukturierten kausalen Graphen: Die initialen Daten werden auf einem gerichteten azyklischen Graphen propagiert, und verschiedene kausale Abhängigkeiten in der realen Welt werden durch komplexe Kantenabbildungen und Knoteninteraktionen simuliert. Durch die Stichprobenahme der generierten Daten auf dem kausalen Graphen werden schließlich die Merkmale X und das Ziel Y in den Trainingsdaten erhalten. Die auf diese Weise generierten Daten weisen sowohl Vielfalt in der kausalen Struktur als auch Kontrollierbarkeit auf.
Optimierungsziel des Modells
Allgemeine Large Data Models (LDMs) für strukturierte Daten müssen in verschiedenen Anwendungsfällen und Aufgaben universell einsetzbar sein und die Fähigkeit zur Datenmodellierung ohne zusätzliches Training aufweisen. Daher muss die gemeinsame Verteilung der Daten modelliert werden, um die Universalität des Modells zu verbessern und die Fähigkeit zur Modellierung von Merkmalsinteraktionsmustern zu stärken. Zu diesem Zweck wurde in das Optimierungsziel des "LimiX"-Großmodells ein Maskenrekonstruktionsmechanismus integriert: Während des Trainings werden durch das Maskieren von zufälligen Merkmalswerten die fehlenden Merkmale auf der Grundlage der kausalen Abhängigkeiten zwischen den Merkmalen und den beobachteten Merkmalen rekonstruiert. Durch die Einführung der Maskenprognose kann das Modell die gemeinsame Verteilung der Datenmerkmale lernen, klarere und robusterere Entscheidungsgrenzen erlernen und die Fähigkeit zur Repräsentationslernen von Merkmalsabhängigkeiten verbessern. Um den fehlenden Mustern in der realen Welt näher zu kommen, wird das "LimiX"-Großmodell in drei Dimensionen maskiert:
Maskierung in der Stichprobenebene: Für jede Stichprobe werden einige der Merkmale zufällig maskiert.
Maskierung in der Merkmalsdimension: Für alle Stichproben wird ein Merkmal zufällig maskiert.
Maskierung in der semantischen Dimension: Unter Berücksichtigung der Korrelation auf hoher Dimension werden einige der Merkmale mit hoher semantischer Ähnlichkeit zufällig maskiert.
Darüber hinaus berücksichtigt das "LimiX"-Großmodell den Anteil der fehlenden Merkmale. Durch die Gestaltung von Trainingszielen für fehlende Werte in jeder Zeile oder jeder Teilmenge wird die Inferenzleistung des Modells bei verschiedenen Ausmaß an fehlenden Werten stabilisiert, und die Robustheit gegenüber verschiedenen fehlenden Mustern wird verbessert.
Modellinferenz
Bei der Inferenzanwendung hat das "LimiX"-Großmodell eine starke Anpassungsfähigkeit an verschiedene Szenarien und Aufgabenflexibilität. Das Modell kann direkt strukturierten Daten in verschiedenen Formen wie Tabellen, Zeitreihen und Graphen ohne zusätzliches Training für bestimmte Szenarien oder Aufgaben verarbeiten. Die Benutzer müssen nur den konkreten Aufgabenbereich wie Klassifikationsprognose, Regressionsprognose, Imputation fehlender Werte, Datengenerierung, kausale Inferenz und kausale Entdeckung angeben, und das Modell kann automatisch die Datenanalyse, logische Modellierung und Ergebnisausgabe durchführen, was den Plug-and-Play-Modus realisiert und effizient die verschiedenen Anforderungen an die Verarbeitung von strukturierten Daten abdeckt.
Darüber hinaus unterstützt das "LimiX"-Großmodell auch die effiziente Feinabstimmung des Modells für Datensätze, was es dem Modell ermöglicht, umfassendere kausale Zusammenhänge in den Daten zu lernen und die Leistung bei der Prognose weiter zu verbessern.
3. Modellleistung
Das "LimiX"-Großmodell hat in mehreren Kernaufgaben wie Klassifizierung und Regression von strukturierten Daten ausgezeichnete Leistungen erzielt, ohne dass es auf Datensätze spezifisch trainiert werden musste.
Bei der Modellbewertung wurden autoritative Datensätze aus verschiedenen Bereichen als Benchmark ausgewählt. Beispielsweise ist der Open-Source-Datensatz Talent, der aus über hundert realen Datensätzen besteht, einer der größten und repräsentativsten Benchmarks in diesem Bereich. Bei der Klassifikationsaufgabe hat das "LimiX"-Großmodell im Vergleich zu 21 gängigen Baseline-Methoden in diesem Bereich eine signifikant bessere Leistung gezeigt und die besten Ergebnisse in AUC, ACC, F1-Score und ECE erzielt.
Bei der Regressionsaufgabe hat das "LimiX"-Großmodell sowohl in den Indikatoren R2 als auch RMSE durchschnittlich die besten Ergebnisse erzielt und im Vergleich zu anderen Baseline-Methoden deutliche Vorteile gezeigt. Insbesondere wenn es Stör- oder ineffektive Merkmale in den Datensätzen gibt, ist der Leistungsvorteil noch deutlicher.