BigBang-Proton: Ein autoregressives Basis-Modell zur Vereinigung von Sprache, Wissenschaft und der materiellen Welt
Können große Sprachmodelle wie GPT - 5 und DeepSeek direkt spezialisierte wissenschaftliche Aufgaben wie Alphafold ausführen? Sam Altman von OpenAI hat an mehreren Stellen erwähnt, dass das Hauptziel von ChatGPT die Schaffung einer sprachbasierten General Reasoning Machine ist. Diese Reasoning Machine wird dann eingesetzt, um spezialisierte wissenschaftliche Modelle wie Alphafold aufzurufen und bestimmte wissenschaftliche Probleme zu lösen. Daher ist es weder möglich noch notwendig, ChatGPT direkt für die Aufgaben von Alphafold zu nutzen.
Kürzlich hat die Firma Beyond Symmetry (Shanghai) Technology Co., Ltd. (Supersymmetry), die sich auf die Forschung und Entwicklung von Basismodellen für die materielle Welt konzentriert, das neue Basismodell BigBang - Proton veröffentlicht. Es hat die einheitliche Vorhersage und Inferenz für mehrere reale spezialisierte Fachprobleme und LLM erfolgreich umgesetzt, was die Technologierichtung von Sam Altman und der herrschenden AGI - Herangehensweise herausfordert.
Die Ergebnisse von BigBang - Proton zeigen, dass nicht nur spezielle biologische Probleme wie Alphafold und AlphaGenome, sondern auch wissenschaftliche Probleme, die alle materiellen Skalen von mikroskopischen Teilchen wie Quarks, Materialgittern bis hin zu DNA - und Proteinstrukturen bis hin zu makroskopischen Erdsystemen umfassen, in einem einzigen autoregressiven LLM mit dem Paradigma der Next - Word - Prediction für die Vorhersage und Inferenz integriert werden können.
Zugleich zeigen die Experimentergebnisse von BigBang - Proton, dass die derzeit herrschende AGI - Technologierichtung, repräsentiert durch GPT 5 und DeepSeek R1, die sogenannte Long - Horizon Chain - of - Thought, beim Verständnis realer materieller Strukturen völlig scheitert. Dies zeigt, dass es unmöglich ist, AGI nur auf der Grundlage der Long - Horizon Chain - of - Thought zu erreichen.
Die Firma Supersymmetry hat festgestellt, dass das Lernen von materiellen Strukturen (Structure Learning) einer der wesentlichen Faktoren für die Realisierung von AGI ist. Ein LLM, das die materiellen Strukturen beherrscht, kann somit natürlich in die physikalische Welt eintreten.
Die Wichtigkeit der von BigBang - Proton gezeigten Ergebnisse liegt darin, dass sie die derzeit in der Branche heiß diskutierte Frage beantworten, ob die Vorhersage und die Skalierungsgesetze bereits an ihre Grenzen stoßen. Die herrschenden generellen LLM werden auf allen verfügbaren Internetdaten trainiert. Die Daten, die sich auf wissenschaftliche Probleme beziehen, sind auf die hundert Millionen von wissenschaftlichen Publikationen und Bücher beschränkt, die von Menschen veröffentlicht wurden. Alle diese Daten liegen in der Form natürlicher Sprache vor. Sobald die Sprachdaten aufgebraucht sind, stoßen die Modelle natürlich an die Grenzen der Skalierungsgesetze.
Zur gleichen Zeit vertreten die Vertreter der Technologierichtung der Weltmodelle, die sich hauptsächlich auf das Bildlernen konzentrieren, wie Fei - Fei Li und Yann LeCun, die Ansicht, dass das Next - Word - Prediction - Paradigma für LLM eine Sackgasse ist und dass die Welt stattdessen von Bildern aus neu aufgebaut werden sollte. Die Firma Supersymmetry hat eine dritte Richtung vorgeschlagen, nämlich das Lernen von materiellen Strukturen. Dadurch kann das Vorhersage von LLM aus der Sackgasse der Internetdaten herausgelöst und in die materielle Welt eintreten, um ein Weltmodell mit einem extrem langen Kontext zu erstellen, das die gesamte materielle Welt umfasst. Ein solches vorgesagtes Basismodell kann Sprache, wissenschaftliche Intelligenz, räumliche Intelligenz und körperliche Intelligenz in einem einzigen ultimativen einheitlichen Modell integrieren.
Wo liegen die Grenzen des Vorhersage von LLM? Die Antwort von BigBang - Proton lautet, dass sich das Vorhersage von LLM bis zum gesamten Universum erstrecken wird. Daher hat die Firma Supersymmetry auf der Grundlage von BigBang - Proton die kühne Idee von "Universe Compression" vorgeschlagen, d. h. die Kompression des gesamten Universums in eine einzige Sequenz, um es als Basismodell für alle derzeitigen AI - Sonderaufgaben zu nutzen.
Im Gegensatz zu den üblichen LLM - Firmen, die sich auf das Sprachenlernen konzentrieren, hat sich die Firma Supersymmetry seit langem darauf konzentriert, Zahlen von 0 bis 9 mit LLM zu verstehen. Anfangs analysierte das Team von Supersymmetry Nachrichten und Unternehmensberichte, um die Schwankungen des Finanzmarktes vorherzusagen und Dienstleistungen für die quantitative Finanzierung anzubieten.
Bei diesen Finanzdienstleistungen hat das Team festgestellt, dass Finanzdienstleistungen äußerst empfindlich gegenüber numerischen Daten sind. Beispielsweise kann bereits ein Fehler von einer Stelle bei der Inferenz eines LLM bei einem 11 - stelligen Unternehmensumsatz zu einem Kollaps des Geschäfts führen. In diesem Prozess hat das Team von Supersymmetry festgestellt, dass die Byte Pair Encoding (BPE) - Methode, die von LLM verwendet wird, eine grundlegende Schwäche bei der numerischen Analyse verursacht. Dies führt auch zu dem üblichen Witz bei LLM, dass 9,11 größer als 9,8 ist. Sie haben weiter festgestellt, dass die Schwäche der numerischen Fähigkeiten einer der Gründe ist, warum die herrschenden LLM nicht in der Lage sind, reale wissenschaftliche Daten zu lernen.
Mehr als 90 % der wissenschaftlichen Forschung in der realen Welt erfordert die Kombination von Theorie und Experiment. Die Ergebnisse der Experimente werden größtenteils in numerischer Form aufgezeichnet. BigBang - Neutron, das von der Firma Supersymmetry im Jahr 2024 veröffentlicht wurde (das erste offene Basismodell für wissenschaftliche Berechnungen, BBT - Neutron, unterstützt die Überwindung der Engpässe bei der Datenanalyse großer wissenschaftlicher Anlagen), ist das erste LLM, das sich auf das Verständnis von großen experimentellen numerischen Daten konzentriert. Es schlägt die Verwendung von Binary Patch Encoding anstelle von BPE vor. BigBang - Proton baut auf BigBang - Neutron auf und innoviert weiter, um die Mehrfachaufgabenlernen für reale wissenschaftliche Forschung zu ermöglichen.
1 Grundlegende Probleme und drei grundlegende Innovationen von BigBang - Proton
Um ein einheitliches Modell für spezialisierte wissenschaftliche Aufgaben auf der Grundlage von LLM zu erstellen, müssen mehrere grundlegende Probleme gelöst werden. BigBang - Proton hat daher drei grundlegende Innovationen eingeführt:
Innovation 1: Binary Patch Encoding – Verwerfen des Tokenizers und Vereinheitlichung von Sprache, Zahlen und wissenschaftlichen Daten
Herkömmliche Tokenizer wie Byte Pair Encoding (BPE), SentencePiece und WordPiece funktionieren bei der Verarbeitung von Zahlen sehr schlecht und können die Repräsentation von wissenschaftlichen Daten aus verschiedenen Disziplinen, Skalen und Strukturen nicht effektiv bewältigen. Beim Tokenisieren von Zahlen können sie Mehrdeutigkeiten und Inkonsistenzen einführen, was dazu führt, dass dieselbe Zahl je nach Kontext in verschiedene Segmente aufgeteilt wird. Diese Diskontinuität der Token - IDs macht die Verwaltung und Verarbeitung von numerischen Daten kompliziert, insbesondere wenn aufeinanderfolgende oder strukturierte Token - IDs erforderlich sind.
Wir haben die herkömmlichen Tokenizer komplett verworfen und stattdessen Binary Patch Encoding eingesetzt. Diese Methode baut auf den früheren Arbeiten von Supersymmetry an BigBang - Neutron sowie wichtigen Beiträgen aus anderen Bereichen (wie BGPT, Megabyte, SpaceByte und BLT) auf. Die Methode basiert auf einer tiefgründigen und einfachen Erkenntnis: Alle Daten werden schließlich in Computern in binärer Form gespeichert. Daher behandelt BigBang - Proton alle Eingaben – ob es sich um englischen Text, chinesische Zeichen, Python - Code oder Teilchenenergien, Atomkoordinaten, DNA - Sequenzen handelt – als ursprüngliche binäre Sequenzen. Derzeit wird UTF - 8 - Codierung verwendet, und die Komplexität der Berechnungen wird durch das Teilen der binären Sequenzen in Patch - Blöcke reduziert.
Vorteile von Binary Patch Encoding:
- Zahlenpräzision: Zahlen werden in ihrer ursprünglichen Form vollständig gespeichert, wodurch Informationsverluste durch Tokenisierung vermieden werden und genaue arithmetische Berechnungen möglich werden. Dies ermöglicht es dem Modell, eine 100% - ige Genauigkeit bei der Addition von Zahlen bis zu 50 Stellen zu erreichen.
- Wahrhaftige Vereinheitlichung: Eine Codierungsmethode für alle Datentypen, ob es sich um Text, Zahlen, Symbole oder strukturierte Daten handelt. Dies eliminiert die Notwendigkeit bestimmter Tokenisierungsmethoden für verschiedene Datentypen und vereinfacht den Vorverarbeitungsprozess.
- Maximale Flexibilität: Es kann nahtlos alle in binärer Form gespeicherten wissenschaftlichen Datensätze (z. B. in .bin - oder .dat - Formaten) verarbeiten, was die Grundlage für eine einheitliche Datenrepräsentation schafft.
Innovation 2: Theorie - Experiment - Lernparadigma – Überbrückung der Kluft zwischen Theorie und Experiment
Wissenschaftliche Experimente produzieren eine riesige Menge an numerischen Daten. Wie können diese effektiv mit textzentrierten theoretischen Kenntnissen abgestimmt und trainiert werden? Die Lösung dieses Problems würde über 90 % der experimentellen wissenschaftlichen Aufgaben abdecken. Wissenschaftliche Kenntnisse existieren in sprachlicher und quantitativer Form. Ein einheitliches Modell muss symbolische Inferenz und datengesteuertes Lernen integrieren.
Supersymmetry hat das Theorie - Experiment - Lernparadigma vorgeschlagen. Dies ähnelt einem visuell - sprachlichen Modell, das Bildern Beschriftungen hinzufügt. Supersymmetry fügt jedoch wissenschaftlichen experimentellen Daten "theoretische Beschriftungen" hinzu. Die Kerninnovation dieses Rahmens besteht darin, eine gemischte Repräsentation zu schaffen, die numerische experimentelle Daten direkt mit textuellen Beschreibungen abgleicht.
In der Teilchenphysik werden die numerischen Messwerte jedes Endzustandsteilchens (Ladung, Energie, Impulskomponenten, Stoßparameter usw.) mit textuellen Anmerkungen wie "geladene Pionen" oder "neutrale Hadronen" gepaart, was einer Zweimodalen Bild - Beschriftung - Paarung für experimentelle Daten - Text - Abgleich entspricht.
In der Materialwissenschaft werden große experimentelle oder simulierte Datensätze systematisch in natürliche Sprachbeschreibungen umgewandelt und in den theoretischen Kontext eingebettet. Beispielsweise wird für die Kristallstruktur von Ag₂SnYb der ursprüngliche MPtrj - Format - Daten in natürliche Sprachbeschreibungen zerlegt und umgewandelt.
Außer diesen sofortigen Anmerkungen integriert der Rahmen auch tiefere theoretische Erklärungen, wie beispielsweise die Prinzipien der Quantenchromodynamik (QCD) in der Teilchenphysik, die Quark - Gluon - Dynamik sowie die Dichtefunktionaltheorie und die Elektronenstruktur in der kondensierten Materiephysik aus allgemeinen wissenschaftlichen Korpussen wie Wikipedia und Forschungsarbeiten.
Vorteile des Theorie - Experiment - Lernparadigmas:
- Doppelter Abgleichstruktur: Während des Vorhersage werden theoretische Konzepte und experimentelle Datensequenzen in demselben Kontext platziert, wodurch auf lokaler Ebene sofortige Daten - Beschriftungspaare erstellt werden und auf globaler Ebene eine umfassende theoretische Erklärung bereitgestellt wird.
- Wissenschaftliche Berechnungen werden in Sequenzlernen umgewandelt: Ein auf Sequenzen basierendes autoregressives Sprachmodell lernt die Muster in experimentellen Daten (die traditionell von Graphen - Neural - Netzwerken oder numerischen Analysemodellen erfasst werden) und gleicht numerische Beobachtungen mit theoretischen Konzepten in einem einheitlichen Kontext ab.
- Sprachgesteuerte wissenschaftliche Berechnungen: Durch die integrierte Mustererkennung und sprachliche Inferenz kann das Modell direkt wissenschaftliche Aufgaben basierend auf natürlichen Sprachanweisungen ausführen, um die am häufigsten vorkommenden wissenschaftlichen Berechnungsaufgaben wie Language - Guided Classification, Regression, Spatiotemporal Prediction, Genome Modeling zu realisieren.
Innovation 3: Monte Carlo Attention – Eine Aufmerksamkeitsmechanismus für die Simulation komplexer materieller Strukturen
Um komplexe materielle Strukturen wie Zellen, Quantensysteme, die Erde und das Universum auf atomarer Skala zu simulieren, muss das Modell mit extrem langen Informationssequenzen umgehen können. Die Berechnungskomplexität des herkömmlichen Transformer - Aufmerksamkeitsmechanismus wächst quadratisch mit der Sequenzlänge und kann daher nicht auf die erforderliche Skala erweitert werden.
Supersymmetry hat den herkömmlichen Transformer - Architektur durch Monte Carlo Attention ersetzt. Diese Innovation zielt darauf ab, die inhärente Berechnungskomplexität bei der binären Patch - Attention zu reduzieren, während die Vorteile der spärlichen Aufmerksamkeit und der Zustandsraummodelle (die als Hauptalternativen zu Transformer angesehen werden) beibehalten werden.
Der Kernmechanismus ist ein Block - Repräsentanten - Kommunikationsmechanismus, der sich an dem menschlichen Repräsentativsystem orientiert. Die Sequenz wird in Blöcke aufgeteilt, und jeder Block sendet einen Vertreter zu anderen Blöcken, um zu kommunizieren und dann zurück zu seinem eigenen Block zu kehren. Dieser Mechanismus ermöglicht es dem Modell, die effektive Kontextlänge exponentiell mit der Anzahl der Aufmerksamkeitsschichten zu erhöhen.