DeepSeek und ByteDance treten in denselben Fluss.
An Silvester veröffentlichte DeepSeek eine Kernstudie, die sich auf die Innovation in der Architektur von neuronalen Netzen konzentriert. Liang Wenfeng ist als Korrespondenzautor genannt. In der Studie wird die manifold-constrained HyperConnection (mHC)-Architektur vorgeschlagen, die direkt auf das Problem der Stabilität bei der Training von großen Modellen abzielt.
Diese Arbeit eröffnet für chinesische KI-Unternehmen mit begrenzten Hardware-Ressourcen einen Weg, der sowohl Leistung als auch Effizienz berücksichtigt. Sie ist auch in enger Übereinstimmung mit den früheren Forschungen von ByteDance zur Optimierung des Residualflusses. Beide zielen auf die Verbesserung der Residualverbindung, der grundlegenden Architektur von Modellen, ab.
Die Forschung von DeepSeek ist genau eine systematische Ergänzung der Schwächen von ByteDances "HyperConnection"-Technologie. Dieses Ergebnis bietet nicht nur ein neues Lösungsansatz für die industrielle Umsetzung der untersten Schicht von großen Modellen, sondern bestätigt erneut die logische Entwicklung der Branche, dass Hardware-Beschränkungen zu Innovationstreibern werden können.
Seit der Einführung von ResNet im Jahr 2016 ist die Residualverbindung zu einem Grundbestandteil des Designs von Deep Learning-Modellen geworden. Durch die "Kurzschlussverbindung" umgeht sie die nichtlinearen Transformationen und löst im Grunde das Problem des Gradientenverschwindens oder -explodierens, was die Entwicklung immer tieferer Modellstrukturen ermöglicht.
Seit langem konzentrierte sich die Brancheninnovation hauptsächlich auf Module wie das Attention-Mechanismus und MoE (Mixture of Experts). Der Residualfluss selbst war in einem Zustand "stiller Stabilität", bis ByteDance im Jahr 2024 diese Situation mit der HyperConnection-Technologie brach.
Die HyperConnection von ByteDance verbessert die Ausdrucksfähigkeit des Modells erheblich, indem sie die Breite des Residualflusses erweitert und parallele Signalströme aufbaut und das Modell lernt, wie diese Ströme interagieren. Allerdings zeigte sich diese Technologie bei der skalierbaren Training fatale Schwächen: Signalstreuung.
Tests von DeepSeek zeigten, dass bei der Training eines Modells mit 27 Milliarden Parametern der Gradientennorm nach etwa 12.000 Schritten stark schwankte und die Training zusammenbrach. Noch gravierender war, dass die Signalstärke in der 60. Schicht auf 3.000-fache des Eingabewerts anstieg. Das Kernproblem ist, dass die HyperConnection aus Gründen der Ausdrucksfähigkeit die ursprüngliche Identitätsabbildungskontrolle der Residualverbindung aufgab. Diese Schwäche ist bei kleinen Skalen noch durch Parameteranpassung zu kaschieren, aber bei der großen Skalen-Training wird sie drastisch vergrößert.
Die Kerninnovation von mHC besteht darin, die lernbaren Transformationsmatrizen auf einer Mannigfaltigkeit aus doppelt stochastischen Matrizen zu beschränken. Dies entspricht einer "starren Budgetierung" für die Signalausbreitung: Die Summe der Elemente jeder Zeile und Spalte der Matrix ist 1 und nicht negativ, was sicherstellt, dass die Stärke des Ausgangssignals strikt zwischen dem Maximum und Minimum des Eingangssignals liegt, und somit das Signalexplodieren verhindert.
Was noch wichtiger ist, haben doppelt stochastische Matrizen Kompositionsinvarianz - sie bleiben auch nach mehrfacher Überlagerung stabil. Experimente zeigten, dass im gleichen Szenario, in dem die HyperConnection eine 3.000-fache Signalverstärkung aufwies, der maximale Signalverstärkungsfaktor von mHC nur 1,6 betrug. Um die Rechenkosten zu kontrollieren, verwendete DeepSeek die Sinkhorn-Knopp-Iteration zur Projektion. Die Konvergenz wurde bereits nach 20 Iterationen erreicht, und die zusätzlichen Trainingskosten wurden auf 6,7% gedrückt.
Die Hardware-Beschränkungen zwingen nicht nur zu Algorithmusinnovationen, sondern auch zu systemweiten Optimierungen. Nachdem die HyperConnection den Residualfluss erweitert hat, verdoppelt sich die Datenlese- und -schreibmenge pro Schicht. Bei der begrenzten Interkonnektivitätsbandbreite von A800/A100-Chips geraten die Chips leicht in die Effizienzfalle, in der "die Wartezeit auf Daten viel länger ist als die Rechenzeit". DeepSeek hat dieses Problem mit drei Schlüsseltechnologien gelöst:
1. Operatorfusion: Kombination von Operationen mit ähnlichen Speicherzugriffsmustern zu einem einzigen GPU-Kern, um die Datenverschiebung zu reduzieren;
2. Rückwärtsberechnung der Rückpropagation: Anstelle des Speicherns von Zwischenaktivierungswerten werden diese in Echtzeit neu berechnet, um Rechenleistung gegen Speicherplatz einzutauschen;
3. Optimierung der Pipeline-Parallelität: Überlappung von Kommunikation zwischen GPUs und lokaler Berechnung, um die Kommunikationsverzögerung durch Berechnung zu maskieren.
Diese Optimierungen wandeln die ursprünglich linear mit der Anzahl der Schichten steigenden Speicherausgaben in begrenzte Kosten um, die durch die Größe der Module gesteuert werden können. In Kombination mit gemischtpräzisen Kernen (hauptsächlich bfloat16, float32 für kritische Genauigkeit), die in TileLang geschrieben sind, wird eine stabile Leistungserhöhung für alle Parameterbereiche erreicht. In Tests zeigten Modelle mit 3 bis 27 Milliarden Parametern, die mit mHC ausgestattet waren, eine hervorragende Leistung. Das 27-Milliarden-Parameter-Modell erreichte eine Verbesserung von 2,1% bei komplexen Inferenzaufgaben in BIG-Bench Hard und von 2,3% bei Leseverständnisaufgaben in DROP.
Früher entsprach die V3-Architekturstudie dem V3-Modell, und die R1-Inferenzstudie dem R1-Modell. Die mHC-Studie wurde drei Wochen vor dem chinesischen Neujahr 2026 veröffentlicht. Die Öffentlichkeit erwartet allgemein, dass das nächste Flaggschiffmodell (R2) bald vorgestellt wird.
Diese Strategie des "vorherigen Publizierens von Studien" etabliert nicht nur die technische Glaubwürdigkeit durch die Begutachtung von Fachkollegen, sondern auch einen Zeitstempel für die Originalität in einer komplexen geopolitischen Umgebung. Sie sendet auch eine klare Botschaft an die Welt: Die Kernkompetenz chinesischer KI-Unternehmen beruht nicht auf hochwertigen Rechenleistungschips.
Indem DeepSeek seine Ergebnisse über offene Plattformen wie arXiv und Hugging Face anstatt über traditionelle Zeitschriften veröffentlicht, opfert es zwar einen Teil des akademischen Ruhms, gewinnt aber an Schnelligkeit und Zugänglichkeit der Technologietransmission. Dieser offene Ansatz beschleunigt die Verbreitung von Wissen und setzt die Fachkollegen unter Druck: Wenn die Leistungsgewinne von mHC quantifizierbar und die Umsetzung reproduzierbar sind, müssen westliche Labors entweder ähnliche Technologien einführen oder die Überlegenheit ihres eigenen Ansatzes begründen.
Der R1-Typ hat bereits einen Boom in der Entwicklung von Inferenzmodellen ausgelöst. Die mHC-Architektur wird wahrscheinlich die Optimierung des Residualflusses in eine neue Iteration bringen. Noch wichtiger ist, dass dieses Modell einen klaren Hinweis an die Technologiekontrollierenden sendet: Die Hardwarebeschränkungen haben die Innovation nicht erstickt, sondern chinesische KI-Unternehmen gezwungen, sich auf den "mathematischen Grund des Problems zu beziehen".
ByteDance und DeepSeek sind nacheinander in den gleichen "Innovationstrom" des "Durchbruchs des traditionellen Residualflusses" getreten. Das erste Unternehmen erkannte den Weg, blieb aber an der Skalierbarkeitsgrenze stehen. Das zweite Unternehmen baute unter dem Druck der Hardwarebeschränkungen mit mathematischen Beschränkungen und systemweiten Optimierungen eine technologische Brücke.
Es bleiben nur noch sechs Wochen bis zum chinesischen Neujahr 2026. Die Veröffentlichung des R2-Modells wird die industrielle Tauglichkeit der mHC-Architektur prüfen. Unabhängig von den Ergebnissen der BasisTests hat dieser "Pfad der Innovation unter Beschränkungen" eine bahnbrechende Bedeutung - er beweist klar, dass es in der KI-Wettbewerbs nicht nur den "Pfad des Geldbrennens für Rechenleistung" gibt. Hardwarebeschränkungen sind keine Hindernisse für die Innovation, sondern Katalysatoren für echte Kernfortschritte.
Dieser Artikel wurde auf der Grundlage öffentlicher Informationen geschrieben und dient nur der Informationsaustausch. Er stellt keine Anlageempfehlung dar.
Dieser Artikel stammt aus dem WeChat-Account "Jinduan". Autor: Mu Yang. Veröffentlicht von 36Kr mit Genehmigung.