Interpretation der neuesten DeepSeek - Studie: Wie trainiert mHC leistungsfähigere Modelle kostengünstig? - Investment

Einschränkungen sind keine Fesseln, sondern die Grenzen der Freiheit und der Grundstein, auf dem Innovationen verwirklicht und komplexe Systeme erweitert werden können.

DeepSeek hat eine Studie über mHC (Manifold-Constrained Hyper-Connections) veröffentlicht und damit eine Bombe geworfen. Diese Studie befasst sich nicht mit der Größe der Modellparameter, der Datenmenge oder der Rechenleistung, sondern mit einer grundlegenderen und tieferen Frage: Wie fließt Information in einem Supertiefen Netzwerk eines Großen Modells stabil?

Um den Wert von mHC zu verstehen, muss man zum Algorithmusgrundstein der Residual Connection zurückkehren. Dieser wurde erstmals 2015 von der Gruppe um He Kaiming vorgeschlagen (ResNet) und war ein Meilenstein in der Entwicklung der künstlichen Intelligenz. Die Kernformel lässt sich einfach so zusammenfassen: Ausgabe jeder Schicht = das, was diese Schicht gelernt hat + Eingabe der vorherigen Schicht, ausgedrückt in der Formel: x_{l+1} = x_l + F(x_l)

Warum ist diese Innovation so wichtig? Vor diesem Algorithmus konnte man aufgrund des Prinzips des Gradientenverschwindens die Tiefe von AI-Modellen nicht erhöhen. Die Residual Connection hat dieses grundlegende Problem in der damaligen Deep Learning Forschung gelöst.

Vor der Residual Connection war die Tiefe von neuronalen Netzen über lange Zeit auf 20 bis 30 Schichten beschränkt. Wenn das Signal in einem Netzwerk mit mehreren Dutzend oder sogar hunderten von Schichten multipliziert und weitergeleitet wird, nimmt der Gradient exponentiell ab und wird schließlich so schwach, dass das Modell kaum noch effektive Merkmale lernen kann. Dies ist das Phänomen des Gradientenverschwindens. Aus diesem Grund konnte auch das klassische Modell wie AlexNet nur 8 Schichten tief sein.

Der entscheidende Durchbruch der Residual Connection liegt darin, dass sie für das Signal einen "Schnellweg" eröffnet. Unabhängig davon, was die Zwischenschichten gelernt haben, kann die ursprüngliche Eingabe unverändert direkt in tiefere Schichten weitergeleitet werden und so eine Identitätsabbildung (Identity Mapping) bilden. Das Gewicht dieses Pfads ist fest auf 1:1 gesetzt, weder vergrößert noch verkleinert es das Signal, was mathematisch die stabile Weiterleitung des Signals und des Gradienten gewährleistet.

Genau diese Konstruktion hat es ermöglicht, dass die Tiefe der trainierbaren Netze von mehreren Dutzend Schichten auf mehrere hundert oder sogar tausend Schichten gestiegen ist und hat so direkt die strukturelle Grundlage des modernen Deep Learnings gelegt. In den letzten zehn Jahren von CNN bis Transformer, von GPT, LLaMA bis Gemini, fast alle gängigen Großen Modelle haben diesen Gedanken übernommen und ihn als Standardkonfiguration betrachtet.

Aber die Residual Connection hat ein großes Problem: Sie ist immer ein "Informationsschnellzug" mit festem Gewicht und nur einem Pfad, der zu wenig Information auf einmal übertragen kann und so die Anforderungen von Großen Modellen an die effiziente Modellierung komplexer und multiquelliger Informationen nicht erfüllen kann. Deshalb haben die Forscher sich gefragt: Was würde passieren, wenn es mehr als einen solchen "Schnellzug" für die Informationsübertragung gäbe?

Das ist der Ausgangspunkt der Hyper-Connections.

Was genau ist mHC?

Vor mHC veröffentlichte im September 2024 die Seed-Gruppe die erste relevante Studie und brachte das Konzept der Hyper-Connections auf den Plan.

Stellt man sich die Informationsübertragung in einem Großen Modell als Staffelrennen vor, hat die traditionelle Residualstruktur nur einen Staffelläufer: Die vorherige Schicht übergibt den Staffelstab an die nächste Schicht auf einem festen Weg und in einem grundsätzlich unveränderten Rhythmus. Die Hyper-Connections dagegen tun zwei Dinge.

Erstens verwandeln die Hyper-Connections dieses Einzelstaffelrennen in ein "Multi-Staffelrennen". Die von einer Schicht erzeugte Information kann nicht länger nur auf einem Pfad weitergeleitet werden, sondern wird auf mehrere parallele Kanäle aufgeteilt, von denen jeder unterschiedliche Formen und Stadien der Darstellung tragen kann und weiterleiten kann.

Zweitens ändert sich die Art der Übergabe des Staffelstabs. Diese Kanäle arbeiten nicht gleichmäßig und gleichzeitig zusammen, sondern das Modell lernt während des Trainingsvorgangs, die Gewichte selbst zu verteilen: Einige Signale werden wiederholt verwendet, andere nur in bestimmten Stadien eingesetzt, und wieder andere werden allmählich ausgeblendet. Welche Signale mehr und welche weniger verwendet werden sollen, wird nicht von Menschen festgelegt, sondern von den Daten und der Zielfunktion gemeinsam entschieden.

Somit haben die Hyper-Connections dem Modell zwischen den Schichten eine größere Freiheit gegeben, was gleichbedeutend ist mit der Fähigkeit des Modells, die Informationen "dynamisch zu planen", anstatt sie maschinell unverändert weiterzuleiten. Aber genau hier tritt das Problem auf: Wenn dem Modell zu viel Freiheit gegeben wird und es nicht genügend eingeschränkt ist, kann das System selbst instabil werden.

Dieses Bild zeigt direkt die tödliche Schwäche der Hyper-Connections beim Training von Großen Modellen: Die Instabilität ist strukturell und kein zufälliges Phänomen.

Das linke Bild zeigt die Lossabweichung von HC gegenüber mHC während des Trainings. Man kann sehen, dass HC im frühen Trainingsstadium normal aussieht, aber mit zunehmender Anzahl der Schritte das Loss nicht kontinuierlich konvergiert, sondern allmählich abweicht und lange Zeit in einem Zustand hoher Fluktuation bleibt. Dies zeigt, dass der Informationsfluss im Inneren des Modells aus dem Gleichgewicht geraten ist und der Trainingsvorgang schwerlich auf den richtigen Weg gebracht werden kann.

Das rechte Bild bestätigt dies weiter. Die Gradientengröße von HC ist insgesamt höher, die Fluktuation häufiger, und es treten mehrfach deutliche Spitzen auf, was zeigt, dass das Modell in verschiedenen Stadien unterschiedlich stark auf die Information reagiert: Entweder explodiert das Signal oder es wird sehr schwach. Die Information verliert in der schichtweisen Weiterleitung allmählich das ursprüngliche Verhältnis, was die Informationsfidelity und die Trainingsstabilität opfert.

Mit der Entstehung von mHC ist das Problem der instabilen Hyper-Connections-Trainings gelöst.

Der volle Name von mHC ist "Manifold-Constrained Hyper-Connections". Es leugnet nicht den Gedanken der Hyper-Connections, sondern fügt diesen eine entscheidende Sicherheitsbarriere hinzu, nämlich die Matrix H auf eine "doppelstochastische Matrix" zu beschränken.

Eine "doppelstochastische Matrix" kann man sich als eine Art "Regelwerk, das nur verteilt, aber nicht vergrößert" vorstellen.

In einer solchen Matrix ist jede Zahl nicht negativ, und die Summe jeder Zeile und jeder Spalte ist streng auf denselben festen Wert begrenzt. Sie beschreibt nicht, um wie viel ein Signal vergrößert wird, sondern wie die vorhandene Information in einem bestimmten Verhältnis an verschiedene Positionen verteilt wird.

Beispielsweise ist eine 2x2-doppelstochastische Matrix im Wesentlichen eine Gewichtsverteilung zwischen zwei Komponenten: Wenn man einer Komponente mehr gibt, muss die andere weniger bekommen, und die Gesamtmenge bleibt immer konstant.

Deshalb wirkt eine solche Matrix bei der Berechnung eher wie eine Neubewertung von Ressourcen, als dass sie neue Energie erzeugt. Wenn man sie auf einen Vektor anwendet, ist jeder Eintrag des Ergebnisses eine gewisse Kombinationsmittelung des ursprünglichen Signals und wird nicht aus dem Nichts größer oder kleiner.

Dies führt zu einem sehr wichtigen Ergebnis: Solange die Eingabe selbst stabil ist, ist die Ausgabe von Natur aus in einem sicheren Bereich eingeschränkt. Mit anderen Worten, im System kann es keine unkontrollierten Signale geben, die immer größer werden. Dies schließt von der mathematischen Struktur her die Möglichkeit eines Signalexplosions aus.

Genauso wichtig ist, dass diese Beschränkung nicht nur die Signalexplosion verhindert, sondern auch das Schwächen oder Verschwinden des Signals vermeidet. In mHC kann das Modell nicht alle Gewichte gleichzeitig reduzieren, da die Summe der Gewichte jeder Zeile und jeder Spalte auf 1 festgelegt ist. Dies bedeutet, dass die von jeder Schicht weitergeleitete Information vollständig auf die verschiedenen Kanäle der nächsten Schicht verteilt werden muss, und nicht insgesamt geschwächt wird.

Mit anderen Worten, die doppelstochastische Beschränkung hält den Informationsfluss im Netzwerk immer in einem konstanten Bereich: Er wird weder unendlich vergrößert noch allmählich aufgebraucht.

Diese Beschränkung von mHC verbessert die Stabilität und Leistung des Trainings von Großen Modellen erheblich. Der einzige Nachteil ist die Erhöhung der Trainingszeit um 6,7 %, hauptsächlich wegen der Erweiterung der Breite des Residualflusses. Aber diese zusätzlichen Kosten sind im Vergleich zu der Leistungssteigerung vernachlässigbar. Man muss bedenken, dass das Training von Großen Modellen extrem teuer ist und jede Sekunde der Rechenleistungskonsum beängstigend ist. Die von mHC gebotene Stabilität kann Unternehmen Tausende von Millionen an Rechenleistungskosten und die Zeit für mühsame Anpassungen sparen, und der Gesamtnutzen übersteigt bei weitem die Kosten.

mHC folgt weiterhin der Gesamtidee von DeepSeek, zeigt aber in der praktischen Anwendung noch mehr Potenzial.

Erstens hat es ein neues Gleichgewicht zwischen Stabilität und Effizienz gefunden und gleichzeitig die Kosten erheblich gesenkt. Indem es die Anzahl der erneuten Trainingsversuche bei Fehlern verringert, verkürzt mHC die Produktiterationszyklen erheblich und kann die Rechenleistungskosten um etwa 30 % senken. Dies bedeutet, dass bei der zukünftigen Explosion von AI-Produkten mit höherer täglicher Nutzung nicht nur Ressourcen gespart werden können, sondern auch schneller iteriert und optimiert werden kann, was eine zuverlässige Grundlage für die schnelle Reaktion der Produkte auf den Markt bietet.

Zweitens bietet mHC Unterstützung für die Entwicklung von Großen Modellen in Richtung noch größerer Skalen. Derzeit gehen die Großen Modelle bereits in Richtung Milliarden oder sogar Billionen von Parametern, und die Stabilität ist der größte Engpass bei der Skalenerweiterung. mHC ermöglicht es durch seinen "Beschränkung + Effizienz"-Rahmen, dass komplexere Modellarchitekturen erfolgreich trainiert werden können, reduziert die Unsicherheit und den Rechenleistungswaste bei der Massenausbildung erheblich und verbessert gleichzeitig die AI-Fähigkeiten.

In der technologischen Forschungs- und Entwicklungsidee hat es bewiesen, dass "gebundene Freiheit" wertvoller ist als "volle Freiheit" - die Einfügung von angemessenen mathematischen Beschränkungen in das Modell kann die Entwicklung der künstlichen Intelligenz wissenschaftlicher und vorhersagbarer machen und möglicherweise die Architekturgestaltung der künstlichen Intelligenz von "erfahrungsgesteuert" in "theoriegesteuert" verlagern.

So wie die Sterne im Universum nur unter der Einwirkung

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Interpretation der neuesten DeepSeek - Studie: Wie kann mHC leistungsfähigere Modelle mit weniger Geld trainieren? - Investment - Notiz Nr. 243