Errichtung einer dualen Netzwerkinfrastruktur mit Datenantriebstrennung: "Dual-Brain"-Modellall-in-One-Gerät durchbricht das Rechenleistungsengpass|Frühphasenprojekt
Autor|Huang Nan
Redaktion|Yuan Silai
In der Welle der großen Modelltechnologie wird das Scaling Law von der Branche als erstes Prinzip befolgt, bis das Fachmagazin The Information in einem Exklusivbericht feststellte, dass das nächste Flaggschiff-Modell Orion von OpenAI möglicherweise nicht die erwarteten Trainingsergebnisse erzielt: Im Vergleich zu GPT-4 könnte die Leistungssteigerung minimal sein. Dies hat die Branchenexperten dazu veranlasst, über den Entwicklungspfad großer Modelle intensiv nachzudenken: Ist das Scaling Law die einzige Richtung?
Seit langem gibt es bei der Einführung großer Modelle auf Grundlage des Scaling Law bedeutende Engpässe. Um die Modellfähigkeit zu verbessern, vergrößern die Hersteller kontinuierlich die vortrainierten Daten, die Trainingsleistung und die Modellparameter, was nicht nur hohe Kosten verursacht; gleichzeitig führt Algorithmenhomogenität auch zu einer Homogenität von Datengröße und Trainingsleistung, was letztlich zu einer Vereinheitlichung der Ausgabe führt. Auf der anderen Seite bleibt auch die Frage, ob große Modelle Kundendaten effektiv lernen und zu Fachexperten werden können, eine große Herausforderung.
Derzeit zeigen sich bei der ausschließlichen Abhängigkeit von konzentriertem Bruttraining gemäß dem Scaling Law viele Nachteile. Die „Intelligenz“ großer Modelle wird nicht nur durch die Parametergröße bestimmt. Der Fokus der Unternehmenskunden liegt darauf, wie das große Modell in realen Szenarien funktioniert. Um die hohe Mauer zwischen Modell und anwendbaren Anwendungen zu durchbrechen, hat das kürzlich von Hard Kr erfahrene „Legend IOT“ vorgeschlagen, dass das zentrale Vortrainierungsmodell neu bewertet werden sollte und ein Echtzeit-Lern- und Trainingsmodell einen höheren Erkundungswert hat.
Chairman He Enpei von „Legend IOT” weist darauf hin, dass bei großen Modellen bei gleichen Parametern fortschrittlichere Modellalgorithmen und -architekturen zu weniger benötigter Trainingsleistung und weniger Trainingsdaten führen, ohne die Modellfähigkeit zu beeinträchtigen, und in einigen Indikatoren sogar die Modelle mit großen Parametern übertreffen können. „Im Vergleich dazu ist dieses kleine Parametermodell, das effiziente Algorithmen und Architekturen nutzt, besser für die kommerzielle Einführung geeignet und kann auch allgemeine Szenarien bedienen.”
Der Gründer von Legend, He Enpei, hält einen Vortrag zum Thema "Erkundung und Praxis von großen Modellen basierend auf der getrennten Datentrieb-Architektur mit Doppelnetzwerk"
Basierend auf diesem Konzept hat „Legend IOT“ im jüngst veröffentlichten Rendu-Großmodell einen vollständig selbstentwickelten Technologie-Stack verwendet, ohne auf Open-Source-Code und -Frameworks zurückzugreifen, wobei eine Doppelnetzwerkarchitektur eingesetzt wurde, die das Inferenznetzwerk vom Datenlernnetzwerk trennt.
Das Kunden-Datenlernnetzwerk ähnelt dem linken Gehirn des Menschen und konzentriert sich auf das dynamische Management von Daten und iteratives Training, um dem Modell kontinuierlich Wissensnährstoffe zu geben; das Inferenznetzwerk hingegen ist wie das rechte Gehirn des Menschen und fungiert als Grundlage, die mit großen Datenmengen vortrainiert wurde und über eine gute Inferenz- und Generalisierungsfähigkeit verfügt.
Diese Designlösung der synergetischen Arbeit beider Netzwerke kann die Kosten für die Trainingsleistung effektiv senken und Probleme wie die Degradierung der Basismodellfähigkeiten und die Schwächung der Generalisierungsfähigkeit, die durch Feineinstellungen verursacht werden, vermeiden. Gleichzeitig kann das Datenlernnetzwerk die historischen Daten des Unternehmens lernen und in Echtzeit die aus dem Geschäftsbetrieb resultierenden neuen Daten lernen, wobei beide Netzwerke zusammenarbeiten, um die vom Kunden benötigten Ergebnisse zu liefern.
Tests haben gezeigt, dass das Rendu-Großmodell durch die Technologie der getrennten Datentrieb-Architektur die Beschränkungen der konventionellen Technologiearchitektur großer Modelle durchbricht: Die Länge des Kontexteingangs ist nicht begrenzt, Milliarden von Benutzerdaten können in das neuronale Netzwerk komprimiert werden und eine tiefgreifende Wissensverständnis ermöglichen, was dem „Echtzeit“-Datenlernmodus sehr nahe kommt. Selbst bei minimaler Datenaktualisierung kann eine schnelle Hochladung und Datenkomprimierung erfolgen, was zur Entwicklung eines unternehmenseigenen angepassten Großmodells führt.
Das Rendu-Großmodell ist in den Versionen 2,1B und 9B erhältlich und reduziert die Kosten für Trainings- und Inferenzleistung um 10%-20% und 25%-50% im Vergleich zu gleichwertigen großen Modellen.
Hard Kr hat erfahren, dass „Legend IOT“ das große Modell der getrennten Datentrieb-Architektur mit Doppelnetzwerk bereits auf die „Double Brain“ Rendu-Großmodell-All-in-One-Lösung angewendet hat, die bald auf den Markt kommen wird. Diese All-in-One-Lösung basiert auf dem Dual-Brain-Modus der getrennten Datentrieb-Architektur und kann die Probleme von ausgelagertem Kundendatentraining, begrenzten Vektorergebnissen und hohen Personalaufwendungen lösen, indem es lokales Echtzeitlernen von aktualisierten Daten ermöglicht und schnell in einen „Enterprise Knowledge Specialist“ umgewandelt wird.
Um das Problem der Datensicherheit und Privatisierung der Kundendaten anzugehen, kann die „Double Brain“ Rendu-Großmodell-All-in-One-Lösung lokal eingesetzt und trainiert werden, ohne auf die öffentliche Cloud hochladen zu müssen, was die Datensicherheit gewährleistet. Gleichzeitig können die ursprünglichen und hochreferenzierten Eigenschaften das Problem hoher Hardwareinvestitionen, hohen Energieverbrauchs sowie technischer Sicherheit und Softwarelücken beim Einsatz großer Modelle in Kundenanwendungen bis zu einem gewissen Grad lösen.