StartseiteArtikel

"Ren Du Shuang Gehirn Großmodell: Die erste technische Route in China, die die Grenzen der KI-Technologie durchbricht"

36氪产业创新2024-11-19 10:15
Erforschen Sie die Trennung von Datenverarbeitung und Datenspeicherung, um die Kosten großer Modelle zu senken und die Effizienz zu steigern.

Der Zen-Buddhismus sagt: „Das Große im Kleinen sehen, eine Blume, eine Welt; ein Blatt, eine Bodhi.“ Dies lehrt uns, dass selbst in etwas so Kleinem wie einem Blatt immense Bodhi-Weisheit erkennbar ist.

Im Zeitalter der KI stehen Unternehmen bei der intelligenten Transformation vor Herausforderungen wie hohen Entscheidungskosten, großem Aufwand und schwer vorhersehbaren Ergebnissen. In diesem Kontext sehnen sich Unternehmen danach, die traditionelle Logik des KI-Schlussfolgerns und Trainings zu überwinden. Im Zeitalter der großen Modelle soll der Gedanke des „Großen im Kleinen“ wie das Erkennen der Bodhi-Wahrheit aus einem Blatt in effizienter Weise die intelligenten Prozesse steuern.

Bereits zu Beginn des rapiden Wachstums der KI-Technologie im Jahr 2021 wurde darauf hingewiesen, dass das Scaling Law (Skalierungsgesetz) möglicherweise seine Grenzen hat. Doch die kontinuierliche Weiterentwicklung von ChatGPT von Version 2.0 über 3.0 bis hin zu 3.5 hat die Wirksamkeit des Scaling Laws weithin anerkannt. Aber ChatGPT 4.0 scheint die Grenze der menschlich vorhandenen Datenverarbeitung zu berühren, sodass in diesem Bereich eine Sackgasse erreicht zu sein scheint.

Vor diesem Hintergrund wird in der Branche intensiv diskutiert, welche neuen Strategien und Richtungen neben dem Scaling Law auf dem Weg zum AGI erforderlich sind. Ziel der großen Modelle sollte die Vergrößerung der „Weisheit“ sein, nicht nur die Parameteranzahl. Kunden erwarten, dass das große Modell in ihren praktischen Szenarien wie ein geschäftskundiger Experte agiert, um tatsächliche Probleme zu lösen, und nicht wie ein belangloser externer Berater oder ein Modell, das größer umso besser ist. Damit große Modelle tatsächlich als interne Experten für Kunden dienen können, müssen sie sich von der oberflächlichen Interaktion lösen und tief in die tatsächlichen Daten der Kunden eintauchen, um ein tiefes Verständnis und Entdeckung zu ermöglichen. Daher sollte der zentrale Vortrainingsmodus neu bewertet werden, während der Echtzeit-Lern- und Trainingsmodus mehr Erkundungswert hat.

1. Die Zukunft großer Modelle darf nicht vollständig auf das Scaling Law setzen

Viele Modelle folgen dem Pfad von OpenAI und erhöhen nur die Kapazität des Modells (also die „Parameter“), in der Meinung, dass das Modell dadurch intelligenter wird. Doch eine große Anzahl kürzlicher Veröffentlichungen zeigt, dass die Intelligenz großer Modelle nicht direkt proportional zur Kapazität ist; mit steigender Kapazität kann die Intelligenz sogar sinken.

In jüngster Zeit hat Transn mit dem „weniger naiven Modellentwicklung“-Modell einen neuen Ansatz eingeführt, der die Trennung von Zahlen- und Schlussfolgerungsaufgaben mit einer zweigleisigen Netzwerkarchitektur realisiert. Dies kann als zwei zusammenarbeitende Gehirne verstanden werden: Ein Gehirn ist das lernende Netzwerk, das sich auf das dynamische Management und die iterative Schulung von Daten konzentriert und Wissen kontinuierlich in das Modell einbringt; das andere Gehirn ist das schlussfolgernde Netzwerk, das als vortrainiertes Basisnetzwerk gute Schlussfolgerungs- und Generalisierungsfähigkeiten besitzt. Die beiden Netzwerke arbeiten zusammen, indem sie die eingebetteten Schichten und Zwischendarstellungen teilen, was eine effiziente Zusammenarbeit als „Haupt- und Nebenhirn“ ermöglicht und sowohl unabhängiges Training als auch gemeinsames Schlussfolgern unterstützt.

Mit diesem innovativen Ansatz ist Transn das weltweit erste Unternehmen, das in der großen Modellbranche eine Strategie zur Trennung von Zahlen und Schlussfolgerungen verwirklicht hat, was einen bedeutenden Durchbruch im Bereich der künstlichen Intelligenz in China darstellt.

 

(1) Durchbrechen der Kontextlängeneingabebeschränkungen für Echtzeit-Datenlerneffekte

Die zweigleisige Netzwerkarchitektur der Trennung von Zahlen- und Schlussfolgerung ermöglicht es, die Beschränkungen der herkömmlichen, integrierten Technikarchitektur großer Modelle zu überwinden. Nachdem das schlussfolgernde Gehirn ausgereift ist, kann das lernende Gehirn weiterhin die Daten aufnehmen, ohne die Kapazität des schlussfolgernden Gehirns zu beeinträchtigen. Daher ist für diese zweigleisige Architektur die Eintrittslängeneingabe nicht länger begrenzt, wobei gigabyteweise Daten in einem neuronalen Netzwerk für tiefes Wissen komprimiert werden können.

Das technische Design des weniger naiven Modells erfordert nicht die Speicherung von Daten in riesigen Parametern, um Wissen zu bereichern; es kann sich auf das lernende Gehirn verlassen, um Daten in der Kundensituation in Echtzeit zu lernen. Dadurch können die Parametermengen erheblich reduziert werden, was die Kosten für Hardwareeinsatz beim Training und Schlussfolgern senkt.

Diese Architektur kann neues Datenmaterial im Laufe der Geschäftsentwicklung des Kunden kontinuierlich lernen und die Datenkompression verbessern. Im Modus zur Trennung von Zahlen- und Schlussfolgerung ist die Kompression des Netzwerkes zur Datenaktualisierung von äußerst geringem Einfluss auf das schlussfolgernde Netzwerk und bietet flexible Datenverarbeitung an, indem es die Trainingszeit auf ein Minuten-Niveau reduziert.

(2) Kunden können das Datenlerntraining lokal durchführen und so Datensicherheit gewährleisten

Die zweigleisige Netzwerkarchitektur großer Modelle kann Energiekosten für Training und Schlussfolgern reduzieren und effektiv das Problem der Abnahme von Grundmodellen und der Generalisierungsfähigkeiten bei Feinabstimmung von Kundendaten in integrierten Modellen vermeiden. Zudem kann das lernende Netzwerk die Kundendaten ohne zusätzliche Rechenleistung und Fachkräfte vor Ort in Echtzeit trainieren, einschließlich der Nutzung historischer und neuer Daten des Unternehmens und so Bedenken zur Datensicherheit ausräumen.

Der weniger naive Ansatz zur Trennung von Zahlen und Schlussfolgerungen hat in der praktischen Anwendung die drei Hauptprobleme bei kundenspezifischen großen Modellen gelöst: Daten der Kunden müssen den Ort nicht verlassen, schlechte Vektorergebnisse und hoher Talentaufwand, indem es lokales Echtzeitlernen ermöglicht und Kundendaten schnell in „Experten“ für den Kundeneinsatz umwandelt. Wesentlich ist, dass das lokale Training von Kundendaten nicht in die öffentliche Cloud übertragen wird, um die Privatsphäre und Sicherheit der Daten zu gewährleisten.

2. Scaling Law ist nicht allmächtig, Vergleichbarkeit ist der Schlüssel, lokale Unternehmen sollten neue Wege gehen

Auf dem chinesischen Markt hat sich das Scaling Law bei großen Sprachmodellen noch nicht vollständig durchgesetzt. Im Bereich AGI erfordert das Scaling Law die Zusammenarbeit von Rechenleistung, Algorithmen und Daten, was immense finanzielle Unterstützung erfordert. In der jüngeren Vergangenheit haben internationale Großunternehmen sogar erklärt, dass Algorithmen im Kontext großer Datenmengen und Rechenleistung wertlos sind.

Der Gründer von Transn, He Enpei, ist der Meinung, dass der auf dem Scaling Law basierende Entwicklungsweg großer Modelle an seine Grenzen gestoßen ist. Um wahre Durchbrüche zu erzielen, sind Algorithmen und Architektur entscheidend. Tatsächlich ist die Leistung eines Modells nicht immer proportional zur Parametrisierung; innovative Architekturen kleiner Parameter können mit effizientem Algorithmen-Design ebenfalls eine starke Leistung erbringen und sogar in bestimmten Indikatoren herkömmliche große Modelle übertreffen.

Aktuell sind die zahl-remotearbeitsunabhängigen großen Modelle mit zweigleisiger Netzwerkarchitektur bereits auf Transn's „Doppelhirn“-Hochleistungsmodellen anwendbar. Die eingebauten Transn-Modelle gibt es in Varianten mit 9B bzw. 2,1B Parametern. In zahlreichen nationalen und internationalen Bewertungen sticht das Modell mit 9B Parametern im Vergleich zu Modellen mit Hunderten von Milliarden Parametern hervor und erzielt mit weniger Parametern führende Leistungen.

Tatsächlich haben hohe Kosten die Entwickler und nutzenden Unternehmen von großen Modellen bereits gehemmt. Die beste Lösung besteht offensichtlich darin, dass Unternehmen mit den geringsten Kosten die Anwendungen großer Modelle erfolgreich nutzen können. Im Vergleich zu großen Parametermodellen reduzieren kleinere Modelle den Rechenaufwand und Ressourcenkonsum, sind besser für kommerzielle Implementierungen geeignet und erfüllen die Anforderungen allgemeiner Anwendungsszenarien, was die Machbarkeit von großen Modellanwendungen beweist. Daher wird Transn in Zukunft verstärkt in die Verbesserung von Algorithmen und Architektur investieren, um die Fähigkeiten großer Modelle weiter zu entwickeln.

He Enpei ist überzeugt, dass „Algorithmus über den Erfolg zu erreichen“ eine der technologische Routen mit chinesischer Besonderheit ist, die der Klugheit und Weisheit der Chinesen entspricht und im KI-Zeitalter der großen Modelle von besonderer Bedeutung ist. Er glaubt, dass viele Teams wie Transn im Stillen arbeiten und mit einzigartigen Konzepten intelligente Innovationen anführen, auch wenn sie momentan noch im Hintergrund agieren, aber schließlich eine bedeutende Kraft in der Entwicklung der AI-Technologie in China sein werden.