Nicht dem Transformer-Ansatz folgend, präsentiert Caiyun Technology das universelle große Modell Yun Jin Tian Zhang | Frontline
Text | Wang Fangyu
Redaktion | Su Jianxun
Die meisten generativen KI-Produkte basieren derzeit auf der im Jahr 2017 von Google eingeführten Transformer-Modellarchitektur. Ein heimisches KI-Start-up, Colorful Cloud Technology, beschreitet jedoch einen neuen Weg und entwickelt eine völlig neue Modellarchitektur namens DCFormer, auf der neue Produkte basieren.
Am 13. November stellte Colorful Cloud Technology in seiner Zentrale in Peking das erste allgemeine große Modell namens Yunjin Tianzhang vor, das auf der DCFormer-Architektur entwickelt wurde.
Laut CEO Yuan Xingyuan kann Yunjin Tianzhang auf der Grundlage einer fiktiven Weltanschauung Figuren in Romanen mit grundlegenden Fähigkeiten wie Programmieren und Mathematik ausstatten. Es kann große Mengen Text schnell erweitern oder zusammenfassen und den Stil von Artikeln in großem Umfang ändern, während es gleichzeitig grundlegende Fähigkeiten wie Fragen und Antworten, Mathematik und Programmieren wie andere Modelle besitzt.
Der größte Unterschied zwischen Yunjin Tianzhang und regulären großen Modellen liegt neben den unterschiedlichen Anwendungsszenarien im zugrunde liegenden Modell. Durch die Verbesserung der Aufmerksamkeitssmatrix kann die DCFormer-Architektur die Umwandlungsrate der Rechenleistung bei gleichen Trainingsdaten auf das 1,7- bis 2-fache des Transformers steigern.
Außerdem ist der DCFormer eine Verbesserung auf der Basis des Transformers und kann mit vorhandenen Modellen kombiniert werden, anstatt sie auszuschließen. Daher können alle großen Modelle, die auf der Transformer-Architektur basieren, ihre Kosten auf der Grundlage des DCFormers senken.
Auf der 41. Internationalen Konferenz für maschinelles Lernen ICML 2024 im Mai wurden die Ergebnisse der DCFormer-Architektur von Colorful Cloud Technology offiziell veröffentlicht. Diese Konferenz ist eine der drei wichtigsten Konferenzen im Bereich des maschinellen Lernens weltweit. Darüber hinaus wurden der Modellcode, die Gewichte und der Trainingsdatensatz des DCFormers vollständig auf Github als Open Source veröffentlicht.
Warum einen neuen Weg mit der DCFormer-Architektur einschlagen? Yuan Xingyuan erklärte gegenüber 36Kr, dass der enorme Energiebedarf von KI während des Betriebs in der Branche bekannt ist und die Verbesserung der zugrunde liegenden Architektur des Modells die beste Strategie zur Bewältigung dieser Herausforderung darstellt. Die Effizienzsteigerung des Modells kann auch die Kosten für die iterative Aktualisierung von künstlicher Intelligenz effektiv senken und die Ankunft der KI-Ära beschleunigen.
Obwohl die DCFormer-Architektur die Kosten für das Training und die Inferenz großer Modelle reduzieren kann, agiert Colorful Cloud Technology in Bezug auf die Kommerzialisierung relativ vorsichtig und achtet auf das Verhältnis von Aufwand und Ertrag.
Derzeit bietet Colorful Cloud Technology mit Colorful Cloud Weather, Colorful Cloud Xiaomeng und Colorful Cloud Xiaoyi drei KI-Produkte für Endverbraucher an, die weltweit einen ARR (jährlich wiederkehrende Einnahmen) von über 10 Millionen US-Dollar erzielt haben. Es ist eines der wenigen profitablen KI-Unternehmen in China. Die letzte Finanzierungsrunde war die B2-Runde, die von Kuaishous ehemaligem CEO Su Hua persönlich investiert wurde, mit einer Bewertung von 120 Millionen US-Dollar vor der Investition.
Yuan Xingyuan sagte gegenüber 36Kr, dass die Forschung und Anwendung der DCFormer-Architektur von Colorful Cloud Technology vor allem dem eigenen Geschäft dienen. Zurzeit kann Colorful Cloud Xiaomeng V3.5, basierend auf der neuen DCFormer-Architektur, logisch zusammenhängende und detaillierte Beschreibungen von mehreren hundert bis tausend Wörtern in einem einzigen Durchgang erstellen. In Zukunft könnte es möglich sein, den Umfang auf 2-5 Tausend Wörter zu erweitern, um ein höheres Maß an Intelligenz und eine größere Nutzeraktivität zu erreichen.