Li Kaifu antwortet auf den Verzicht auf Vortraining: "Das Training eines großen Modells kostet drei bis vier Millionen US-Dollar, führende Unternehmen können es sich leisten" | Frontline
Text von | Zhou Xinyu
Bearbeitet von | Su Jianxun
„Lingyi Ventures wird niemals das Pretraining aufgeben.“
Am 16. Oktober 2024 kündigte der Gründer und CEO von Lingyi Ventures, Li Kaifu, öffentlich an. Am selben Tag gab Lingyi Ventures das neueste Flaggschiff-Modell mit MoE-Architektur (Mixture of Experts) bekannt: Yi-Lightning.
Dies ist das erste Modell-Update von Lingyi Ventures in fünf Monaten.
Li Kaifu erklärte, dass das Training von Yi-Lightning nur 2000 GPUs und eine Trainingsdauer von anderthalb Monaten benötigte, was Kosten von nur über 3 Millionen US-Dollar verursachte, was 1% bis 2% der Kosten von Elon Musks xAI ausmacht.
Obwohl die Trainingskosten niedrig sind, zeigt Yi-Lightning keine Leistungseinbußen. Auf der Gesamt-Rangliste des Chatbot Arena-Teams der Universität von Kalifornien, Berkeley, gleichte Yi-Lightning in der Leistung xAIs Grok-2-08-13-Modell und übertraf OpenAIs GPT-4o-2024-05-13.
Die Gesamt-Rangliste der Sprachfähigkeiten der Chatbot Arena des LMSYS-Teams. Bildquelle: Lingyi Ventures
Bemerkenswert ist, dass Yi-Lightning in der chinesischen Sprachfähigkeit den zweiten Platz zusammen mit dem neuesten OpenAI-Modell o1-mini erreichte; bei Mathematikfähigkeiten belegte Yi-Lightning zusammen mit Gemini-1.5-Pro-002 den dritten Platz, nur hinter o1, das sich durch mathematische und logische Vernunft auszeichnet.
Hinsichtlich der Preisgestaltung brachte Yi-Lightning den niedrigsten Preis für das Lingyi Ventures-Modell: 0,99 Yuan pro Million Token.
Preisgestaltung des Lingyi Ventures-Modells. Bildquelle: offizielle Webseite von Lingyi Ventures
Natürlich bedeutet eine Ranglistenplatzierung nicht unbedingt, dass das Modell in realen Szenarien leistungsfähig ist. Auf der Pressekonferenz betonte Lingyi Ventures die Praktikabilität und ließ Yi-Lightning seine Stärke unter Beweis stellen.
Zum Beispiel halbierten sich im Vergleich zum im Mai 2024 veröffentlichten Yi-Large die Antwortzeiten von Yi-Lightning, und die maximale Generierungsgeschwindigkeit vervierfachte sich fast.
Im speziellen Anwendungsbereich der Übersetzung zeigt Yi-Lightning eine schnellere Übersetzungsgeschwindigkeit als die neuesten Flaggschiffmodelle von Doubao, DeepSeek und Tongyi Qianwen, während die Übersetzungsergebnisse zudem präziser und eleganter sind.
Leistung von vier Modellen bei gleicher Übersetzungsaufgabe. Bildquelle: Lingyi Ventures
In der Veranstaltung enthüllte Li Kaifu auch die Trainingsstrategie von Yi-Lightning:
Einzigartiger Hybridaufmerksamkeits-Mechanismus (Hybrid Attention): Verbesserung der Leistung beim Umgang mit langen Sequenzdaten und gleichzeitige Reduzierung der Inferenzkosten;
Dynamischer Top-P-Routing-Mechanismus: Automatische Auswahl der optimalen Expertengruppenkombination basierend auf dem Schwierigkeitsgrad der Aufgabe;
Mehrstufiges Training (Multi-stage Training): Ermöglicht dem Modell, in verschiedenen Phasen unterschiedliche Kenntnisse zu absorbieren, erleichtert die Anpassung des Data-Mixing-Teams und gewährleistet Geschwindigkeit und Stabilität im Training.
Auf der Veranstaltung im Mai 2024 führte Lingyi Ventures in China ein C-End-Produktivitätsprodukt namens „Wanzhi“ ein. Fünf Monate später hat Lingyi Ventures auch im Bereich der B-to-B-Kommerzialisierung neue Entwicklungen vorzuweisen, insbesondere fokussiert auf den Einzelhandel und E-Commerce mit KI 2.0 digitalen Menschen.
Hinter den KI 2.0 digitalen Menschen stehen groß angelegte Multimodale Kooperativ-Trainingsmodelle für E-Commerce-Kommunikation, Rollen und Live-Stimmenmodelle. Derzeit ist auch der KI 2.0 digitale Mensch mit Yi-Lightning verbunden. Benutzer müssen lediglich das zu verkaufende Produkt, Geschlecht und Tonlage der Stimme eingeben, und es wird der entsprechende digitale Mensch generiert.
Vorher-Nachher-Vergleich der Integration von Yi-Lightning in den Lingyi Ventures AI 2.0 digitalen Menschen. Bildquelle: Lingyi Ventures
Heutzutage ist die Entwicklung groß angelegter Modelle in eine Phase tiefer technischer Erkundung eingetreten. Auch wenn das Versprechen aufrechterhalten wird, „niemals das Pretraining aufzugeben“, räumt Li Kaifu ein: „Nicht jedes Unternehmen kann dies tun, und es ist kostenintensiv; es kann in Zukunft immer weniger Unternehmen geben, die groß angelegte Modelle für Pretraining trainieren.“
Jedoch bleibt Li Kaifu optimistisch im Blick auf die sechs heutigen KI-Einhörner:
„Soweit mir bekannt ist, verfügen diese sechs Unternehmen über ausreichende Finanzierungsbeträge. Wir führen ein Production Run für Pretraining durch, das einmalig drei bis vier Millionen US-Dollar kostet. Das sind Beträge, die führende Unternehmen sich leisten können. Ich glaube, dass Chinas sechs große Modellunternehmen mit gutem Personal, dem Entschluss, Pretraining zu betreiben, und ausreichender Finanzierung und Chips keine Probleme haben werden.“
Herzlich willkommen zum Austausch!