36氪_让一部分人先看到未来

Antwort an DeepSeek: StepStar präsentiert das „Dreier-Set“: Open Source, multimodales Schließen, KI-Agent.

Text von | Zhou Xinyu

Bearbeitung von | Su Jianxun

Am 21. Februar 2025 wurde beim Ökologischen Tag der offenen Tür eine Modellantwort von "AI Six Tigers" Step Star präsentiert. Diese umfasste sowohl die Erkundung der nächsten Phase der AGI als auch die Form der Umsetzung des Modells und indirekt auch die Haltung von Step Star gegenüber DeepSeek.

Im Jahr 2024 war Step Star zweifellos der "König des Wettbewerbs" auf der Modellebene. Das im letzten Jahr als letztes der sechs kleinen Tiger gegründete Unternehmen veröffentlichte 11 Modelle auf einmal, die verschiedene Modalitäten wie Sprache, Sprache, visuelle und logische Schlussfolgerungen abdeckten.

Modellmatrix von Step Star.

Der Ansturm auf der Modellebene ist mit dem AGI-Explorationspfad von Step Star verbunden. Der CEO von Step Star, Jiang Daxin, sagte einmal gegenüber "Intelligent Emergence", dass Step Star von dem ersten Tag an den AGI-Pfad festgelegt hat: einmodale - multimodale - einheitliche Erzeugung und Verständnis der Multimodalität - Weltmodell - AGI (Artificial General Intelligence).

Man könnte sagen, dass Step Star im Jahr 2024 bereits den multimodalen Punkt erreicht hat. Bevor jedoch die "einheitliche Erzeugung und Verständnis der Multimodalität" eröffnet wird, muss sich der Tiger zunächst mit DeepSeek auseinandersetzen.

Seit 2024 hat DeepSeek als "Katalysator" in der großen Modellentwicklung viele Veränderungen hervorgerufen. Einerseits führte die DeepSeek API einen Preiskampf für Modelle ein, der den Preis für große Modelle auf 1 Yuan pro Million Tokens senkt; andererseits hat das Open-Source-Reasoning-Modell DeepSeek R1 die Branche veranlasst, die Ästhetik des Gewaltpotentials der Skalierungsgesetze zu überdenken.

Viele Fachleute glauben, dass DeepSeek einen erheblichen Einfluss auf die sechs Tiger hat. Das Open-Source-Format von Hochleistungsmodelle wie R1 stellt die Kommerzialisierung geschlossener Modelle vor viele Herausforderungen. Zudem wird der high-cost Valuations of the Tigers vermehrt in Frage gestellt aufgrund des kostengünstigen Verstärkungslernens von R1.

Wie man mit DeepSeek umgeht, ist derzeit das wichtigste Thema für die sechs Tiger. Die Verringerung der Wichtigkeit des Modell-API-Geschäfts und die Hinwendung zum Endverbraucher ist die Richtung der strategischen Anpassung einiger Modellunternehmen, wie zum Beispiel MiniMax, das das To-B-Team reduziert hat und DeepSeek R1 in seine AI-Assistent-Plattform integriert hat.

Step Star's zeitnahe Reaktion ist Open Source.

Auch wenn sie sich nicht direkt mit DeepSeek auseinandersetzen, werden diese beiden Modelle, die unmittelbar nach der Veröffentlichung von R1 als Open Source bereitgestellt wurden, als stumme Antwort von Step Star zur Verteidigung ihrer technologischen Position angesehen. Es ist zu beachten, dass Step Star zwei multimodale Modelle als Open Source bereitgestellt hat, wodurch ein Unterschied zum textorientierten Modell von DeepSeek entsteht.

Zwei Multimodal-Modelle von Step Star als Open Source.

Eines der Open-Source-Modelle ist das Step-Video-T2V, ein Videomodell mit 30 Milliarden Parametern, das derzeit das größte videobasierte Modell weltweit ist. Ein weiteres Open-Source-Modell ist das Step-Audio mit 130 Milliarden Parametern.

Bei der offenen Veranstaltung im Februar gab Jiang Daxin bekannt, dass Step Star im März 2025 plant, ein weiteres videobasiertes Modell als Open Source verfügbar zu machen.

Zurück zur Erforschung der nächsten Stufe der AGI, Multimodal-Reasoning ist die Entwicklungsrichtung, die Step Star als vielversprechend ansieht.

Dieser Ansicht stimmen auch viele in der Branche zu. Zum Beispiel berichtete "Intelligent Emergence" exklusiv, dass Shen Dou, der Executive Vizepräsident von Baidu Group, und Präsident der Baidu Intelligent Cloud Business Group, glaubt, dass sich der Schwerpunkt der Branche von der Ausbildung zur Schlussfolgerung verlagert und Multimodalität der Hauptbedarf wird.

Der Übergang der Multimodalität von Erzeugung zu Schlussfolgerung bedeutet, dass Multimodal-Modelle nicht nur Bilder und Videos erstellen können, sondern auch ihren Inhalt verstehen müssen.

Fortschritte von Step Star bei Multimodal-Reasoning-Modellen.

Beim Ecosystem Day kündigte Step Star in Zusammenarbeit mit der Tsinghua-Universität Open-Reasoner-Zero an, das erste Open-Source-Schlussfolgerungsmodell, das groß angelegtes Verstärkungslernen direkt aus einem vortrainierten Modell durchführt, dessen Effizienz 25 Mal höher ist als die von DeepSeek-R1-Zero.

Jiang Daxin enthüllte auch ein laufendes internes Projekt: das visuelle Schlussfolgerungsmodell. Er sagte, dass dieses Modell gründliches Denken im visuellen Raum durchführen kann. Dies bedeutet, dass das Modell ein Routenplan lesen und beantworten kann, "wohin führt der Pfeil?"

Der Modell-Implementierungsansatz, den Step Star als vielversprechend ansieht, ist der AI-Agent.

Warum ist das Jahr 2025 das Jahr, in dem Agenten boomen? Nach Ansicht von Jiang Daxin haben multimodale und gründliches Denken (Langdenkenketten-Schlussfolgerungen zur Lösung komplexer Probleme) im Jahr 2024 signifikante Fortschritte gemacht.

Step Star's Einstellung zu Agenten besteht darin, sie direkt umzusetzen. Jiang Daxin teilt Agenten in zwei Hauptkategorien ein: Branchenspezifische Agenten und intelligente Endpunkt-Agenten.

Ökosystem von Step Star's Agent-Kooperationen.

In beiden Richtungen wählt Step Star die Ökoschöpfung mit nachgelagerten Kunden. Zum Beispiel hat Step Star im branchenspezifischen Bereich gemeinsam mit dem Finanzverbund einen Finanzinformationsassistenten "AI Cash Baby" entwickelt; im Bereich intelligenter Endpunkte sind die Agenten von Step Star auch in die Produkte führender Unternehmen wie Geely Automobile, OPPO und Luo Sen Robotics integriert.

Finanzinformationsassistent "AI Cash Baby", entwickelt von Step Star und dem Finanzverbund.

Es ist erwähnenswert, dass Yin Qi, der Gründer von "AI Four Dragons" Megvii Technology, mit einer neuen Rolle auf dem runden Tisch des Ökosystem-Tages erschien. Heute ist er Vorsitzender des autonomen Fahrunternehmens "Qianli Technology". Er glaubt, dass die erfolgreichsten KI-Produkte derzeit immer noch Tesla und Douyin sind, aber das große Modell wird auch einen größeren Marktraum für Anwendungen bringen.

Yin Qi, Gründer von Megvii, nimmt am runden Tisch von Step Star teil.

Herzlich willkommen zum Austausch!

Bitte folgen Sie uns!

Dieser Artikel wurde ursprünglich von「阿菜cabbage」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Der zurückhaltendste der "Sechs kleinen Tiger", StellarStep, startet das Jahr mit einer Premiere: Agent bringt intelligente Endgeräte auf den Markt und Yin Qi ist auch dabei | Frontline