Zhipu: Der Beginn des Krieges um das Recht zur Interpretation der digitalen Welt

SCAIL-2, mehr als SCAIL-2

In 2026 ist es bereits das dritte Jahr seit der Entstehung der generativen Künstlichen Intelligenz, in dem sich diese rasant entwickelt hat.

Innerhalb dieser drei Jahre hat die KI-Branche eine heftige Veränderung von der Ausbildung großer Sprachmodelle über die multimodale Verständnis bis hin zu einem Paradigmenwechsel in der Videogenerierung erlebt.

Das Interesse von Kapital und Öffentlichkeit richtet sich immer noch auf den Markt, die Bilder und die Kohärenz der Videogenerierung. Ein seit langem vernachlässigtes Problem in der Tiefe wird nun endlich in den Vordergrund gerückt: Es ist einfach zu generieren, aber schwer zu kontrollieren; die visuellen Effekte sind beeindruckend, aber die Produktion kann nicht abgeschlossen werden.

Deshalb sind sowohl die Programmierfähigkeit als auch die multimodale Fähigkeit für die kommerzielle Umsetzung von Agenten unverzichtbare Voraussetzungen. Doch wird letztere immer wieder ignoriert, während ersteres immer betont wird.

Überraschenderweise ist es nicht ByteDance, das Dominanz in der Videogenerierung hat, noch Alibaba, das über alle Arten von Video- und Bildmodellen verfügt, sondern Zhipu, das bisher als mangelhaft an multimodaler Fähigkeit bewertet wurde, das erstmals beginnt, dieses Problem systematisch zu lösen.

Diesmal hat Professor Tang Jie, der Gründer und Chefwissenschaftler von Zhipu, Zhipu AI und das Forschungsteam der Tsinghua-Universität zusammen ein Modell namens SCAIL - 2 veröffentlicht, das die Barriere zwischen Künstlicher Intelligenz und industrieller Filmproduktion mit einem präzisen Skalpell aufgeschnitten hat.

Ein niedrig profilierte veröffentlichtes Modell bedeutet jedoch eine Paradigmenherausforderung an die zugrunde liegende Logik der digitalen Inhaltserstellung: Es versucht, die seit langem herrschende Regel der "Zwischenrepräsentation" herauszufordern und zeigt mit einer äußerst einfachen "End - to - End"-Architektur die Ankunft einer Ära an, in der die digitale Kreativität durch Intentionen angetrieben wird.

01 Von der "Skelettabhängigkeit" zur "visuellen Intuition"

Im Bereich der KI - Videogenerierung war die Kontrolltechnik in der Vergangenheit lange Zeit in eine "Semiotikverehrung" verstrickt. Ob Runway oder einige frühe Diffusionsmodelle, um die kontrollierte Bewegung der KI zu ermöglichen, musste die Ingenieurswelt ein kompliziertes Übersetzungssystem aufbauen:

Mit Hilfe von Pose - Estimatoren werden die menschlichen Körper in Videos in Skelettbilder abstrahiert, und diese Skelettbilder werden dann als Beschränkungsbedingungen in das Modell eingegeben.

Diese "Stickman"-Methode lässt die KI im Wesentlichen nur lernen, wie man "Symbole nachahmt", anstatt "Bewegungen zu verstehen". Im Idealfall klingt das Training durch Hundermillionen von "Stickman" perfekt, aber in komplexen Szenarien ist das Ergebnis völlig anders. Die gegenseitige Abdeckung mehrerer Personen, feine Handbewegungen und sogar die Interaktion mit nicht - menschlichen Charakteren lassen das System aus "Stickman" aufgrund von tiefgreifenden Ambiguitäten sofort zusammenbrechen.

Die Revolutionärkeit von SCAIL - 2 liegt hier: Es kündigt das Ende der Zeit der Abhängigkeit von "Stickman" an. Die Kernarchitektur von SCAIL - 2 verzichtet vollständig auf die explizite Zwischenrepräsentation und treibt direkt die latenten Raummerkmale des Videos und die latenten Raummerkmale des Referenzcharakters auf Pixelebene zusammen, d. h. läßt das KI - Modell direkt den visuellen Kontext lesen.

Dieser Designansatz lässt das Modell direkt von einem Übersetzer zu einem Beobachter werden. Der Vorteil der direkten Zusammenfügung der latenten Videovektoren ist sehr offensichtlich: Die KI kann Informationen erfassen, die das Skelett nicht ausdrücken kann, wie feine Falten an der Kleidung, die Licht - und Schattenreaktionen von Personen in komplexen Umgebungen und die physikalische Interaktionslogik von Objekten.

Im Vergleich zur Verbesserung der technischen Indikatoren ist die Entwicklung der visuellen Intuition der Maschine noch wertvoller. Die Art und Weise, wie das Modell Bewegungen in der realen Welt versteht, hat sich qualitativ verändert. Es übersetzt nicht mehr jeden "Punkt", sondern internalisiert direkt die physikalischen Gesetze des menschlichen Bewegens mit Big Data.

Diese End - to - End - Fähigkeit ermöglicht es SCAIL - 2, hochschwierige Aufgaben wie die Steuerung von Tieren und die erste Person Perspektive in Null - Sample - Situationen zu bewältigen und bricht erfolgreich die Obergrenze der traditionellen Skelettmodelle.

02 Die weite Sicht von Zhipu

Um den strategischen Wert von SCAIL - 2 zu bewerten, muss man es in das horizontale und vertikale Koordinatensystem der chinesischen KI - Industrie setzen.

Im horizontalen Dimension möchte Zhipu ein Ökosystembauer werden, der über die Modellverpackung hinausgeht.

Im gegenwärtigen chinesischen KI - Bereich besteht allgemein eine "Hülsenangst". Nur wenige Unternehmen sind bereit, ihre Energie und Kosten in die Grundlageninnovation zu investieren. Die meisten einsetzbaren KI - Produkte sind oft einfache Feinabstimmungen und UI - Verpackungen auf der Grundlage von Open - Source - Modellen.

Aber Zhipu zeigt mit SCAIL - 2 einen völlig eigenständigen Weg der Grundlagenentwicklung.

Ob bei großen Sprachmodellen oder multimodalen Modellen, der Abstand zwischen den führenden Modellen wird immer kleiner. Anstatt durch Eigenentwicklung kommerzielle Barrieren aufzubauen, wählt Zhipu schlau die strategische Einfahrt Open Source + ComfyUI.

ComfyUI kann derzeit als die Arbeitsflusshauptstadt der weltweit führenden KI - Künstler und Technologie - Enthusiasten bezeichnet werden. Das Einbinden von SCAIL - 2 in ComfyUI ist fast gleichbedeutend mit dem Einbetten von Zhipu in die Tiefe der Produktivität der Künstler. Die Veröffentlichung eines neuen Modells ist nur die Oberfläche. Die Definition als zugrunde liehendes Protokoll für den Austausch digitaler Vermögenswerte ist das wahre Ziel von Zhipu.

Wenn die Arbeitsflüsse der Künstler weltweit auf dem Protokoll von Zhipu laufen, wird sich natürlich eine Ökosystembarriere bilden. Dies entspricht der Logik, wie NVIDIA damals das CUDA - Ökosystem aufbaute: Es lohnt sich mehr, Regeln zu verkaufen als Software.

Im vertikalen Dimension liegt der Vorteil von Zhipu darin, dass es die akademische Quelle und die kommerzielle Umsetzung tiefgehend integrieren kann.

Im Gegensatz zu vielen rein marktgerechten Unternehmen hat Zhipu den KEG - Labor der Tsinghua-Universität als Rückgrat. Der Gründer Tang Jie ist ein Professor für Informatik an der Tsinghua-Universität. Die Kernkompetenz ist bereits offensichtlich: Technische Kontinuität.

Von den frühesten GLM - Serien großen Sprachmodellen bis hin zum heutigen SCAIL - 2 - Videomodel hat Zhipu immer die Einheitlichkeit der Infrastruktur der großen Modelle beibehalten. Diese von Technologie - Enthusiasten geschätzte Kontinuität bedeutet, dass Zhipu in den Bereichen der multimodalen Verständnis, der zeitlichen Logikverarbeitung und der latenten Raumausrichtung über eine strenge und kohärente mathematische Grundlage verfügt.

Die tiefe akademische Präsenz gibt Zhipu AI eine weit überlegene Fähigkeit bei der Verarbeitung komplexer multimodaler Datenströme. Dies kann auch aus kommerzieller Sicht bestätigt werden: Obwohl Zhipu auch eine Reihe von umstrittenen Ereignissen wie die Änderung der Pakete und die Erhöhung der Preise erlebt hat, ist das GLM - Serienmodell immer noch eines der ersten Wahlmodelle für viele Benutzer, die auf chinesische KI - Modelle angewiesen sind.

03 Das letzte Puzzle für die kommerzielle Umsetzung des Videomodells

Der echte AGI ist immer noch weit entfernt. Vor diesem Hintergrund glauben viele, dass die Videogenerierung noch nicht von einem Spielzeug zu einem Produktivitätstool geworden ist. Aber die kommerzielle Ambition von Zhipu geht offensichtlich weiter. Im Folgenden versuchen wir, seine kommerzielle Logik aus drei Dimensionen zu analysieren:

Erstens die Digitalisierung von Bewegungsassets und die Umgestaltung der Produktionslinie.

In der traditionellen Spezialeffektindustrie ist die Herstellung von Charakteranimationen im Wesentlichen ein schwarzes Loch mit hohem Investition und langer Verzögerung. Von der Bindung, der Bewegungsaufzeichnung bis zur Rendering dauert die Herstellung eines hochwertigen Animationscharakters mindestens einige Wochen, höchstens einige Monate. SCAIL - 2 trennt die Bewegungen vom Skelett und macht sie zu wiederverwendbaren visuellen Vektoren.

Im Wesentlichen handelt es sich hierbei um die Assetisierung der Schauspielfähigkeit. Mit der Zeit wird die Bewegungstransfer eines virtuellen Charakters so einfach wie Kopieren und Einfügen sein. Was Zhipu macht, ist nicht nur die Senkung der Produktionsschwelle, sondern auch die Monopolisierung der zukünftigen Produktionsweise digitaler Inhalte.

Zweitens die Errichtung einer Schutzmauer für die Datenfabrik.

Dies ist nicht nur das Ziel von Zhipu, sondern auch das aller KI - Unternehmen. Wenn die KI von der Dialogbox in der Webseite in den Computer jedes Benutzers und dann in die reale Welt schreitet (d. h. von großen Sprachmodellen über Agenten bis hin zur Embodied Intelligence), ist die am meisten fehlende Ressource in diesem Prozess nicht die Rechenleistung, sondern die Daten.

Die Stärke von SCAIL - 2 liegt darin, dass es sowohl Algorithmen als auch den MotionPair - 60K - Datensatz hat. Noch wichtiger ist, dass Zhipu durch die intelligente Agenten - Schleife eine hochwertige Datenproduktionslinie aufgebaut hat, die automatisch synthetisiert, überprüft und auswählt. Dieser interne Zirkelmechanismus des "Produzierens von KI - Daten durch KI" befreit Zhipu von der Qualitätsgrenze der externen Internetdaten. Mit der exponentiellen Zunahme der Trainingsrunden wird die Datenfabrik von Zhipu immer präzisere visuelle Modelle produzieren, und der Vorsprung wird sich in eine unüberwindbare Kluft verwandeln.

Drittens die kommerzielle Migration von Werkzeugen zu Infrastruktur.

Nachdem Zhipu mit SCAIL - 2 die Charaktere, Hintergründe und Bewegungen vollständig entkoppelt hat, können wir mutig vermuten, dass sich sein kommerzielles Monetarisierungsmodell in Zukunft völlig ändern könnte: Von der einmaligen API - Aufrufgebühr und der monatlichen Abonnementgebühr zur "Produktionsprotokollgebühr".

Ob Videospielhersteller, Livestream - Plattformen oder Filmstudios, wenn es um die Interaktion von digitalen virtuellen Personen geht, müssen sie möglicherweise das visuelle Middleware - Protokoll von Zhipu kaufen, d. h. alle Goldsucher müssen die Schaufeln von Zhipu kaufen.

04 Die Rechenleistungsphilosophie hinter der End - to - End - Architektur

Der Algorithmus ist Open Source, die Daten sind in die Produktion eingesetzt. Das nächste Problem ist natürlich die Rechenleistung.

Es ist undenkbar, die Monopolisierung der fortschrittlichen ausländischen Rechenleistung auf einmal zu brechen. Die Möglichkeit, SCAIL - 2 End - to - End zu realisieren, liegt in der alten Methode der chinesischen KI: die Optimierung der Rechenleistungszuteilung auf einer höheren Ebene.

Die traditionelle Methode erfordert in der Inferenzphase mehrere Schritte wie die Skelettextraktion, die Neuprojektion und die Maskenerzeugung, was natürlich zu Engpässen in der Rechenleistung führt.

Aber das End - to - End - Schema von Zhipu entspricht eher der Philosophie "Der beste Weg ist der einfachste", indem es alle komplexen Aufgaben in eine einzige Transformer - Architektur integriert. Dieses Schema verringert nicht nur die Inferenzverzögerung erheblich, sondern auch die Refraktionsverluste bei der Übertragung von Informationen zwischen verschiedenen Zwischenschichten. Aus ingenieurtechnischer Sicht kann SCAIL - 2 bei demselben Rechenleistungsverbrauch eine weit höhere Informationsdichte als traditionelle Modelle erzielen.

Zhipu bietet der Branche eine neue Lösung und legt eine tiefe kommerzielle Wahrheit offen, die alle chinesischen KI - Unternehmen anerkennen müssen: Die optimale Zuteilungsrechte der Rechenleistung sind fast gleichbedeutend mit der Preisfestlegungsrechte auf dem Markt. Die Architekturoptimierung hilft den Kunden, Grafikspeicher und Rechenzeit zu sparen. Die kommerzielle Bindung, die durch diese "Kostensenkung" entsteht, ist viel stabiler als die Werbung.

05 Die Kontrollrechte sind die Souveränität

Schließlich hat SCAIL - 2 auch Schwächen. Zhipu definiert die strenge Abhängigkeit des Modells von großen Mengen an hochwertigen Paardaten als sein größtes Problem. Obwohl die Präferenzausrichtungstechnologie eingeführt wurde, die das Problem der Zerstörung feiner Bereiche wie Hände und Gesicht weitgehend gelöst hat, zeigt dies immer noch ein großes Problem, das das generative KI allgemein zu bewältigen hat: Es gibt immer noch Einschränkungen bei der feingranularen Kontrolle.

Aber dies zeigt auch die weite Sicht von Zhipu: Die offene Anerkennung der Unzulänglichkeit des gegenwärtigen KI bei der Verständnis der physikalischen Gesetze und die Einbringung der menschlichen Kognitionseingabe in das Modell durch die Präferenzausrichtung beschleunigen tatsächlich den Prozess der Sozialisierung und Industrialisierung des KI.

Aus der Perspektive der kommerziellen Spieltheorie hat Zhipu bereits einen Krieg um die Interpretationsrechte der digitalen Welt begonnen. Angenommen, der AGI ist ein zukünftig realisierbares Betriebssystem, dann ist das große Sprachmodell sein logischer Kern, und das Videomodel ist seine physische Darstellungsebene. Und SCAIL - 2 ist der "Treiber" mit Kontrollrechten in diesem Betriebssystem.

In dieser Ära der Agenten, in der die Technologie wöchentlich weiterentwickelt wird, zeigt Zhipu nicht nur hervorragende Ingenieurf

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Zhipu hat einen Krieg um das Recht zur Interpretation der digitalen Welt begonnen.

01

Von der "Skelettabhängigkeit" zur "visuellen Intuition"

02

Die weite Sicht von Zhipu

03

Das letzte Puzzle für die kommerzielle Umsetzung des Videomodells

04

Die Rechenleistungsphilosophie hinter der End - to - End - Architektur

05

Die Kontrollrechte sind die Souveränität