StartseiteArtikel

Das Jahr des App-Ausbruchs: Ein Gespräch über die Evolution von Modelltechnologien und die Kommerzialisierung

硅谷1012026-02-04 11:17
Logik, Kosten und verborgene Herausforderungen bei der "Neulandsiedlung" auf der kommerziellen Front der Large Language Models

Vor zwei Jahren, als "Silicon Valley 101" in einem Podcast über Large Language Models (LLMs) sprach, war das allgemeine Gefühl der Menschen noch: "Interessant, aber nicht sehr nützlich" – Halluzinationen, Langsamkeit, Hohe Kosten. Man hatte das Gefühl, dass es noch einige Schritte bis zur echten Produktivität fehlte.

Im Jahr 2026 sind die Veränderungen schneller gekommen, als man sich vorstellen konnte. Xu Dong, der Geschäftsführer des Large Language Model-Business von Alibaba Cloud Qianwen, sagte "Silicon Valley 101", dass ein kleines Team von fünf oder sechs Personen heute mit KI in einem Tag 6.000 Werbevideos erstellen kann, wobei die Kosten auf weniger als 10 Yuan gedrückt werden können, was unter dem Marktpreis von 20 bis 50 Yuan liegt – der geschlossene Geschäftskreis funktioniert also bereits. Die KI-Comics sind ebenfalls in einem Aufschwung. Der Markt für Kurzfilme in China hat bereits die Größe des Kinomarktes übertroffen. Die Videogenerierungsmodelle entwickeln sich von 5 Sekunden auf 15 Sekunden und sollen bis Ende des Jahres möglicherweise eine Minute überschreiten.

Die Veränderungen auf der Kostenseite sind noch drastischer. Xu Dong teilte eine Reihe von Zahlen mit: Die Inferenzkosten von Qianwen fallen in einem halben Jahr um fast das Zehnfache. Die Inferenzgeschwindigkeit ist von 30 - 50 TPS auf 80 - 100+ gestiegen, und die Latenz der ersten Pakete ist von 2 Sekunden auf 500 Millisekunden gesunken. Er sagte, das kleine 4B-Modell auf der Endgeräteseite hat heute bereits die Fähigkeiten des größten geschlossenen Modells von vor zwei Jahren übertroffen. Über 70 % der allgemeinen Aufgaben können jetzt lokal auf Mobiltelefonen und Autoinfotainmentsystemen verarbeitet werden.

Das Jahr 2025 wurde von vielen als das "Jahr der KI-Anwendungen" bezeichnet. Wenn die Schlüsselwörter der vergangenen zwei Jahre "Was können die Modelle tun?" waren, so stellen sich alle Unternehmen heute dieselbe Frage: Ist die Verwendung von KI wirklich lohnend?

In dieser Podcast-Ausgabe hat "Silicon Valley 101" Xu Dong, den Geschäftsführer des Large Language Model-Business von Alibaba Cloud Qianwen, Professor Qi Lu, den Direktor des Instituts von Insta360, und Lü Yingjie, Mitbegründer und CEO von Yuyi Technology, eingeladen, um die Logik, die Kosten und die versteckten Herausforderungen der LLMs bei der "Neulanderschließung" in der Geschäftswelt zu analysieren.

Hier sind die besten Momente aus diesem Gespräch:

01 Technologischer Fortschritt und Monetarisierung der Modelle

Hong Jun: Ich freue mich sehr, dass Sie unseren Podcast besuchen. Zwischen Ende 2025 und Anfang 2026 wurden vor allem über KI-Agenten und KI-Anwendungen gesprochen, die tatsächlich in das Leben der Menschen eingegangen sind. Ich freue mich sehr, dass Sie heute mit uns über die Trends der LLMs in der Geschäftswelt sprechen können. Möchten Sie sich zunächst kurz vorstellen und erklären, was Sie bei Alibaba machen und welche Aufgaben Sie hauptsächlich übernehmen?

Xu Dong: Alibaba beschäftigt sich mit LLMs schon seit längerer Zeit. Das erste Modell stammt aus etwa 2021. Zunächst gibt es ein weltweit bekanntes Modell namens Qianwen, englisch Qwen. Im Bereich der Open-Source-Modelle ist es ein sehr umfangreiches Modell, und viele nordamerikanische Unternehmen verwenden es als Basis-Modell. Es repräsentiert unser Sprachmodell, und wir verwenden es, um die Intelligenz der KI zu testen und zu sehen, ob es mehr Werkzeuge nutzen und in mehr Produktionsprozesse integriert werden kann. Dies ist unser wichtigstes Modell.

Das zweite ist ein Modell zur visuellen Generierung namens Wanxiang, englisch Wan. Es kann Bilder und Videos generieren und auch Bilder und Videos bearbeiten und hat auch die Möglichkeit, das Paradigma für zukünftige Weltmodelle zu werden. In den letzten drei Monaten haben wir die Preview-Version 2.5 und die Version 2.6 veröffentlicht und viele neue Rückmeldungen in Bezug auf die Videowiedergabe erhalten.

Das dritte Basis-Modell ist das Fun-Modell, das auf der Cloud Computing Conference im vergangenen Jahr veröffentlicht wurde. Es ist ein reines Audiomodell, das ASR, TTS und auch die Stimmenklonierung umfasst. Wir streben bei diesem Modell eine höhere Natürlichkeit an, unterstützen mehrere Sprachen, verschiedene Dialekte und Akzente, damit es besser verstehen und ausdrücken kann.

Unsere Modelle sind relativ strukturiert. Auf der Grundlage dieser Basis-Modelle haben wir begonnen, mit vielen Kunden zusammenzuarbeiten, darunter Unternehmen aus der Fertigungsindustrie, Realwirtschaft, Markenunternehmen und viele Internetunternehmen. In den letzten 12 Monaten habe ich jedoch festgestellt, dass es eine Vielzahl von KI-nativen Unternehmen gibt, die mit den Modellen gute Ergebnisse erzielt haben und in vielen fragmentierten Märkten eine sehr gute ROI erzielt haben.

Hong Jun: Sie haben gerade einige LLMs erwähnt. Welche Aspekte des technologischen Fortschritts der Modelle in 2025 finden Sie am wichtigsten?

Xu Dong: In den letzten sechs Monaten hat es viele Fortschritte gegeben. Ich denke, dass das Videogenerierungsmodell "Wanxiang Wan" auf einem Niveau vergleichbar mit GPT-4 ist, wenn man es mit dem Übergang von GPT-3.5 zu GPT-4 vergleicht. Früher wurden Videogenerierungsmodelle hauptsächlich für Spezialeffekte und Unterhaltung verwendet, aber jetzt können sie auch in die Produktionsbranche eingesetzt werden, wie beispielsweise die derzeit sehr beliebten KI-Comics, die sehr schnell wachsen, und die automatisierte Generierung von Werbevideos. Viele 15-Sekunden-Schnitt-Werbespots werden jetzt automatisch generiert, und es entsteht eine vollständige Pipeline. Möglicherweise können fünf Personen in einem Tag 6.000 Videos generieren. Dies ist ein sehr deutlicher Trend.

Technisch gesehen gibt es einige interessante Merkmale:

Erstens ist die Generierungszeit länger geworden. Die Videogenerierung hat sich von 5 Sekunden und 10 Sekunden in die 15-Sekunden-Ära bewegt und wird in Zukunft möglicherweise eine Minute überschreiten. Dadurch wird die Kohärenz des Inhalts besser.

Zweitens ist die Kamerasprache reichhaltiger geworden. Das Modell kann zwischen verschiedenen Kameraschnitten wechseln und die Licht- und Schatteneffekte anpassen, was nahe an die Fähigkeiten eines professionellen Filmteams herankommt. Die Benutzer können dies durch einfache Prompt-Wörter erreichen.

Drittens ist die Fähigkeit zur Konsistenzbeibehaltung von Rollen (Carry) verbessert. Dies wurde von Sora2 inspiriert. Bei der Rollendarstellung wird die Konsistenz von Personen, Objekten, Hintergründen und Stimmenklängen aufrechterhalten, das heißt, die "ID wird bewahrt", um einen besseren Ausbau des nachfolgenden Schaffens zu ermöglichen.

Einfach ausgedrückt, möchten wir die Generierungsdauer von 15 Sekunden weiter verlängern. Derzeit haben wir das längste Videogenerierungsmodell in China entwickelt. Die Fähigkeiten, wie Kameraschnittwechsel und Licht- und Schattenänderungen, die ursprünglich die Zusammenarbeit eines professionellen Regisseurs, Kameramanns und Künstlers erforderten, werden durch das Modell nun deutlich vereinfacht. Schließlich glaube ich, dass die Fähigkeit zur Konsistenzbeibehaltung in Rollen in Zukunft für alle Videogenerierungsmodelle zum Standard werden wird.

KI-Comics, generiert von Wanxiang-Modell. Bildquelle: Wanxiang Wan

Hong Jun: Was genau verstehen Sie unter Rollendarstellung?

Xu Dong: Nehmen Sie beispielsweise ein 5-Sekunden-Video, das Sie mit Ihrem Mobiltelefon aufgenommen haben, in dem Sie Ihren Kopf heben oder drehen und einige Worte sagen, ähnlich wie bei einer Vorstellung. Nachdem das Modell dieses Video eingelesen hat, kann es das Erscheinungsbild und die Stimme der Person "bewahren", und diese können in nachfolgenden Schaffensprozessen nachgebildet werden.

Hong Jun: Das heißt, dass in Zukunft nur 5 Sekunden echten Auftritts von einer Person erforderlich sind, und der restliche Inhalt kann von der KI generiert und modelliert werden.

Xu Dong: Ja, das bedeutet, dass die Kontrollierbarkeit der generierten Inhalte höher ist. Früher war man auf Zufallsgenerierung angewiesen, aber jetzt können auf der Eingabeseite mehr Referenzdimensionen bereitgestellt werden. Dies ist in der Comicschaffensbranche in der Tat sehr verbreitet. Früher wurden Referenzbilder verwendet, jetzt beginnen auch Videos als Referenz herangezogen zu werden.

Hong Jun: Sie haben gerade erwähnt, dass beispielsweise fünf Personen in einem Tag 6.000 Videos generieren können, und die KI-Comics sind auch recht beliebt. Welche erfolgreichen kommerziellen Anwendungen oder Beispiele haben Sie aufgrund der verbesserten Modellfähigkeiten beobachtet?

Xu Dong: Der Markt für Kurzfilme in China hat den Kinomarkt bereits übertroffen. In Bezug auf die Video-Promotion ist es offensichtlich, dass die Kurzfilme von der ursprünglichen Eigenproduktion oder der massiven manuellen Bearbeitung allmählich einen gewissen Anteil an die KI-Generierung abgeben. Derzeit sind die Comics am beliebtesten. Sie entwickelten sich aus dynamischen Comics, haben eine zusammenhängende Handlung und eine starke kommerzielle Fähigkeit und sind somit ein typisches Beispiel für die Kombination mit KI.

Hong Jun: In Märkten wie dem für Kurzfilme, KI-generierten Kurzfilmen, Kurzfilmen mit echten Perspektiven und massenhaft generierten KI-Werbespots ist die wichtigste Frage, wie hoch die Kosten für die KI-Generierung und die manuelle Erstellung sind. Was achten die Anbieter beim Einbinden von Modellen besonders darauf?

Xu Dong: Derzeit werden die Filme nach der Qualität in S-Klasse, A-Klasse und B-Klasse eingeteilt. Für einen Kurzfilm kann die KI möglicherweise die Kosten auf weniger als 20.000 Yuan drücken. Wenn man die Werbeausgaben und die ROI berücksichtigt, besteht die Möglichkeit, ein Plus zu erzielen oder ein gutes Einkommen zu erzielen. Wenn höhere Ansprüche an die Qualität gestellt werden und mehr Ressourcen für die Nachbearbeitung aufgewendet werden müssen, steigen die Kosten zwar an, aber auch die Qualität des Films verbessert sich.

Bei Werbespots kann die KI-Kosten für ein 15-Sekunden-Video auf weniger als 10 bis 15 Yuan begrenzt werden, was einen guten kommerziellen Raum auf dem Markt bietet. Im Allgemeinen liegt der Marktpreis für einen qualifizierten 15-Sekunden-Werbespot zwischen 25 und 50 Yuan, so dass sich ein guter kommerzieller Zyklus ergibt.

KI-Kurzfilme, generiert von Wanxiang-Modell. Bildquelle: Wanxiang Wan

Hong Jun: Die Kosten sind tatsächlich recht niedrig. Alibaba hat die E-Commerce-Ökosystem von Taobao. Verwenden diese E-Commerce-Verkäufer KI für die Werbung?

Xu Dong: Die Struktur ist relativ komplex. Jede Traffic-Plattform bietet den Werbetreibenden oder Agenturen derzeit eine gewisse Bearbeitungsfähigkeit, um ihren Plattformen anzupassen. Die Werbetreibenden haben selbst auch eine Vielzahl von Materialien, die möglicherweise von ihnen selbst oder von Dritt-Agenturen erstellt wurden. Bei der Werbegenerierung kann es entweder die Agentur sein, die die Arbeit erledigt, oder die Agentur gibt die Arbeit an KI-native Start-up-Unternehmen weiter. Es gibt immer mehr solche Start-up-Unternehmen, die die Modelle von Wanxiang und Qianwen zu einer Pipeline kombinieren und so die Fähigkeit entwickeln, wie die zuvor erwähnten fünf oder sechs Personen in einem Tag 6.000 Werbespots zu generieren, und geben diese dann an die Agentur oder die Werbegruppe der Traffic-Plattform weiter.

Hong Jun: Das klingt sehr interessant. Dies betrifft die Videogenerierungsmodelle. Sie haben auch Audiogenerierungsmodelle und das Qianwen-Modell. Welche Fortschritte und Durchbrüche haben diese beiden Modelle in 2025 gemacht?

Xu Dong: Das Sprachmodell erfährt ständige und tiefgreifende Veränderungen. Obwohl es schwierig ist, einen großen paradigmatischen Wandel zu erwarten, möchte ich kurz über die Dinge berichten, an denen wir arbeiten.

Erstens werden die hochwertigen Datensätze immer seltener, und alle bemühen sich um eine sorgfältige Bearbeitung. Durch die Anpassung der Datenreihenfolge und des Blickwinkels wird die Effizienz des Wissenserwerbs des Modells verbessert, so dass das Modell in Randfällen immer besser abschneidet.

Zweitens wird die Modellstruktur immer dünner. Techniken wie die Multi-Token-Vorhersage (MTP) werden in verschiedenen Modellen praktiziert, und die Geschwindigkeit wird schneller, sogar vervielfacht. In Zukunft ist es möglich, dass die Latenz der ersten Pakete von 2 Sekunden auf 500 Millisekunden verkürzt wird, und die TPS können von 30 - 50 auf über 80 - 100 gesteigert werden. In Szenarien mit hohen Leistungsanforderungen wird die Leistung somit sehr gut.

Man kann dies auch aus der Perspektive des Maschinen-Durchsatzes verstehen. Nach der Verdünnung der Modellstruktur sinken auch die Inferenzkosten, möglicherweise um eine Größenordnung.

Darüber hinaus werden die Befolgungsfähigkeit von Anweisungen, die Agent-Fähigkeit (insbesondere der Werkzeugaufruf) und die Länge der Kontextinformation kontinuierlich verbessert. Zusammen mit der Verbesserung der Codierungsfähigkeit wird es in Zukunft möglicherweise eine Vielzahl von kontinuierlich laufenden Agenten geben. Im Gegensatz zu heutigen Chatbots, die sofort ein Ergebnis liefern, können diese Agenten die Rechenkapazitäten in den Pausen nutzen, um KI-für-Wissenschaft-Forschung durchzuführen oder tiefe Berichte zu generieren. Dabei können sie Suchmaschinen, CRM-Systeme, ERP-Systeme und andere Werkzeuge aufrufen. Wenn das Modell in der Lage ist, so viele Werkzeuge zu nutzen, sind wir überzeugt, dass die Qualität der Ausgabe besser sein wird als die eines reinen Textmodells.

Hong Jun: Sie haben viele kleine Verbesser