Tencents Hunyuan Aktualisierung: Angriff auf Zwei Fronten - Multimodalität und Agentenintelligenz

Die Umsetzung der Strategie von Tencents Großen Sprachmodellen wird ständig beschleunigt.

Autor/in | Deng Yongyi

Redakteur/in | Su Jianxun

Tencents Strategie für die Implementierung von Large Language Models (LLMs) beschleunigt stetig.

„Die kontinuierliche Implementierung von KI bedeutet, dass jedes Unternehmen eine KI - Firma werden wird und jeder Einzelne ein von KI unterstützter ‚Super - Individuum‘ werden wird.“ Am 21. Mai sagte Tang Daosheng, Senior Executive Vice President der Tencent Group und CEO der Cloud und Smart Industries Group, auf der Tencent Cloud AI Industry Application Summit.

Am 21. Mai hat Tencent Hunyuan eine umfassende Aktualisierung erfahren. Dazu gehören die neuen Iterationen des Flaggschiff - Schnelldenkmodells Hunyuan TurboS und des Tiefen - Denkmodells Hunyuan T1.

Basierend auf der TurboS - Basis hat Tencent das visuelle Tiefen - Inferenzmodell T1 - Vision und das End - to - End - Sprachgesprächsmodell Hunyuan Voice neu entwickelt. Auf der Tencent AI Industry Application Summit wurden auch eine Reihe von Multimodal - Modellen wie Hunyuan Image 2.0, Hunyuan 3D v2.5 und Hunyuan Game Vision Generation aktualisiert.

Tang Daosheng. Quelle: Tencent

Tang Daosheng, Senior Executive Vice President der Tencent Group und CEO der Cloud und Smart Industries Group, sagte, dass auf der weltweit anerkannten autoritativen Plattform für die Bewertung von Large Language Models, Chatbot Arena, Hunyuan TurboS auf Platz acht weltweit aufgestiegen ist und im Inland nur von DeepSeek übertroffen wird. Insbesondere in den naturwissenschaftlichen Fähigkeiten wie Programmierung und Mathematik hat Hunyuan TurboS sich unter die Top Ten weltweit geschafft.

Anfang 2025 wurde Hunyuan TurboS offiziell veröffentlicht. Es nutzt das Massiv gemischte Mamba - MoE - Modell und hat bereits deutliche Vorteile in Effizienz und Leistung gezeigt. Dieser neue Durchbruch ist auf die Erhöhung der Tokens in der Vor - Trainingsphase und die Einführung der Lang - Kurz - Denkketten - Fusionstechnologie in der Nach - Trainingsphase zurückzuführen. Dadurch hat TurboS seine naturwissenschaftlichen Inferenzfähigkeiten um über 10 %, seine Programmierfähigkeiten um 24 % und seine Leistungen in Wettbewerbsmathematik um 39 % verbessert.

Quelle: Tencent

Schon im zweiten Halbjahr des vergangenen Jahres hat Tencent stark in die Entwicklung des Tiefen - Denkmodells investiert. Seit der Einführung des Tiefen - Denkmodells Hunyuan T1 in der Yuanbao - App Anfang des Jahres hat es sich stetig und schnell weiterentwickelt. Kürzlich hat Hunyuan T1 auch eine neue Aktualisierung erfahren und in mehreren Kernfähigkeiten verbessert: Die Leistung in Wettbewerbsmathematik hat um 8 %, in allgemeinen Wissensfragen um 8 % und in der Agent - Fähigkeit für komplexe Aufgaben um 13 % zugenommen.

Derzeit zeichnet sich der chinesische Markt für Large Language Models durch eine Vielfalt von Modellen aus. Jedes Modell hat seine eigenen technologischen Stärken.

Zum Beispiel haben die Multimodal - Modelle von Hunyuan, wie die Funktionen zur 3D - und Videogenerierung, einen guten Ruf unter Entwicklern.

Das neu veröffentlichte visuelle Tiefen - Inferenzmodell T1 - Vision von Hunyuan unterstützt die Eingabe mehrerer Bilder und verfügt über eine native Lang - Denkketten - Fähigkeit. In Bezug auf die Produktpräsentation kann es „während des Betrachtens von Bildern denken“ und hat im Vergleich zum vorherigen Modell eine 5,3 %ige Verbesserung der Gesamteffizienz und eine 50 %ige Beschleunigung der Verständnisgeschwindigkeit erzielt.

Das andere Sprachmodell, Hunyuan Voice, ist ein End - to - End - Sprachgesprächsmodell. Es kann Sprachgespräche mit geringer Latenz ermöglichen. Im Vergleich zu Kaskadenlösungen hat es eine über 30 %ige Beschleunigung der Reaktionsgeschwindigkeit erreicht und diese auf 1,6 Sekunden gesenkt. Die Anthropomorphie und die Fähigkeit zur Emotionsanwendung haben sich ebenfalls deutlich verbessert. Derzeit ist es in der Yuanbao - App von Tencent in einer begrenzten Testphase verfügbar. Eine Echtzeit - Videogesprächs - KI - Erfahrung wird in Kürze angeboten.

Ein interessanter Punkt ist, dass Tencent bei der Einführung der Bildgenerierung von Hunyuan 2.0 eine Zahl erwähnt - in der manuellen Bewertung der subjektiven Bildqualität und Ästhetik gilt Hunyuan Image 2.0 als eines der Modelle mit der geringsten „KI - Note“.

In gewissem Sinne bedeutet dies, dass nach der Vielfalt der Basis - Modelle Faktoren wie die Vielfalt der Modellausgaben und die Ästhetik zunehmend in die Bewertungskriterien einbezogen werden.

Das Wissens - Engine wird vollständig zur „Agent - Open Platform“ aktualisiert

Ein weiteres Highlight der Summit war Tencents Agent - Strategie.

Das Jahr 2025 wird als das Jahr der Agent - Intelligenz bezeichnet. Mit dem Aufstieg von Inferenzmodellen und Multimodal - Modellen ist der Agent der am meisten beobachtete Bereich in der Welt der Large Language Models dieses Jahres.

Ein Schlüsselschritt auf dieser Summit von Tencent war die Aktualisierung der ursprünglichen Wissens - Engine für Large Language Models zur „Tencent Cloud Agent Development Platform“.

Es ist bekannt, dass die aktualisierte Plattform die RAG - Technologie (Retrieval - Augmented Generation) von Tencent Cloud und die umfassenden Agent - Fähigkeiten integriert. Sie kann Unternehmen helfen, ihr privates Wissen schnell zu aktivieren und eigene Agenten zu entwickeln.

Warum wird zu diesem Zeitpunkt eine neue Agent - Plattform aktualisiert?

Wu Yunsheng, Vizepräsident von Tencent Cloud, Leiter der Tencent Cloud AI - Abteilung und Leiter des YouTu - Labors, sagte in einem Interview nach der Summit, dass die Aktualisierung der Agent - Plattform darauf abzielt, Unternehmen zu helfen, Agenten tatsächlich nutzen zu können und nicht nur auf der Konzeptebene zu bleiben.

Die technologische Entwicklung hat auch die schnelle Implementierung von Agenten vorangetrieben. „In der Vergangenheit war die Effizienz bei der Realisierung dieser Fähigkeiten mit traditioneller KI - Technologie nicht ideal. Aufgaben wie die Extraktion von Schlüsselwörtern und die Generierung von Zusammenfassungen erfordern eine hohe Sprachverstehensfähigkeit.“ sagte Wu Yunsheng.

Aber mit der Entstehung von Large Language Models, insbesondere Multimodal - Large Language Models, hat es in der semantischen Verständnis, Kontextmodellierung, Inhaltsaufteilung und Tag - Generierung deutliche Verbesserungen gegeben. Der direkte Effekt ist, dass Large Language Models die Genauigkeit der semantischen Suche und des Vergleichs schnell verbessert haben. Die Entwicklung von Multimodal - Modellen hat visuelle + textuelle Kooperationsaufgaben möglich gemacht.

„Wenn ein Agent die Fähigkeit hat, einen Browser zu nutzen, erweitert sich seine ‚Handlungsgrenze‘ erheblich und kann viele reale Szenarien abdecken.“ sagte Wu Yunsheng im Interview.

Die Open - Source - Entwicklung war ebenfalls ein Schwerpunkt dieser Pressekonferenz.

Derzeit hat das Hunyuan 3D - Modell auf Hugging Face über 1,6 Millionen Downloads erreicht. In Zukunft plant Hunyuan, Multigrößen - Hybrid - Inferenzmodelle, von 0,5B bis 32B Dense - Modelle sowie das 13B MoE - Modell zu veröffentlichen, um den verschiedenen Anforderungen von Unternehmen und Endgeräten gerecht zu werden.

Außerdem werden die Multimodal - Basis - Modelle wie Hunyuan Image, Video, 3D und die zugehörigen Plug - in - Modelle kontinuierlich Open - Source sein.

Derzeit ist Hunyuan tief in die verschiedenen Geschäftsbereiche von Tencent integriert und wird in Kernprodukten wie WeChat, QQ, Tencent Yuanbao, Tencent Meeting und Tencent Docs weit verbreitet eingesetzt. Es verbessert die Intelligenz von Tencents internen Produkten und gibt über Tencent Cloud die Modellfähigkeiten nach außen ab, um Unternehmen und Entwicklern zu helfen, Innovationen zu treiben und Effizienz zu steigern.

Dieser Artikel wurde ursprünglich von「咏仪」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Tencents Hunyuan aktualisiert: Zwei Fronten anpacken - Multimodalität und Agentenintelligenz | Direkt aus der Frontlinie

Das Wissens - Engine wird vollständig zur „Agent - Open Platform“ aktualisiert