Kein Verstecken mehr: Tencent veröffentlicht plötzlich über 10 Agenten und macht Modelle in Serie Open-Source

Tencent WAIC hat das Hunyuan Large Language Model, das Agenten - Produktpaket und das Open - Source - Programm vorgestellt und sich auf Multimodalität und die Umsetzung in Branchen konzentriert.

Autor | Deng Yongyi

Redakteur | Su Jianxun

In der Vergangenheit hat Tencent bei großen Modellen immer still und leise vorgegangen, aber bei der AI-Anwendung verbirgt es sich diesmal endlich nicht mehr.

Am 26. Juli hat die Weltkonferenz für Künstliche Intelligenz (WAIC) in Shanghai eröffnet. Offensichtlich hat Tencent bei der WAIC die AI-Intelligenzagenten zu den "digitalen Freunden" von 1,4 Milliarden Benutzern gemacht und mit den Intelligenzagenten einen "Freundeskreis" aufgebaut, der das Leben der Benutzer abdeckt.

Tencent hat auch mehrere neue Produkte von selbst entwickelten großen Modellen bis hin zu Intelligenzagenten vorgestellt, sozusagen ein "AI-Paket", einschließlich:

Für den B2B-Bereich: Die neu veröffentlichte Hunyuan-Weltmodell 1.0 kann in VR, Spieleentwicklung, Szenenbearbeitung, physikalischer Simulation usw. angewendet werden. Im Anschluss werden mehrere kleinere Hunyuan-Modelle open source gemacht.
Für den B2C-Bereich: Es wurden mehr als 10 Agenten (Intelligenzagenten) veröffentlicht, die hauptsächlich auf Lebens-, Lern- und Arbeitszenarien ausgerichtet sind, einschließlich des Reiseplanungs-Agenten.
Auf der Plattformebene: Es wurden die Intelligenzagenten-Entwicklungsproduktion, die Embodied AI Open Platform Tairos, die AIGC-Inhaltserstellungsproduktion, die Edge-Großmodellplattform und die AI-Bildungsproduktion veröffentlicht.

"Die heutige AI entwickelt sich von Kurzzeitgedächtnis zu Langzeitgedächtnis", sagte Wu Yunsheng, Vizepräsident von Tencent Cloud, Leiter von Tencent Cloud Intelligence und Leiter des Tencent YouTu Lab. Über einen langen Zeitraum konnte das große Modell nur einen relativ kurzen Kontext behalten, was für komplexe Aufgaben nicht ausreicht.

Und Tencents starke Investition in Intelligenzagenten ist auch eine Erkundung der technologischen Entwicklungspfade. Beispielsweise die Kooperation mehrerer Intelligenzagenten - Wu Yunsheng sagte, die AI-Technologie entwickelt sich von der Bild- und Text-Frage-Antwort zu einer umfassenden multimodalen (Video, Bild, Audio usw.) Interaktion. Eine nahtlose Interaktion aller Modalitäten wird in Zukunft unerlässlich sein. Wenn verschiedene Intelligenzagenten für verschiedene Fachgebiete zuständig sind und diese Intelligenzagenten kooperieren, können komplexere Aufgaben gelöst werden.

△Quelle: Tencent

Im Jahr 2023, als Tencent Cloud gerade die Familie der Hunyuan-Großmodelle vorgestellt hat, handelte es sich noch um die Geschichte der "branchenspezifischen großen Modelle" - von 10 Branchen wie Finanzwesen, Verwaltung, Telekommunikationsbetrieben usw., mit dem Schwerpunkt auf der Route der "branchenspezifischen großen Modelle", und es wurden auf einmal über 50 Lösungen vorgeschlagen.

Aber jetzt hat sich die Erzählung geändert und erweitert sich schnell von Sprachmodellen auf multimodale und Embodied AI.

Bei dieser WAIC hat Tencent auch zum ersten Mal Schwerpunkt auf die Fortschritte in Bezug auf Embodied AI gelegt. Das Robotics X Lab und das Futian Lab von Tencent haben gemeinsam die "Embodied AI Open Platform Tairos" vorgestellt.

Dies ist die erste inländische Softwareplattform für Embodied AI, die auf modulare Weise große Modelle, Entwicklungstools und Datenleistungen bietet. Sie ist plug-and-play und für die Robotikbranche geöffnet, um Robotikherstellern und Anwendungsentwicklern die erforderlichen Softwarefähigkeiten zu verleihen.

Beides: Modelle und B2B/B2C-Anwendungen

Auf der Modelseite liegt der Schwerpunkt dieser Veröffentlichung von Tencent auf der Hunyuan 3D-Weltmodell 1.0, und es wird angekündigt, dass es vollständig open source gemacht wird.

Wenn die technologische Entwicklungspfade von großen Sprachmodellen (LLM) allmählich klarer werden, von der Skalenerweiterung (Scale up) bis zur zweiten Hälfte, die hauptsächlich auf Verstärkungslernen (Reinforce Learning) basiert; dann befindet sich die Entwicklungsphase der Multimodularität noch in der Frühphase. Sowohl bei der Technologieauswahl, der hochwertigen Daten als auch bei der Modellentwicklung gibt es mehrere Schwierigkeiten.

Multimodularität ist dieses Jahr der Schwerpunkt des Wettbewerbs zwischen den Unternehmen, und das Weltmodell ist auch ein wichtiger Zweig der Multimodularität, das erst im Dezember 2024 aufkam.

Einfach ausgedrückt, kombiniert die Hunyuan 3D-Weltmodell 1.0 von Tencent die Technologien der Panoramabildgenerierung und der schichtweisen 3D-Rekonstruktion, unterstützt gleichzeitig Text- und Bildeingaben und ermöglicht die Erzeugung von hochwertigen, vielfältigen und besuchbaren 3D-Szenen.

△Quelle: Tencent

In der Vergangenheit war die 3D-Modellierung und -rendering ein riesiges Projekt, das von einem professionellen Modellierungsteam Wochen dauern musste, um es aufzubauen. Jetzt kann es in wenigen Minuten mit einem Satz Text oder einem Bild generiert werden.

Beim Training des Weltmodells ist die Datenbeschaffung einer der Schwierigkeiten. Guo Chunchao, Leiter der Hunyuan 3D von Tencent, sagte in einem Interview mit Medien wie 36Kr, dass die 3D-Assets derzeit hauptsächlich von Künstlern oder Modellierern manuell erstellt werden. Daher beträgt ihre Anzahl nur einige Zehn Millionen, was im Vergleich zur Anzahl von Hundert- oder Billionen von Bildern eine Größenordnungsmäßige Differenz darstellt. Diese Schwierigkeiten bei der Datenbeschaffung sind objektiv vorhanden.

Was die zukünftigen Entwicklungsschwerpunkte angeht, sagte Guo Chunchao, dass das Hunyuan-Weltmodell zwei Ziele hat: Erstens soll die Qualität der 3D-Assetgenerierung verbessert werden, um ein höheres kommerzielles Niveau zu erreichen. Derzeit hat die 3D-Assetgenerierung ein mittleres Niveau erreicht, aber es besteht immer noch eine Lücke zum Spitzenniveau. Durch die Verbesserung der Generierungsqualität und der Generalisierbarkeit hoffen sie, die Anforderungen von Branchen wie Spielen, Autonomem Fahren, XR, Anime und Film- und Fernsehproduktionen besser zu erfüllen, die Kosten zu senken und die Zykluszeit zu verkürzen.

Zweitens soll das Szenengenerierungs- und Interaktionsmodell verbessert werden, um ein vollständigeres Weltmodell zu erstellen, das die physikalischen Gesetze realistischer simuliert. Dies wird dieses Jahr intensiv bearbeitet und soll nächstes Jahr ein höheres Reifegrad erreichen.

Zu Beginn dieses Jahres hat die Erfahrung von DeepSeek R1 gezeigt, dass in einem neuen technologischen Bereich der Erwerb der technologischen Macht und die Leistung von beeindruckender Arbeit enorme Marktgewinne bringen können.

Danach haben alle Unternehmen ihren Open-Source-Schritt beschleunigt. Tatsächlich wird außer der sofort nach Veröffentlichung open source gemachten Hunyuan 3D-Weltmodell 1.0 eine Reihe von kleinen Modellen Ende des Monats open source gemacht, darunter 0,5B, 1,8B, 4B, 7B-Mischinferenzmodelle, die leichter und einfacher zu deployen sind.

Aufgrund seiner Erfahrungen in der Inhaltsbranche wie Spielen und Social Media gehört Tencent bereits zu den ersten inländischen Anbietern bei der Erkundung der Multimodularität. Jetzt bietet Tencent bereits ein open source Basismodell an, das nahe an der Leistung kommerzieller Modelle ist, um es der Community zu erleichtern, es gemäß ihren Geschäfts- und Anwendungsfällen anzupassen.

Laut den von Tencent veröffentlichten offenen Daten haben die Anzahl der abgeleiteten Bild- und Videomodelle von Tencent jetzt jeweils 1.400 und 1.600 erreicht. Die Downloads der Hunyuan 3D-Serienmodelle in der Community haben über 2,3 Millionen erreicht, und es ist bereits das weltweit beliebteste 3D-Open-Source-Modell geworden.

Außer dem Weltmodell hat Tencent Hunyuan auch eine Reihe von Open-Source-Plänen offen gelegt, einschließlich des Edge-Mischinferenz-Sprachmodells, des Multimodal-Verständnis-Modells, des Spielvisuellen-Modells usw.

Beispielsweise wird das bald open source gemachte Hunyuan-large-vision das Multimodal-Verständnis-Modell sein, das auf der LMArena Vision-Liste den ersten Platz in China belegte; und das interaktive Spielvideogenerierungsframework "Hunyuan GameCraft", das speziell für Spielszenarien optimiert ist, wird auch in Kürze open source gemacht.

Implementierung, immer noch Implementierung

In seiner Strategie für große Modelle hat Tencent immer einen praktischen Stil. Bei dieser WAIC war das Thema von Tencent auch "Mach die 'nützliche AI' zu einer produktiven Kraft für alle".

Tencent hat die Fähigkeiten der Agenten in mehrere B2B- und B2C-Anwendungen von Tencent integriert, die Lebens-, Arbeits-, Lern- und Unterhaltungsbereiche abdecken.

Im Lernbereich bietet der QQ-Browser QBot Funktionen wie AI-Suche, AI-Browsing, AI-Arbeitsplatz, AI-Lernen und AI-Schreiben an. Die ima AI-Arbeitsplattform kann bei der Erledigung täglicher Lern- und Arbeitsaufgaben helfen und langfristig als persönliche intelligente Wissensbasis dienen. Sie unterstützt auch die Teilnahme an anderen geteilten Wissensbasen für präzise Fragen und Antworten.

Zum Beispiel der Reiseplanungs-Agent. Er kann auf Anfrage des Besuchers einen Reiseplan in einem Klick generieren und den generierten Plan jederzeit individuell bearbeiten. Gleichzeitig kann man über die integrierte Mini-App direkt bestellen, so dass mit einer Eingabe mehrere Anweisungen auf einmal erledigt werden können.

△Quelle: Tencent

Im Bereich der Unterhaltungsgestaltung hat QQ Music auch die Funktionen "AI-Songwriting" und "AI-Singen" eingeführt, um Benutzern zu helfen, Songs zu schreiben oder qualitativ hochwertig zu "singen". Zuvor hat QQ Music den weltweit ersten AI-Sänger "AI Li Hong" vorgestellt.

Tencent macht nicht nur selbst Intelligenzagenten, sondern hat auch entsprechende "Gestaltungswerkzeuge" für Intelligenzagenten entwickelt. Beispielsweise können die beiden Intelligenzagenten-Entwicklungsproduktionen "Tencent Cloud Intelligenzagenten-Entwicklungsproduktion" und "Tencent Yuanqi" die Schwelle für die Erstellung und Nutzung von AI-Agenten erheblich senken und Unternehmen und Künstlern helfen, ihre eigenen Intelligenzagenten zu erstellen.

Ähnlich wie bei der Unternehmensnutzung von privaten Clouds war die Branchengroßmodelle hochgradig maßgeschneidert, und es gab immer wieder Fragen wie "hohe Implementierungskosten" und "schwierige Implementierung" auf dem Markt. Nachdem die Fähigkeiten der großen Modelle in den letzten zwei Jahren ständig verbessert wurden, werden die Intelligenzagenten derzeit heiß begehrt.

Was ist dann die Bedeutung der Branchengroßmodelle, wenn es Intelligenzagenten gibt? Wu Yunsheng sagte gegenüber 36Kr, dass die Intelligenzagenten und die Branchengroßmodelle eher in einer Kooperationsbeziehung stehen. Bei den Branchengroßmodellen können Unternehmenskunden mit Tencent Cloud zusammenarbeiten, um das Branchenwissen in die Branchengroßmodelle zu integrieren. Diese Fähigkeiten können wiederverwendet werden. Die Intelligenzagenten können dagegen über Protokolle wie MCP in den Front-End-Szenarien der Unternehmenskunden kleinere Probleme lösen.

"Intelligenzagenten können den Wert der großen Modelle vergrößern und sind eine wichtige Form zur Lösung der Implementierungsprobleme in der Branche", sagte Wu Yunsheng gegenüber 36Kr.

Dieser Artikel wurde ursprünglich von「咏仪」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Kein Verstecken mehr! Tencent hat auf einmal über 10 Agenten veröffentlicht und auch Modelle in Serie Open-Source gemacht | Die neuesten Nachrichten

Beides: Modelle und B2B/B2C-Anwendungen

Implementierung, immer noch Implementierung