15 Sätze, die das erste physische Auftreten von Yao Shunyu zusammenfassen
Am 5. Juni auf der Tencent Cloud AI "Zweite Halbzeit" Konferenz führte Tencent Group Senior Executive Vice President Tang Daosheng ein Gespräch mit Tencent's Chef AI Wissenschaftler Yao Shunyu.
Dieses Gespräch drehte sich um die Frage, wie Tencent die "Zweite Halbzeit" des KI-Bereichs versteht: Wenn die Methodik der großen Modelle allmählich reif wird, verschiebt sich der Wettbewerbsfokus von der Fähigkeit einzelner Modelle hin zu realen Szenarien, Produktfeedback, Kontextnetzwerken und der Agent-Engineering Umsetzung.
Das Gespräch zwischen Tang Daosheng und Yao Shunyu deutet auch darauf hin, dass Tencent intern die interne Struktur mit der Co-Design Methode von Modellen und Produkten neu organisiert.
Wir haben alle Gespräche der beiden zusammengefasst und in 15 Kernaussagen zusammengefasst.
01 Über die "Zweite Halbzeit" des KI-Bereichs
Der Begriff "Zweite Halbzeit" wird missbraucht. Yao Shunyu hat Tencent gewählt, weil es "echte Probleme" hat, die für KI wichtig sind
Yao Shunyu sagte, dass der Begriff "Zweite Halbzeit" des KI-Bereichs etwas missbraucht wird. Er meint, dass es in den letzten Jahrzehnten bei KI wichtiger war, gute Methoden zu finden, wie z. B. AlphaGo für das Schachspiel oder spezifische Modelle für die Übersetzung. Aber nachdem das Pre-training und Post-training reif geworden sind, ist das große Modell zu einem "universellen Hammer" geworden, der verschiedene Probleme lösen kann. Somit werden "echte Probleme" zunehmend knapp. Nachdem die Modellfähigkeiten allgemein anwendbar geworden sind, müssen Unternehmen entscheiden, wofür sie das Modell einsetzen sollen, welche Probleme es lösen soll und welchen Wert es schaffen soll.
Dies ist auch ein wichtiger Grund, warum Yao Shunyu Tencent betreten hat. "Tencent hat viele gute Probleme und viele Produkte", sagte Yao Shunyu. Gute Produkte können das erste Problem lösen, nämlich nach einem guten Pre-training und Post-training zu entscheiden, in welchem Szenario das Modell eingesetzt werden soll und welchen Wert es hat.
Die Umgebung ist wichtig, aber der Kontext ist noch wichtiger. Der Wettbewerbsvorteil kann manchmal von der ursprünglichen Eingabe abhängen
Yao Shunyu betonte die Wichtigkeit der Umgebung. Ohne eine gute Umgebung kann ein Agent nicht verschiedene Dinge tun. Wenn man kein Tool zum Bestellen von Lebensmitteln hat, kann man keine Lebensmittel bestellen.
Aber am wichtigsten ist der Kontext. Yao Shunyu sagte, dass für Unternehmen und Privatpersonen der Kontext immer wichtiger wird. Weil Modelle immer besser darin werden, eine sehr komplexe Eingabe in eine Ausgabe umzuwandeln, hängt der Wettbewerbsvorteil oft davon ab, ob man die ursprüngliche Eingabe hat. Man muss wissen, was eine Person tut und welche Informationen ein Unternehmen hat. Hier hat Tencent einen starken Vorteil.
Das wichtigste Ziel in der "Zweiten Halbzeit" des KI-Bereichs ist die Gründung einer langfristigen, auf AGI basierten Organisation in China
Yao Shunyus persönliches Ziel ist es, in China eine langfristige, auf AGI basierte Organisation zu gründen. Er erwähnte, dass heutige KI hauptsächlich aus drei Teilen besteht.
Zuerst ist es der "Foundation" Teil, wie man das Pre-training und Post-training so solid wie möglich macht.
Der zweite Teil ist das Produkt, wie man diese Technologie für Menschen und die Gesellschaft einen Wert schafft.
Der dritte Teil ist die "Frontier", wie man neue Forschungsparadigmen und neue Chancen erkundet.
Am wichtigsten ist es, eine sehr ausgewogene, dreieckige Organisation aufzubauen. Für den "Foundation" Teil ist es am wichtigsten, genügend Ressourcen zu haben und die richtige Arbeitsweise zu finden. Für das Produkt ist es wichtig, ein gutes Produktgefühl zu haben und Leute, die Produkte entwickeln können. Drittens werden in China heute noch nicht genug Vorstoßforschungsprojekte durchgeführt. Deshalb hofft Yao Shunyu, dass der Geist der "Frontier Exploration" stärker in die Organisation eingebracht werden kann.
Tencent strebt die Co-Design von Modellen und Produkten an, aber Yao Shunyu meint, dass alles auf einem soliden Modell beruhen muss
Beim Thema Co-Design, das in Tencent oft erwähnt wird, meint Yao Shunyu, dass das erste Voraussetzung ist, dass das Modell selbst solide aufgebaut ist. Pre-training ist eine Sache, die unabhängig vom Produkt ist. Es bietet eine generalisierbare Grundlage, die verschiedenen nachgelagerten Aufgaben langfristig nützt.
Beim Post-training ist es am wichtigsten, die richtige Evaluation zu setzen. Yao Shunyu bemängelte, dass es in China möglicherweise eine ungesunde Tendenz gibt, Ranglisten zu verbessern. Stattdessen sollte man sich darum kümmern, wie man realistisch auf der Grundlage von Produkten und echten Anwendungen eine realistischere Evaluation konstruiert. Der praktische Wert ist größer als der Wert der Ranglisten.
Tencent hat in diesem Bereich viel Arbeit geleistet und mit verschiedenen Produkten eine tiefe Co-Design Zusammenarbeit durchgeführt. Yao Shunyu sagte, dass ein wichtiger Aspekt der Co-Design Zusammenarbeit die gegenseitige Vertrauensbildung ist. Tencent hat viel Arbeit geleistet, um gegenseitiges Vertrauen aufzubauen. Wie man die Produktdaten, die Rückflüsse und die Evaluation richtig nutzt, gibt es viele Details.
Reales Produktfeedback kann Probleme aufdecken, die Benchmarks nicht zeigen
Yao Shunyu leugnet nicht den Wert von Benchmarks, aber im Vergleich dazu hat das reale Daten aus der realen Welt mindestens drei Arten von Werten.
Erstens können reale Daten Probleme aufdecken, die in den Ranglisten nicht sichtbar sind. Yao Shunyu sagte, dass eines der wichtigsten Ziele von Tencent bei der Veröffentlichung eines Preview-Modells ist, Feedback aus der realen Welt zu erhalten und Probleme zu beheben, die in den Ranglisten nicht sichtbar sind. Dies wird in der offiziellen Version eine große Verbesserung bringen.
Zweitens kann man die Prompt-Verteilung realer Benutzer verstehen. Weil die Fragen realer Benutzer oft unklar, kurz und in mehreren Runden gestellt werden, während die Benchmark-Fragen oft präziser und in einer Runde gestellt werden. Beispielsweise können die Fragen in den Benchmarks sehr präzise sein, mit einer langen Beschreibung und in der Regel eine Einzelfrage. Aber in der realen Welt können die Fragen unklarer sein, vielleicht nur ein oder zwei Sätze, und dann wird weiter gefragt. Diese Unterschiede können uns helfen, das Training besser zu gestalten.
Drittens können Produkte auch neue Bewertungsrichtungen inspirieren und Bereiche fördern, die noch nicht gut definiert sind. Yao Shunyu sagte, dass man sogar von diesen Produkten Inspiration erhalten kann, um neue Ranglisten oder Bereiche zu entwickeln, die noch nicht gut definiert sind. Beispielsweise hat Tencent kürzlich viel Arbeit an Context Learning geleistet, und die Rückmeldungen von Yuanbao haben auch eine große Inspiration und Hilfe geleistet.
02 Über die Generalisierung von Modellen
Unter dem Namen des Modells können Tencents verschiedene Produkte nun etwas "miteinander kommunizieren"
Yao Shunyu wies darauf hin, dass der grundlegende Unterschied zwischen der LLM-Ära und der früheren KI die Generalisierbarkeit ist. Früher brauchte man für ein Übersetzungsmodell nur Übersetzungsdaten und für ein Schachprogramm nur Schachdaten. Aber heute braucht man auch für einen Coding Agent verschiedene Fähigkeiten wie Chat, Suche, Befehlsausführung und logisches Denken.
Deshalb haben Unternehmen mit mehreren Produkt-Szenarien einen systemischen Vorteil. Yao Shunyu sagte, dass die Co-Design Zusammenarbeit mit Yuanbao dem Modell starke Chat- und Suchfähigkeiten verleihen kann. Diese Fähigkeiten können dann auf andere Produkte wie Ima und WorkBuddy übertragen werden. So können diese Produkte verschiedene Daten liefern, und diese Daten können sich gegenseitig ausbreiten und übertragen, um ein netzartiges System zu bilden. Dieser Wert wird immer wichtiger.
Bisher wurde Tencents Vorgehensweise von außen als "Rennpferde" beschrieben. Verschiedene Geschäftseinheiten entwickeln Produkte in der gleichen Richtung und konkurrieren miteinander, ohne viel Zusammenhalt zu zeigen. Jetzt scheint sich dies unter dem Namen der KI zu ändern.
Die Kernänderungen von Hy3 sind die Neugestaltung der Infrastruktur, die Neugestaltung der Daten und die Abhängigkeit von vielen geschmacksgerechten Entscheidungen
Bezüglich des Hy3 Preview sagte Yao Shunyu: "Große Modelle haben keine Geheimnisse." Man muss die Infrastruktur und die Daten gut gestalten, und der Algorithmusanteil ist relativ einfach.
Er erwähnte, dass Hy3 hauptsächlich in mehreren Aspekten geändert wurde. Erstens wurde die Pre-training und Reinforcement Learning Infrastruktur neu aufgebaut. Zweitens wurden die Daten stark geändert, einschließlich der Definition realistischerer Probleme, der Bereicherung der Daten-Taxonomie und der Verbesserung der Datenqualität, was ein unendlicher Prozess ist. Drittens gibt es bei vielen wichtigen Entscheidungen keine klaren Formeln, und man muss ständig Abstriche bei der Einstellung von Mitarbeitern, dem Modelltempo und der Ressourcenallokation machen. Im Wesentlichen ist es ein geschmacksgerechter Prozess.
Die schwierigste Stelle bei der Zusammenarbeit zwischen Yuanbao und Hunyuan ist nicht die Technologie, sondern das Vertrauen
Yao Shunyu enthüllte, dass in der frühen Phase von Yuanbao Hunyuan starke Algorithmus-Experten geschickt hat, um Yuanbao beim Post-training von DeepSeek zu helfen. Damals war Hunyuans eigenes Pre-training Modell noch nicht fertig, und viele Algorithmus-Experten verstanden es zuerst nicht.
Aber Yao Shunyu meint, dass die Pflege eines Produkts wie Yuanbao und die DAU für die nachfolgende Modellentwicklung und die langfristige Zusammenarbeit wichtig sind. Deshalb musste er damals sehr hart arbeiten, um zu erklären. Aber jetzt scheint sich diese Arbeit gelohnt zu haben. Dieser Schritt hat den Produkteam und den Modellteam bewusst gemacht, dass die Modell-Experten wirklich am Produkt interessiert sind. Dies hat eine sehr wichtige Rolle bei der späteren Zusammenarbeit, einschließlich der erfolgreichen Implementierung von Hunyuan in Yuanbao, gespielt.
Yao Shunyu sagte, dass die Ziele des Modellteams und des Produktteams teilweise übereinstimmen, aber auch teilweise nicht. Die Modell-Experten möchten, dass die Fähigkeiten des Modells immer stärker werden, während die Produkt-Experten möchten, dass die Bedürfnisse der Benutzer besser erfüllt werden. Deshalb gibt es natürlich viele Unterschiede. Ein wichtiger Aspekt ist die Fähigkeit, die Perspektive des anderen zu verstehen. Natürlich gibt es viele technische Aspekte, die diskutiert werden können, aber die schwierigste Stelle ist möglicherweise, wie man Vertrauen aufbaut und die Perspektive des anderen versteht.
Das Paradigma der Produktentwicklung hat sich im KI-Zeitalter geändert, von "Fertiggerichten" zu offenen Dienstleistungen
Tang Daosheng meint, dass das erste Prinzip der Produktentwicklung sich nicht geändert hat. Es geht letztendlich darum, die Bedürfnisse der Benutzer zu verstehen, ihre Probleme zu lösen und ihnen oder den Kunden einen Wert zu bieten. In verschiedenen Epochen und sogar in verschiedenen Branchen muss ein Produkt den Benutzern einen Wert bieten, damit sie es kaufen und nutzen.
Aber es gibt tatsächlich viele Unterschiede zwischen der Produktentwicklung im PC-Internet- und Mobil-Internet-Zeitalter und der Produktentwicklung im heutigen KI-Zeitalter. Zunächst betrachtet man im KI-Zeitalter weniger die Funktionen, um die Bedürfnisse der Benutzer zu erfüllen. Als Produkt- und Dienstleistungsanbieter muss man sich überlegen, welche Fähigkeiten man bietet, damit die Benutzer über die Benutzeroberfläche oder Menüs auswählen können. Dies ist wie Fertiggerichte, bei denen die Benutzer nur aus einer begrenzten Auswahl wählen können.
Aber im KI-Zeitalter erfordert die offene Dienstleistungsform andere Anforderungen und Herausforderungen. Die Benutzer können über einfache Interaktionsformen, wie natürliche Sprache oder Spracheingabe, kommunizieren. Als Produktanbieter weiß man nicht, was die Benutzer fragen werden, also muss man die Modellfähigkeiten nutzen, um die Bedürfnisse der Benutzer zu verstehen. Dann kann man die Inferenzfähigkeiten und die Fähigkeit, Tools aufzurufen, des heutigen großen Modells nutzen, um verschiedene Tools für das Modell bereitzustellen, um diesen offenen Anforderungen zu entsprechen.
Tang Daosheng sagte, dass die Produktentwicklung im heutigen KI-Zeitalter höhere Anforderungen an die Fähigkeiten stellt und schwieriger ist. Insbesondere in diesem Jahr wird der Großteil des Codes von KI generiert. Die Ingenieure werden möglicherweise mehr Zeit damit verbringen, Design und Architektur zu entwickeln, und die Code-Schreibarbeit an die KI übergeben, und dann regelmäßig die KI anleiten und korrigieren. Das Testen muss auch früher erfolgen, und man muss sich im Voraus über die verschiedenen Fälle, Umgebungen und die Anforderungen an offene Antworten, sogar die Übereinstimmung mit dem gewünschten Stil der Benutzer, Gedanken machen.
Yao Shunyus Doktorarbeit aus dem Jahr 2019 hat das heutige Zeitalter vorausgesehen, aber er meint, dass er "noch nicht weit genug gedacht hat"
Yao Shunyu enthüllte, dass er seine Doktorarbeit erneut gelesen hat und sich wie in eine sehr ferne Zeit versetzt fühlte. Der Titel seiner Doktorarbeit lautet "Language Agent: from Next Token Prediction to Digital Automation" (Sprachintelligenz: Von der Vorhersage des nächsten Tokens zur digitalen Automatisierung). Das war im Jahr 2019, vor sieben Jahren, als GPT-2 nur die Vorhersage des nächsten Tokens konnte und die generierten Sätze möglicherweise nicht sehr zusammenhängend waren oder viele Unstimmigkeiten hatten. Deshalb war es damals schwer vorstellbar, dass es eines Tages eine kraftvolle Weltveränderung bewirken würde.
Damals hatte Yao Shunyu eine wildere Vorstellung. Er fand, dass GPT ein sehr schönes Ding war und die Vorhersage des nächsten Tokens eine sehr einfache und allgemein anwendbare Sache war. Er dachte, dass es eines Tages nicht nur die Vorhersage des nächsten Tokens leisten würde, sondern auch alle Dinge in der Welt automatisieren würde. Damals dachte er an digitale Automatisierung, aber jetzt scheint es auch möglich zu sein, digitale und physische Automatisierung.
Während seiner Doktorarbeit hat Yao Shunyu hauptsächlich zwei Dinge gemacht. Erstens, wie man eine Methodik für einen Agenten aufbaut. Wie man eine Maschine, die die Vorhersage des nächsten Tokens kann, in einen Agenten, eine automatisierte Maschine, umwandelt. Die wichtigste Arbeit war möglicherweise React.
Er erinnerte sich noch, dass es im Juli 2022 war, als er eines Abends zum ersten Mal die API von Palm 2 mit einer von ihm selbst geschriebenen Wikipedia-API verknüpft hat und es dann erstmals möglich war, auf der Grundlage dieser Webseite Fragen zu beantworten und in mehreren Runden zu interagieren. Er fühlte sich wie ein schwacher Glühlampenfaden, der plötzlich leuchtete. So weit er weiß, war dies möglicherweise das erste Mal, dass der Mensch ein LLM mit dem echten Internet verknüpft und in mehreren Runden interagiert hat.
Er dachte damals, dass dies in fünf oder zehn Jahren die Welt verändern würde. Aber es hat sich schneller als erwartet ereignet. Als er damals erstmals SWE-bench vorgeschlagen hat, dachte er, dass dies, wenn es gelänge, einen großen Wert bringen würde. Damals waren es möglicherweise Hunderte von Milliarden oder Taus