Soul CTO Tao Ming: Wie können Menschen und KI „ständig chatten“? | 36Kr Interview
Autor|Song Wanxin
Redakteur|Zheng Huaizhou
Im Jahr 2024 unterscheiden sich die Entwicklungspfade der großen Modelle im Inland von ihren internationalen Kollegen – sie verlagern sich von der Investition in Grundmodelle hin zur Erforschung der Anwendungsebene.
Auf der Endverbraucherseite ist das Schlüsselproblem für Unternehmen, die Umsetzung von KI zu erreichen, die tatsächliche Nachfrage der normalen Benutzer nach großen Modellen zu verstehen.
Auf der GITEX GLOBAL Konferenz in Dubai präsentierte Soul App kürzlich Fortschritte hinsichtlich der Implementierung großer Modelle im sozialen Kontext, wie z. B. ihrer neuesten 3D-virtuellen multimodalen KI-Interaktion. Auf der Konferenz tauschte sich 36Kr mit Soul App CTO Tao Ming aus.
Seit dem Aufkommen großer Modelle, die auf der Verständnis von Sprachsemantik basieren, ist „Chatten“ eine ihrer grundlegenden Anwendungsfälle. Heutzutage gestalten viele Hersteller von großen Modellen ihre Produkte, um dies als Basisszenario für Such- und Interaktionsmöglichkeiten zu nutzen.
Ein weiterführendes Problem, das dabei auftaucht, lautet: Warum sollten Benutzer mit Robotern chatten? Wie lange kann ein solches 1:1-Chat anhalten? Wie hoch ist der Bedarf?
Tao Ming erklärte gegenüber 36Kr, aus der Praxis von Soul geht hervor, dass das "kontinuierliche Chatten" eine hohe Schwelle hat, wenn Mensch und KI nicht in einem bestimmten Szenario integriert sind. Dies ist eine gegenwärtige Herausforderung für alle AI-Chat-Produkte.
„AI hat zwar kognitive Fähigkeiten, aber es fehlt noch an Personalisierung. Sie muss auch die Fähigkeit zur Wahrnehmung und Langzeitspeicherung haben, um den Nutzern ein umfassenderes Erlebnis zu bieten.“
Im Jahr 2020 begann Soul offiziell mit der technologischen Entwicklung im Bereich AIGC. Mittlerweile hat Soul sein selbstentwickeltes Sprachmodell Soul X sowie Sprachgenerierungs-, Spracherkennungs-, Sprachdialog- und Musikgenerierungsgroße Modelle eingeführt. 2024 hat Soul seine KI-Modell-Fähigkeiten zu einem multimodalen End-to-End-Großmodell aufgerüstet.
Rückblickend auf die Gründungszeit im Jahr 2016, war Soul ein Fremdsozialprodukt, das bereits auf AI-Empfehlungstechnologie basierte.
Damals verwendete Soul nicht ein Modell zur Importierung von realen Beziehungen aus Kontaktlisten oder LBS, sondern eine AI-Lösung. Es analysierte die Inhalte und das Verhalten der Benutzer auf der Plattform mittels des AI-Algorithmus-basierten „Lingxi“-Engines und empfahl andere Benutzer mit sozialem Potential.
Im Zeitalter großer Modelle, welche Rolle wird Soul mit besseren AI-Tools im sozialen Kontext spielen? Hier ist ein redigiertes Interview zwischen 36Kr und Soul CTO Tao Ming:
01 Über die Anwendung von AI bei Soul
36Kr: In Gitex sieht es so aus, als ob Soul hauptsächlich die Inlandsversion zeigt. Die internationale wurde noch nicht präsentiert, woran liegt das?
Tao Ming: Wir haben Produkte im Ausland, aber das Benutzererlebnis und die Attraktivität sind noch nicht stark genug, deshalb haben wir die internationalen Produkte noch nicht vorgestellt.
Unabhängig davon, ob es sich um das Produkt für den internationalen Markt oder das Hauptprodukt handelt, sie sind nur auf verschiedene Märkte ausgerichtet und weisen unterschiedliche Ausdrucksformen, Funktionen und Szenarien auf. Die grundlegenden technologischen Fähigkeiten, die präsentiert werden, sind jedoch gleich.
36Kr: Wie wirken sich Souls zwei AI-Modelle auf die Kostensenkung und Effizienzsteigerung aus?
Tao Ming: Ein (Modell) basiert auf dem 3D-Großmodell im visuellen Bereich. Seit 2020 erforscht Soul die Möglichkeit, Benutzern eine identitätsbasierte Person im virtuellen Raum zu bieten, während gleichzeitig eine Identität generiert wird. Das andere ist ein multimodales Großmodell, das es Benutzern ermöglicht, nicht nur mit Menschen, sondern auch mit AI auf Soul zu kommunizieren. Beide Linien entwickeln sich parallel weiter, und die Wahrnehmungsfähigkeit der AI-Großmodelle ist mittlerweile sehr fortgeschritten.
Organisatorisch wurden die ursprünglichen Funktionen neu strukturiert, aufgeteilt in NLP, 3D, CV, Sprache etc. Die Teams haben alle Arbeiten mit Fokus auf ein einziges Modellszenario geschlossen und arbeiten jetzt in einem integrierten Team an multimodalen Modellen.
Technologisch, Veränderungen in der Organisation führen zwangsläufig zu einer Änderung der technologischen Ausrichtung, derzeit gibt es nur zwei Technologiebereiche. Eine ist die Entwicklung von 3D-, CV- und Sprachmultimodalmodellen, ähnlich dem GPU-Zusammenhang; die andere ist ein Versuch, das Konzept des kürzlich von OpenAI veröffentlichten o1-Modells anzuwenden.
Wir konzentrieren uns jetzt sehr stark und investieren keine Ressourcen in andere Technologiebereiche mehr. Auf diese Weise reduzieren wir effektiv die Kosten.
36Kr: Betrachten Nutzer den Austausch mit einer digitalen Person als echtes Bedürfnis?
Tao Ming: Mensch-Maschine-Dialoge sind eine grundlegende Atomfunktion des Produkts, die jedoch nicht direkt dem Benutzer angeboten werden kann. Es muss eine Gemeinschaft geschaffen werden, in der AI Wesen und Menschen koexistieren. Diese Gemeinschaft kann nicht durch Einzelgespräche allein aufrechterhalten werden, sondern erfordert mehr Szenarien, in denen AI und Mensch interagieren.
Auch im Bereich Einzelchat haben, einschließlich der „Big Six“ AI-Chat-Produkte, die Fähigkeit, separat zu chatten, aber es ist schwierig, „kontinuierlich zu chatten“, wenn Mensch und AI nicht in einem bestimmten Szenario integriert sind, was eine erhebliche Hürde darstellt.
Deshalb konzentrieren wir uns auf die Richtung von GPT-4o. AI benötigt nicht nur kognitive Fähigkeiten, sondern auch Wahrnehmungsfähigkeiten, um den Nutzern ein besseres Erlebnis zu bieten.
36Kr: In Anbetracht der Entwicklung dieser Interaktionsszenarien, was unterscheidet dies von begleitenden Spielen wie Miracle Nikki?
Tao Ming: Spiele wie „Love and Producer“ bringen einmalige Chat-Interaktionen, aber Souls Unterschied besteht darin, dass es beispielsweise Ihre Erkältung von heute bis zum dritten Tag noch in Erinnerung behalten und nach Ihrem Befinden fragen könnte, was ein völlig anderes, fortwährendes Erlebnis schafft im Gegensatz zu mechanischer Kommunikation, die in einem "Fragen-Antworten"-Stil gehalten ist.
Es ist also unerlässlich, das Wahrnehmungs- und Speichervermögen der AI zu verbessern, das ist die wichtigste Aufgabe,
36Kr: Wie erreicht man eine längere Speicherfähigkeit der AI?
Tao Ming: Der erste Ansatz war die Suchmethode, indem alle Antworten vorgespeichert wurden. Dann haben wir ein kleines AI-Modell entwickelt, das vor dem Eintritt in das große Dialogmodell, die wichtigsten Erinnerungspunkte filtert - möglicherweise Hunderte von Erinnerungen, die je länger der Zeitraum, umso breiter werden.
Der aktuelle Plan sieht vor, Langzeitgedächtnisdaten direkt einzufügen, was jedoch eine große technische Herausforderung darstellt und viele Details beinhaltet. Beispielsweise kann ein Gedächtnis nicht kontinuierlich gehalten werden, wenn ein Punkt innerhalb der gesamten Erinnerung vielmals wiederholt wird. Welcher Zeitpunkt einer Erkältung sollte genommen werden? Die Szenarien sind unterschiedlich, und dies kann nicht allein durch ein Modell gelöst werden, sondern erfordert manuelle Markierungen zur Unterstützung.
Daher gibt es noch Raum für Verbesserungen bei der End-to-End-Lösungen für Benutzererfahrungen, es ist schwer, ein vollständiges End-to-End-Erlebnis rein technisch zu lösen, ohne die Produkt- und Betriebsperspektive zu berücksichtigen.
36Kr: Welche Messzahlen sind bei Soul derzeit von größerer Bedeutung - die Dauer der Nutzeraktivität oder die Einzelkosten pro Nutzer?
Tao Ming: Derzeit konzentrieren wir uns mehr auf aktive Nutzer, da die Dauer nicht das gesamte Aktivitätskonzept repräsentiert und so die Gesamtaktivität betrachtet werden muss. AI ist ein integratives Werkzeug und sollte nicht nur bestimmte Gruppen bedienen, sondern jedem Benutzer innerhalb von Soul zugutekommen.
02 Über die Anwendungsperspektive von großen Modellen
36Kr: Nutzen Sie bei der Schulung Miet-Chips?
Tao Ming: Wir verwenden zwei Arten: Wir haben keine eigenen ABC-Klasse-Rechenzentren, daher haben wir Karten exklusiv auf verschiedenen Cloud-Plattformen gekauft, aber auch einige flexible Karten.
Dies ist eine Kostenüberlegung, wäre es im letzten Jahr der Fall gewesen, einige Tausend Karten gekauft zu haben, hätte deren Wert mittlerweile um 60% abgenommen. Wir versuchen, auf Ressourcenseite soweit wie möglich fixe Kosten in variable Kosten umzustellen.
36Kr: Was sind derzeit die Haupthindernisse bei der Entwicklung großer Modelle in der Branche?
Tao Ming: Der Mangel an Karten. Ich war in den USA und habe mit Leuten von Llama darüber gesprochen, da Llamas technische Dokumentationen sehr detailliert sind. Ich fragte: „Habt ihr keine Angst, von Wettbewerbern oder Kunden im Ausland überholt zu werden bei solch detaillierten Unterlagen?“
Sie antworteten, viele Leute könnten die technischen Dokumentationen nutzen, aber sie haben nicht die Kartenkapazität dafür. Zeit ist ein weiterer Faktor, da es viele technische Details gibt, die Trainingszeit erfordern.
36Kr: Einige Unternehmen der „Big Six“ haben begonnen, ihre Pre-Trained-Modelle zu reduzieren.
Tao Ming: Im Bereich Pre-Training haben viele das Potential bereits erschöpft, daher macht es keinen Unterschied, ob wir sofort darauf stoßen oder erst später, es machte keinen Unterschied. Wenn es eine feste Größe gibt und die letzte Karte jedes Spielers bekannt ist, gewinnen Gelassenheit und Klarheit über die gegenwärtige Situation die Oberhand.
36Kr: Was stellt für dich das Haupthindernis dar? NVIDIA?
Tao Ming: Letztlich ist es NVIDIA, aber OpenAI führt immer noch an.
36Kr: Ist der Hauptgrund für Verzögerungen bei Modellaktualisierungen das Fehlen des B200?
Tao Ming: Ja, das spielt eine große Rolle. Doch im Inland ist es nicht hauptsächlich ein Ressourcenproblem, innerhalb des Landes seit der zweiten Jahreshälfte des letzten Jahres nicht mehr knapp, speziell, weil die Kartenhändler die Karten verkaufen, solange man bereit ist zu investieren, sind sie verfügbar.
Im Ausland sind Ressourcen ein Thema, in der kurz- bis mittelfristigen Perspektive geht es national nicht mehr um das Rechenvermögen, sondern darum, welchen Weg jede Firma kurzfristig wählt, den "Big Six" beim Pre-Training zu folgen, um zu GPT-Levels aufzusteigen, aber was danach?
36Kr: In dieser aktuellen AI-Technologie-Welle, treibt das Produkt die Technologie voran oder ist es umgekehrt?
Tao Ming: Ursprünglich hatte das Produkt Anforderungen und die Technologie setzte diese um, aber jetzt ist das Szenario anders.
Gegenwärtig gibt es bei Soul einen internen Chat, in dem sowohl Produkt- als auch AI-Algorithmus-Ingenieure Anforderungen stellen können, und es gibt keinen Unterschied mehr zwischen ihnen - derzeit stellen die Ingenieure sogar mehr Anforderungen.
Die Ingenieure kennen die Möglichkeiten und Grenzen der AI besser und ihre Anforderungen sind oft konkret umsetzbar. Irgendwann wird jedoch das Verständnis des Produkt- und des Technikteams gleichauf sein.
36Kr: Wie groß ist derzeit das Technikteam?
Tao Ming: Das Technikteam besteht aus mehreren hundert Leuten, wobei die AI-Abteilung fast die Hälfte ausmacht.
36Kr: Sind die AI-Personen neu hinzugekommen oder wurden sie intern umgeschult?
Tao Ming: Es gab schon entsprechende Funktionen in der Vergangenheit, die jetzt weiter ausgebaut wurden.
Folgen Sie uns für weitere Informationen