Gespräch mit Chen Kaijie: Dein persönlicher und "Emotionsintelligenter Agent"

Vom Frage-Antwort-Tool zum Lebensbegleiter.

Wir befinden uns in einer Zeit, in der wir täglich mit KI kommunizieren. Doch diese leistungsstarken Modelle scheinen immer an "Gedächtnisstörungen" zu leiden. Bei jedem neuen Gespräch müssen wir die Aufgabe, den Hintergrund und unsere Anforderungen immer wieder beschreiben. Wir wünschen uns eine KI, die wirklich weiß, "wer ich bin", versteht, "was ich tue" und sogar unsere Emotionen und Situationen wahrnehmen kann. Wenn die KI dies können wird, ist sie nicht mehr ein kalter Werkzeug, sondern ein wahrer digitaler Partner.

Genau vor diesem Hintergrund sucht der mehrfache Unternehmer und Gründer von Macaron AI, Chen Kaijie, nach einer Lösung für dieses Problem. Das von ihm gegründete Macaron AI ist keine weitere Chat-Bot, sondern eine neue Spezies, die darauf abzielt, ein "Personal Agent" (persönlicher Intelligenzagent) zu werden.

Der Wandel im technologischen Hintergrund ist der Ausgangspunkt für alles. Chen Kaijie weist darauf hin, dass die KI-Branche aus der Zeit des "Scaling Law" (Skalengesetz), die sich einfach auf die Erhöhung von Parametern und Daten stützt, in die "Era of Experience" (Zeit der Erfahrung) eintritt. Wenn die hochwertigen Daten im Internet aufgebraucht sind, stößt die Verbesserung der Intelligenz der Modelle auf eine Grenze. In Zukunft wird die Wettbewerbsfähigkeit von Intelligenzsystemen nicht mehr von den Skalierungsparametern bestimmt, sondern von ihrer Fähigkeit, aus den echten Erfahrungen der Benutzer kontinuierlich zu lernen und sich zu entwickeln.

Der Kern dieser Philosophie ist das Reinforcement Learning (RL). Chen Kaijie erklärt die Essenz davon anhand einer lebhaften Metapher: Zehn Stunden Tennisvideos anzusehen, bringt weit weniger als einmal selbst einen Tennis-Schläger in die Hand zu nehmen und zu schlagen. Jede echte Interaktion liefert dem Modell hochwertige Daten mit kausalen Beziehungen, sodass es weiß, "wie man es richtig macht". Dies ist der Geheimnis des Erfolgs des Silicon Valley KI-Code-Assistenten Cursor - indem es analysiert, welche Code-Vorschläge von Programmierern angenommen oder abgelehnt werden, übertrifft sein spezielles Modell in Geschwindigkeit und Qualität sogar viele allgemeine große Modelle.

Chen Kaijie hat diese Philosophie in Macaron AI integriert. Er ist der Meinung, dass das ultimative Ziel der KI nicht darin bestehen sollte, Ihnen mehr Berichte oder Präsentationen zu schreiben, sondern ein Partner zu sein, der "wirklich um Ihr Leben kümmert". Daher liegt der Kernbruch von Macaron AI in seinem einzigartigen "Gedächtnissystem". Es stützt sich nicht auf die herkömmliche Schlüsselwort-Suche (RAG), sondern integriert das Gedächtnis in das Modell und aktualisiert es kontinuierlich durch Reinforcement Learning. Ein starkes "Reward Model" (Belohnungsmodell) urteilt anhand der Rückmeldungen der Benutzer, ob die Antworten der KI zufriedenstellend sind, und leitet das "Studentenmodell" darüber, wie es Informationen besser merken und nutzen kann.

Unter diesem Mechanismus kann Macaron AI für die Benutzer über 100.000 individuelle "Mini-Apps" erstellen, die auf Reisen, Gesundheit, Finanzplanung und andere Szenarien abzielen. Noch wichtiger ist, dass es darauf abzielt, ein reiner "persönlicher Haushaltsangestellter" zu werden. Chen Kaijie hat bewusst die Community- und Platzfunktionen vermieden, denn er ist überzeugt, dass nur in einer privaten und exklusiven Kommunikationsumgebung die Benutzer sich sicher fühlen, um mit der KI über Themen wie Liebe, Familie und Kindererziehung zu sprechen, die wirklich zum Leben gehören.

Die Entwicklung von einem Frage-Antwort-Tool zu einem Lebenspartner ist nicht nur die Evolution eines Produkts, sondern auch eine tiefgreifende Veränderung im Entwicklungsparadigma der KI. Wie Chen Kaijie in seinem Vortrag sagte, kann eine gute Technologie ein bisher nie dagewesenes Produkt-Erlebnis schaffen, und das Produkt-Erlebnis wiederum liefert dem Modell die wertvollsten Nährstoffe. Die Exploration von Macaron AI könnte vielleicht ein praktischer Schritt in Richtung einer "KI mit hoher Emotionalintelligenz" in der Zukunft sein.

Nachfolgend ist die Transkription des Vortrags des Gastes, bearbeitet von 36Kr -

I. Vom "Scaling Law" zur "Era of Experience": Die zweite Hälfte der KI-Entwicklung

Ich glaube, dass dieses Bild jedem sehr vertraut ist. Es ist ein Bild, das von OpenAI im Jahr 2020 veröffentlicht wurde und auch die Grundlage des sogenannten "Scaling Law" ist. Das Bild zeigt, dass mit zunehmender Rechenleistung der Verlust (loss) des Modells immer niedriger wird und die Wirkung immer besser wird, was in einem logarithmischen Koordinatensystem eine Gerade bildet. Dieses Bild zeigt: Je größer die Rechenleistung, desto besser das Modell.

Aber seit 2020 hat sich die Situation geändert. Heutzutage zitieren wir häufiger das "Chinchilla-Gesetz". Es besagt, dass zwischen der Anzahl der Parameter eines Modells und der Menge der für das Training benötigten Daten ein konstanter Proportionsverhältnis besteht: Je größer die Modellparameter, desto mehr Daten werden benötigt. Allerdings ist die Menge der Daten in der Welt begrenzt. Heute verwenden wir bei der Modellierung hauptsächlich Datenmengen von etwa 14 TB, und die Anzahl der Parameter der trainierten Modelle beträgt etwa 1 Billion (1T). Dies bedeutet, dass es für Modelle wie Qianwen, DeepSeek oder Kimi schwierig ist, diese Obergrenze zu überschreiten, da die Daten im Internet aufgebraucht sind.

Nachdem die Daten aufgebraucht sind, haben wir festgestellt, dass selbst wenn wir versuchen, das Modell noch größer zu machen und mehr synthetische Daten hinzuzufügen, die Intelligenz des Modells nicht wesentlich verbessert wird. Dies ist das größte Problem in der ersten Hälfte des Pre-Trainings von großen Modellen heute: Die Kapazität des Pre-Trainings hat ihre Obergrenze erreicht, und wir haben die Grenze des Skalengesetzes erreicht.

Was ist dann die zweite Hälfte? Genau das möchte ich heute hauptsächlich besprechen - willkommen in der "Era of Experience" (Zeit der Erfahrung).

Die "Era of Experience" löst hauptsächlich das Problem, was wir tun sollen, wenn wir uns nicht mehr auf das Skalengesetz verlassen können. Dieses Konzept wurde von David Silver, dem Chefwissenschaftler von DeepMind, und Richard Sutton, dem Vater des Reinforcement Learnings, vorgeschlagen. Sie befürworten es, die Entwicklung der Intelligenz der Modelle durch Erfahrungen anzutreiben, d.h. durch reale Produkte und die daraus gewonnenen Rückmeldedaten, anstatt sich nur auf das Pre-Training zu verlassen.

In der "Era of Experience" gibt es einige wichtige Punkte:

1. Die Wettbewerbsfähigkeit von Intelligenzsystemen wird nicht mehr von den Skalierungsparametern bestimmt, sondern von ihrer Fähigkeit, aus echten Erfahrungen kontinuierlich zu lernen.

2. Die Intelligenz basiert nicht nur auf den zuvor eingegebenen Massendaten (Pre-Train), sondern erfordert reale, dynamische Erfahrungsrückmeldungen, um sich selbst zu entwickeln.

Dies ist im Wesentlichen der größte Konsens von Spitzen-KI-Teams in Silicon Valley und weltweit heute.

II. Die Magie des Reinforcement Learnings: Wie man Modelle mit echten Rückmeldungen trainiert

Warum brauchen wir, wenn das Modell nicht größer gemacht werden kann, die Daten von realen Produkten als Rückmeldung? Welche Logik steckt dahinter?

1. Die Daten mit der größten Informationsgewinn finden

Da wir keine weiteren Daten erhalten können, brauchen wir hochwertigere Daten. Wie definiert man Hochwertigkeit? Die Antwort ist: Die Daten, die für das Modell die größte Informationsgewinn haben.

Gehen wir zurück zur Essenz des Reinforcement Learnings. Nehmen wir das Lernen des Tennisspiels als Beispiel. Eine Möglichkeit ist, zehn Stunden Tennis-Lehrvideos anzusehen und dann zu spielen; die andere Möglichkeit ist, direkt einen Tennis-Schläger in die Hand zu nehmen und zu schlagen. Wenn der erste Schlag zu nah ist, passt man die Stärke an und schlägt erneut, und der zweite Schlag fliegt über das Netz. Letzteres bedeutet, dass das Modell in die reale Welt eintritt und interagiert, und es weiß sofort, ob es "zu schwach" oder "zu stark" geschlagen hat. Dieser einzelne Datenpunkt hat für das Modell einen sehr hohen Wert, da er eine klare kausale Beziehung enthält. Beim Anschauen von Videos weiß man nicht, ob man auf den Schlagrhythmus, die Schritte, das Wetter oder die Zuschauer achten soll, die Informationsdichte ist sehr niedrig.

Deshalb sind die Daten des Reinforcement Learnings in der realen Welt hochwertigere Daten. Dies ist der grundlegende Grund, warum wir in die "Era of Experience" eintreten.

2. Zielausrichtung und Reward Model (Belohnungsmodell)

Ein weiterer Kernvorteil des Reinforcement Learnings ist die "Zielausrichtung". Wir können die Ziele, die wir trainieren möchten, mit den Zielen, die für die Benutzer am wertvollsten sind, in Übereinstimmung bringen. In der Vergangenheit wurde KI für das Go-Spiel oder das Spiel DOTA trainiert, aber die praktische Bedeutung dieser Aufgaben war begrenzt. Heute möchten wir trainieren, wie man guten Code schreibt, wie man die Benutzer gut bedient und wie man die richtigen Aktien wählt. Das Reinforcement Learning kann uns helfen, die Ziele aus der virtuellen Welt in die reale Welt zu übertragen.

Nehmen wir den KI-Code-Assistenten Cursor als Beispiel. Ich denke, es ist eine ausgezeichnete Firma, die derzeit unterschätzt wird. Cursor hat kürzlich ein eigenes Modell veröffentlicht. Obwohl es in der höchsten Genauigkeit nicht mit den besten Modellen wie OpenAI mithalten kann, ist es extrem schnell und bietet ein hervorragendes Erlebnis. Das Schreiben von Code wird fast zu einem einfachen Drücken der Tab-Taste.

Wie schafft es Cursor das? Sie verwenden "Agent RL" - Reinforcement Learning auf einem Agent-Produkt. Genauer gesagt, bei einer Code-Schreibaufgabe erzeugt das Modell mehrere Lösungswege. Manche Lösungen funktionieren, andere nicht. Das System sammelt diese "richtigen" und "falschen" Ergebnisse und führt dann ein Training durch, um dem Modell zu sagen, dass die "richtigen" Lösungen besser sind. Indem es alle zwei Stunden die Benutzerdaten aggregiert und das Modell aktualisiert, hat Cursor die Intelligenz des Modells von 40 Punkten auf 55 und 60 Punkte gesteigert, und ich glaube, dass es das Potenzial hat, die besten Modelle der Welt zu übertreffen.

Bei diesem Prozess ist das Reward Model (Belohnungsmodell) der entscheidende Schritt, d.h. wie man "richtig" und "falsch" definiert. Tatsächlich wird nicht direkt vom Benutzer entschieden, sondern von einem großen "Teacher Model" (Lehrermodell). Dieses Lehrermodell ist ebenfalls ein riesiges Modell mit Billionen von Parametern. Es lernt aus einer großen Menge von Benutzerdaten (z.B. welche Code-Vorschläge der Benutzer akzeptiert hat und wo er geändert hat), um vorherzusagen, welche Antwort der Benutzer akzeptieren wird. Dieses Lehrermodell ist das Ziel, das wir für die KI setzen, und seine Genauigkeit ist von entscheidender Bedeutung.

Natürlich gibt es hier das "Hacking Problem", d.h. das "Studentenmodell" versucht, mit kleinen Tricks das "Lehrermodell" zu täuschen, um eine hohe Punktzahl zu erhalten. Die Lösung besteht darin, auf dem "Lehrer" und dem "Studenten" die gleiche Rechenleistung zu verwenden, damit sie fair miteinander konkurrieren und gemeinsam evolvieren können.

III. Macaron AI: Schaffung eines "Personal Agent" mit Gedächtnis und Verständnis

Unser Produkt Macaron wurde am 15. August online gestellt. Bis jetzt haben die Benutzer auf ihm über 100.000 verschiedene Mini-Apps erstellt, die Reisen, Gesundheit, Haustiere, Stimmungsaufzeichnungen, Berufsplanung und vieles andere abdecken.

Wir haben die Technologie der "Era of Experience" auf zwei Gebieten angewendet:

1. Mini-App-Generierung: Bei der Generierung von Mini-Apps wie "Fotoerkennung von Kalorien" oder "Aufzeichnung von Hypothekendarlehen" durch die Benutzer verwenden wir das Reinforcement Learning, damit das Modell lernt, wie es eine stabile und nutzbare App generiert.

2. Gedächtnissystem: Dies ist ein weiterer Schwerpunkt unserer Anwendung des Reinforcement Learnings.

Die gängige Methode für das Gedächtnissystem heute basiert auf der Schlüsselwort-Suche (RAG), aber das ist eher wie das "Ausswendiglernen von Texten" als das "Verstehen und Anwenden". Wir sind der Meinung, dass das Gedächtnis ein Mittel und nicht das Ziel sein sollte. Das endgültige Ziel des Abrufs des Gedächtnisses ist es, die aktuellen Probleme der Benutzer besser zu lösen.

Deshalb haben wir die Zufriedenheit der Benutzer als Bewertungsmaßstab genommen und ein Reward Model mit Inferenzfähigkeit trainiert. Unser Gedächtnissystem ist keine externe Datenbank, sondern ein trainierbarer "Gedächtnisblock", der in das Modell integriert ist. Während des Gesprächs ändert sich dieser Block dynamisch in Abhängigkeit vom Kontext und den Benutzerrückmeldungen. Das Modell entscheidet selbst, was beibehalten und was geändert werden soll. Auf diese Weise wird das Gedächtnis ein Teil des großen Modells und kann durch das Reinforcement Learning trainiert werden. Die Wirkung ist weit besser als die herkömmliche RAG.

Bei diesem Prozess haben wir auch die von der Ant Group veröffentlichte Text Diffusion-Technologie (dInfer-Inferenzframework) verwendet. Sie kann gleichzeitig Texte mit tausenden von Wörtern generieren und unterstützt die direkte Änderung des mittleren Inhalts, und es ist extrem schnell. Wir glauben, dass diese Technologie in Zukunft ein enormes Potenzial für Produkte hat.

Wir sind der Meinung, dass gute Technologie ein bisher nie dagewesenes Produkt-Erlebnis schaffen kann, und das Produkt-Erlebnis wiederum als Umgebung Benutzerdaten sammelt, um das Modelltraining zu verbessern. Wenn das Modell stärker wird, kann es wiederum neue Erfahrungen schaffen. Dies ist das interessanteste, was eine moderne KI-Firma tun kann.

IV. Live-Frage-Antwort: Tiefgehende Diskussion über Produkt, Technologie und Zukunft

F1: Macaron unterstützt viele Szenarien, aber das scheint im Widerspruch zu der Eigenschaft des Reinforcement Learnings zu stehen, dass es in vertikalen Bereichen angewendet werden sollte. Wie wird das ausgeglichen?

Chen Kaijie: Tatsächlich funktioniert RL besser in vertikalen Szenarien. Aber die Definition von "vertikal" ist relativ. Für das Modell ist "Code schreiben" bereits ein vertikaler Bereich. Was wir tun, nämlich "Mini-Apps schreiben", ist eine Unterkategorie des Code-Schreibens, da wir feste Frontend- und Backend-Auswahlmöglichkeiten und UI-Interaktionsmethoden haben, und der Bereich ist noch kleiner.

Betrachtet man die Anwendungsfälle, so machen wir auch Reduzierungen. Macaron ist kein Arbeits-Agent. Es erstellt keine Präsentationen, Finanzberichte oder tiefgehende Studien. Wir möchten, dass es sich auf die "Lebensaufzeichnung und -planung" konzentriert. Ob es um Finanzplanung, Fitness oder Reiseplanung geht, der Kern ist die Aufzeichnung und Planung, und dahinter gibt es ein gewisses UI-Paradigma, das man befolgen kann. Wir beginnen mit einem eingeschränkten Bereich und vertiefen uns darin, und in Zukunft werden wir die Grenzen schrittweise erweitern, wenn die Technologie weiterentwickelt wird.

F2: Wie wird die Wirksamkeit des Benutzergedächtnisses gefiltert? Manchmal sind die Äußerungen der Benutzer willkürlich oder sogar widersprüchlich.

Chen Kaijie: Unser idealer Agent sollte in der Lage sein, selbst zu entscheiden, was beibehalten und was vergessen werden soll, wenn Sie nur mit ihm sprechen. Wenn Sie gestern noch Rindfleisch mochten und heute allerg

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gespräch mit Chen Kaijie: Sein dein persönlicher Agent und vor allem dein "Emotionsintelliger Agent" | NEXTA Innovationsgespräch