Stream-Intention Detection + Permanentes Gedächtnis: NUS & NTU veröffentlichen Pask

Das Team der Nanjing University of Science and Technology hat den Pask-Aktiven Agenten vorgeschlagen, um die Echtzeit-Intentionenerkennung und die Gedächtnisentwicklung zu realisieren.

【Einführung】Es ist die Vorstellung von AGI in unserem Kopf, dass KI wie ein Assistent proaktiv hilft. Der Begriff des proaktiven Agenten wurde bereits mehrfach aufgestellt, doch es ist schwierig, ihn tatsächlich im Alltag umzusetzen. Die bestehenden Arbeiten bleiben auf der Konzeptebene und können die Anforderungen an Echtzeitfähigkeit, Tiefe und Gedächtnis in der komplexen Welt nicht erfüllen. Das Team von Xie Zhifei der Nanyang Technological University hat Pask entwickelt, das mit der Architektur von 「unterem kleinen Modell für die strömungsbasierte Intentionenerkennung」 + 「oberem Agenten-Execution」 den ersten proaktiven Agenten realisiert, der Echtzeitfähigkeit, Tiefe und Selbstentwicklung basierend auf persönlichem globalem Gedächtnis aufweist.

Während einer Besprechung, als die Frage aufkam: 「Könnte man die Kontextinformationen von Pask mit Obsidian oder Feishu verbinden? Es wird schwierig, wenn es isoliert bleibt.」, dachte Pask drei Sekunden nach und gab die folgende Idee:

「Wenn Sie alle Benutzergedächtnisse in Ihr eigenes System einbinden, schaffen Sie im Grunde eine neue Dateninsel. Dies ist zwar kurzfristig besser kontrollierbar, aber langfristig ergeben sich zwei Probleme: Erstens ist es nicht kompatibel mit den Tools, die die Benutzer bereits nutzen. Zweitens ist der Migrationsaufwand für die Benutzer zu hoch, und die Ökosystem-Schranke wird niedrig sein. Eine bessere Positionierung besteht nicht darin, ein eigenes Gedächtnisystem aufzubauen, sondern darin, als persönlicher Kontext-Eingangspunkt und proaktive AI-Orchestrierungsebene im Ökosystem zu fungieren. Das heißt, die Kenntnisse und Handlungen der Benutzer bleiben weiterhin im ursprünglichen System, und Sie sind für das Verstehen, die Indizierung, die Auslösung, die Koordination und die Ausführung verantwortlich. Die beste Position für Pask ist: der einheitliche Eingangspunkt, der den Menschen am besten versteht, und die proaktive Agentenschicht, die zwischen verschiedenen Ökosystemen agieren kann.」

Die ideale KI, die der Mensch wirklich erwartet, muss die Fähigkeit zur Proaktivität besitzen.

Diese Proaktivität ist nicht die 「Autonomie」 von Produkten wie OpenClaw, noch ist es die KI, die Ihnen nach der Besprechung eine E-Mail schreibt. Sie muss den Menschen tiefgehend verstehen, seine Absichten erraten und ihm zur richtigen Zeit wichtige Hilfe leisten können, wie ein super externer Gehirn-Support.

Es wird nicht wie ein Werkzeug aufgerufen, sondern muss Sie umgeben und Sie das Gefühl geben, 「proaktiv betreut und äußerst wertvoll unterstützt」 zu werden.

Anscheinend scheint es sich bei diesem Problem um das Agenten-Mechanismus zu handeln, aber wenn man tatsächlich beginnt, wird man feststellen, dass es viel schwieriger ist, als man gedacht hat:

Zu geringe Genauigkeit: Die zerstreuten Nachrichten sehen wie Spam aus, und es ist äußerst schwierig, tiefe Echtzeit-Hilfe zu geben.

Schlechte Echtzeitfähigkeit: Es dauert 3 - 4 Sekunden, um die Bedürfnisse des Menschen abzuleiten, während die maximale Verzögerung, die der Mensch tolerieren kann, nur zwei Sekunden beträgt.

Tiefgehendes Verständnis des Menschen bei Massen an Gedächtnisinformationen: Die proaktive KI erhält täglich Massen an neuen Token. Es ist unmöglich, jedes Mal nachzuschlagen. Wie kann man sicherstellen, dass das System die richtige Gedächtnisumgebung autonom wechseln kann und am wichtigsten, den Besitzer wirklich verstehen kann?

Nach der Untersuchung zahlreicher verwandter Artikel und Produkte haben die Forscher der Nanyang Technological University festgestellt, dass die meisten früheren Arbeiten diese Schlüsselprobleme, insbesondere die Echtzeitfähigkeit, vermieden haben.

Deshalb haben die Forscher beschlossen, eine eigene Methode zu entwickeln und den Paradigma PASK von 「Bedürfniserkennung - Gedächtnis - proaktiver Agent」 vorgeschlagen, der ein neues Problem-Lösungs-Paradigma, das IntentFlow-Modell für die strömungsbasierte Intentionenerkennung, das selbstentwickelnde Gedächtnis-Modul und die Architektur des proaktiven Agenten umfasst.

Link zur Studie: https://arxiv.org/abs/2604.08000

Bedürfniserkennung, Langzeitgedächtnis, Paradigma des proaktiven Agenten

Zunächst muss festgestellt werden: Welche 「Komponenten」 benötigt eine proaktive KI?

Die Forscher haben ein allgemeines Paradigma vorgeschlagen, um passive Modelle in proaktive Intelligenz umzuwandeln, das aus drei interagierenden Modulen besteht: Bedürfniserkennung (DD), Langzeitgedächtnis (MM) und Proaktives System (PAS).

Bedürfniserkennung (Demand Detection, DD) ist der erste und am wichtigsten Schritt. Sie hört und sieht mit dem Menschen und erkennt in Echtzeit die aktuellen Bedürfnisse - zum Beispiel 「Er braucht jetzt die Bedeutung dieses Wortes」 oder 「Er könnte sich fragen, ob der andere die Wahrheit sagt」.

Langzeitgedächtnis (MM) ist für den individuellen Teil des Systems verantwortlich. Es wächst und entwickelt sich kontinuierlich mit dem Benutzer und dient als 「langfristiger Kontext」.

Proaktives System (PAS) ist die untere Ausführungslogik des gesamten Agenten. Es läuft im Kreis und treibt die ersten beiden Komponenten an, zusammenzuarbeiten.

IntentFlow: Strömungsbasiertes Modell zur Intentionenerkennung

Eine überproaktive KI führt zu Informationsspam.

Eine gute proaktive KI muss eine genaue Balance zwischen Echtzeitfähigkeit, Genauigkeit und Auslösungsfrequenz herstellen. Leider widersprechen die drei Eigenschaften Genauigkeit, Gedächtnisabfrage und Echtzeitantwort einander von Natur aus.

Die größere Herausforderung besteht darin, dass dies nicht auf die herkömmliche Agenten-Methode durchgeführt werden kann. Wenn der gesamte Prozess in 2 Sekunden abgeschlossen werden muss, bleibt für die Intentionenerkennung maximal 1 Sekunde, was nicht einmal für einen API-Aufruf ausreicht.

Die Intentionseinferenz und die Gedächtnisabfrage dauern mindestens 10 Sekunden.

Proaktive KI kann nicht einfach durch den Agenten-Mechanismus realisiert werden. Die Forscher haben von den end-to-end strömungsbasierten Modellen für Sprache und Video Inspiration bezogen und den Implementierungsweg von 「Modell + Agenten」 gewählt. Sie haben ein neues Modell zur Intentionenerkennung trainiert, das in Echtzeit auf 「Textströmen」 läuft, und IntentFlow entwickelt, das textuelle multimodale Informationsströme und Benutzergedächtnis empfängt und autonom entscheidet, was der Mensch gerade braucht.

Was das konkrete Ergebnis ist, interessiert IntentFlow nicht. IntentFlow kümmert sich nur darum, was der Mensch braucht.

IntentFlow ist eher wie eine Brücke: Auf der einen Seite ist der Informationsstrom, dem der Benutzer ausgesetzt ist, auf der anderen Seite ist die neueste und stärkste KI der Welt. Es ist nur dafür verantwortlich, zur richtigen Zeit als neuer Eingangspunkt für die KI zu fungieren.

MeMory: Mehrschichtiges selbstentwickelndes Gedächtnissystem

Das Gedächtnissystem ist der Kern der gemeinsamen Entwicklung von proaktiver KI und Mensch, und das Gedächtnis der proaktiven KI hat eine zusätzliche Anforderung: Echtzeitfähigkeit.

In Pask haben die Forscher sich an der Cache-Speicher-Speicherarchitektur des Computers orientiert und ein dreischichtiges Gedächtnissystem entworfen:

Benutzergedächtnis (ähnlich Cache): Die KI muss jederzeit wissen, wer der Benutzer ist und welche Vorlieben er hat.
Workspace-Gedächtnis (ähnlich Arbeitsspeicher): Es ist für alle Kontextinformationen innerhalb des aktuellen Ereignisses verantwortlich.
Globales Gedächtnis (ähnlich externem Speicher): Ereignisse in der Realität sind oft eine Serie. Das globale Gedächtnis übernimmt die Rolle des 「Superkontexts」 und speichert Informationen über Ereignisse dauerhaft.

PAS: Strömungsbasiertes System der proaktiven KI auf unterer Ebene

Wie kann die proaktive KI in der komplexen realen Umgebung stabil funktionieren?

Das untere System ist ziemlich komplex: Jede Anforderung erfordert einen unabhängigen Prozess, alle Umgebungsvariablen müssen kontinuierlich verwaltet werden. Im gesamten System gibt es einen großen DD-MM-Kreis und unzählige kleine innere Kreise.

Das untere System ist in drei Schichten unterteilt:

Frontend: Es ist für die Eingabe und Ausgabe des Informationsstroms verantwortlich.
Server-Backend: Es ist für die Ausführung mehrerer Prozesse, die Zykluskontrolle und die Datenablageschätzung verantwortlich.
KI-Backend: Es ist für die Verbindung mit externen Modellen verantwortlich und bietet aufrufbaren Such-, Werkzeug- und Codeausführungsumgebung.

Experimentelle Ergebnisse

Pask wurde in zehn Arten von Aufgaben in den drei Bereichen Lernen, Arbeit und Alltag getestet, und die Ergebnisse waren vergleichbar mit denen von geschlossenen Modellen mit Denkketten.

In Bezug auf die Verzögerung braucht IntentFlow nur 1,5 Sekunden, um eine vollständige Intentionenerkennung in Verbindung mit dem persönlichen, beruflichen und globalen Gedächtnis des Menschen durchzuführen, während andere offene und geschlossene Modelle im Allgemeinen 3 - 10 Sekunden benötigen, um die potenziellen Bedürfnisse des Menschen abzuleiten.

In dem Bericht haben die Forscher detaillierte Experimente mit proaktiver KI durchgeführt und 12 Erkenntnisse zusammengefasst.

Die Erforschung der proaktiven KI hat erst begonnen

Die KI hat bereits einen langen Weg in Richtung Intelligenz zurückgelegt, aber das Verständnis des Menschen durch die KI hat erst begonnen.

In der realen Welt gibt es keine einheitliche Antwort, nur komplexe Szenarien, Rollen und Aufgaben. Jede Branche hat ihre eigenen Arbeitsabläufe, Bewertungsmethoden und impliziten Regeln. Dieselbe Aussage kann bei verschiedenen Menschen völlig unterschiedliche Bedürfnisse hinter sich haben.

Die zentrale Herausforderung der proaktiven KI ist die Daten.

Echte Intentionendaten existieren fast nicht. Nicht weil es an manuellen Annotationen mangelt, sondern logisch gesehen ist die Annotation nicht immer möglich.

Die proaktive KI folgt nicht mehr der Logik von 「Ich weiß, was ich nicht weiß」, sondern von 「Ich weiß nicht, was ich nicht weiß」, denn die sogenannten tieferen und wertvolleren Informationen liegen oft außerhalb der momentanen Kognition des Benutzers.

Oft weiß der Mensch nicht wirklich, was er will, geschweige denn, was er als Nächstes braucht. Der Beweis dafür, dass die KI die Absicht richtig erraten hat, ist nicht, ob eine Frage und Antwort übereinstimmen, sondern ob der Benutzer sofort das Gefühl hat, 「Das ist es」, nachdem die KI geholfen hat.

Das untere strömungsbasierte Intentionmodell + die ob