Während alle KI die Welt verstehen, versteht dieses Unternehmen dich - Einzigartige KI-Lösung für persönliche Verständnis

Auf die Speicherschicht von KI setzen.

Ende Mai hat ein Unternehmen namens Clipto.AI ein Endgeräteprodukt vorgestellt, das die globale Spitze von Product Hunt erreicht hat.

Es ist ein multimodales Suchtool. Benutzer können einfach einen natürlichen Sprachsatz eingeben und in einigen Terabyte Videos, Audiodateien, Bildern und Dokumenten schnell den benötigten Inhalt finden.

Allerdings will Clipto nicht nur das Problem der Suche lösen.

In den letzten Jahren hat das Large Language Model ständig seine Generierungsfähigkeit verbessert. Künstliche Intelligenz kann Code schreiben, Zeichnungen anfertigen und Videos erstellen. Die Effizienz der Inhaltserstellung wurde auf ein bisher nie dagewesenes Niveau gebracht. Gleichzeitig wird jedoch ein anderes Problem immer deutlicher: Menschen schaffen und speichern immer mehr Daten, die aber immer schwieriger wieder genutzt werden können.

Am Computer häufen sich Meeting-Aufnahmen, Livestream-Aufzeichnungen, Podcast-Interviews, Interviewmaterialien, Projektunterlagen und Screenshots. Für Wissensarbeiter wie Journalisten, Autoren, Anwälte und Forscher ist es oft nicht die Erstellung von Inhalten, die die Zeit in Anspruch nimmt, sondern die Suche nach Inhalten in der riesigen Menge an Material.

Nach Ansicht von Kang Hongwen, dem Gründer von Clipto, liegt hier nicht ein Suchproblem vor, sondern die Künstliche Intelligenz fehlt eine Schicht an kritischer Infrastruktur. Er nennt diese Infrastruktur Memory Layer (Gedächtnisschicht).

Die Künstliche Intelligenz hat ständig Weltmodelle aufgebaut, fehlt aber das Benutzer-Modell; Agenten werden immer klüger, können aber aufgrund des fehlenden Gedächtnisses den Benutzer nie wirklich verstehen.

Von der Forschung zur Videoverstehen bis zum AIGC-Startup und schließlich zur Investition in die AI-Gedächtnisschicht – Kang Hongwens Erfahrungen in den letzten zwanzig Jahren entsprechen in gewisser Weise einer versteckten Hauptlinie der Entwicklung der Künstlichen Intelligenz: von der Verstehen von Inhalten über die Generierung von Inhalten bis zur Organisation von Inhalten.

01 Vom Suchtool zur Gedächtnisschicht:

Welches Problem will Clipto lösen?

Nach Kang Hongwens Definition ist Clipto nicht einfach ein multimodales Suchtool, sondern eine "Gedächtnisschicht", die persönliche Daten mit der Agent-Ökosystem verbindet.

"In den letzten zehn Jahren hat die Künstliche Intelligenz ständig Weltmodelle aufgebaut, fehlt aber das Benutzer-Modell. Jede Personens Daten liegen verteilt auf ihren Geräten und wurden noch nicht in persönlichen Kontext umgewandelt, den die Künstliche Intelligenz kontinuierlich verstehen und aufrufen kann." So resümiert er die Lücke in der Branche. "Ohne Langzeitgedächtnis kann kein Agent, wie klug er auch sein mag, den Benutzer wirklich verstehen. Die Suche ist nur der Anfang. Das endgültige Ziel von Clipto ist es, die fehlende Gedächtnisschicht für die Ära der Künstlichen Intelligenz zu schaffen."

Die Lösung, die Clipto bietet, ist eine Logik zur Erstellung eines multimodalen Gedächtnisses, die vollständig auf dem lokalen Gerät läuft: Nachdem der Benutzer multimodale Daten wie Videos, Audiodateien, Bilder und Dokumente auf seinem lokalen Gerät importiert hat, wird das System dank der integrierten Künstlichen Intelligenz auf dem Gerät und einem eigenentwickelten multimodalen Large Language Model auf dem Endgerät alle Dateien verstehen, strukturierte Analysen durchführen und Vektorisierung durchführen. Schließlich wird ein persönliches Gedächtnissystem mit einem kognitiven Graphen und zeitlicher und räumlicher Übereinstimmung aufgebaut.

In der Praxis braucht der Benutzer nur seinen Bedarf in natürlicher Sprache zu beschreiben. Das Large Language Model auf dem Endgerät wird zunächst die Absicht und den Kontext der Abfrage vollständig verstehen und dann durch den lokalen Such-Agenten in wenigen Sekunden die genaue Positionierung durchführen - sei es ein bestimmter Personen, eine Szene, ein Dialog oder ein vollständiger Ereignisabschnitt, alle können direkt auf die entsprechende Datei und den Zeitpunkt treffen.

Nicht nur die Suche und Rückruf, Clipto hat tatsächlich die fehlende Gedächtnisverbindung zwischen dem unteren Large Language Model und dem oberen Agenten geschaffen. Auf der Grundlage von Terabyte an privaten Daten kann der Benutzer Fragen in Form eines Dialogs stellen und die Künstliche Intelligenz beantworten lassen, alle Fragen im Zusammenhang mit dem lokalen Gedächtnis, oder automatisch Zusammenfassungen, Zusammenhänge und Inhaltsstrukturen auf der Grundlage der vorhandenen Inhalte generieren.

Und alle diese Berechnungen und Verarbeitungen bleiben während des gesamten Prozesses auf dem lokalen Gerät des Benutzers. Dies spart einerseits die hohen Token-Kosten, die durch das Hochladen von riesigen Datenmengen und den Aufruf von Cloud-Modellen entstehen; andererseits ist es für Arbeitsmaterialien, die Geschäftsgeheimnisse oder sensible Informationen enthalten, sowie für besondere Szenarien wie mobile Arbeit und Netzausfälle, dass die Daten nicht das Gerät verlassen, eine starre Sicherheits- und Verfügbarkeitsgrenze.

Kang Hongwen ist der Ansicht, dass die Software in der Vergangenheit eher das Problem der "Speicherung" gelöst hat, aber den Inhalt nicht wirklich verstanden hat. Der Kern von Clipto besteht darin, lokale multimodale Modelle zu nutzen, um Videos, Audiodateien, Bilder und Dokumente in eine Datenstruktur umzuwandeln, die die Künstliche Intelligenz verstehen kann, so dass Benutzer von der "Suche nach Dateien" zur "Suche nach Gedächtnis" übergehen können.

Nach seiner Ansicht ist die Suche nur der erste Schritt. Wichtiger ist es, ein System aufzubauen, das den persönlichen Kontext kontinuierlich akkumulieren kann. In den letzten zehn Jahren hat die Künstliche Intelligenz ein Wissensbank über die Welt aufgebaut; in Zukunft muss die Künstliche Intelligenz das persönliche Wissen und die Erfahrungen jedes Benutzers besser verstehen.

02 Zwanzig Jahre: Von der Videoverstehen zur Videogenerierung

Nach seiner Laufbahn hat Kang Hongwen fast alle wichtigen Phasen der Entwicklung der Künstlichen Intelligenz von der Forschung zur Industrialisierung in den letzten zwanzig Jahren mitgemacht und miterlebt.

Im Jahr 2004 absolvierte er ein Praktikum am Microsoft Research Asia. Damals war es noch viele Jahre bis zur Deep Learning-Welle, und die Künstliche Intelligenz war in der Regel noch ein Forschungsthema im Labor.

Eines der Projekte, an denen er beteiligt war, war die automatische Analyse einer großen Anzahl von Familienbildern und -videos, die von Xbox-Benutzern aufgenommen wurden, und die automatische Extraktion von Schlüsselabschnitten aus mehreren Stunden an Material, um schließlich ein Familienvideo zu erstellen.

Heute klingt das vielleicht banal. Aber damals war dies fast das Kernproblem der Computer Vision.

Weil die Maschine den Inhalt zuerst verstehen muss, bevor sie Inhalte generieren kann. Sie muss wissen, wer aufgetreten ist, was passiert ist, welche Bilder wichtig sind und welche ignoriert werden können.

Später absolvierte Kang Hongwen einen Doktorandenstudium an der Carnegie Mellon University und war Schüler des legendären Wissenschaftlers Takeo Kanade in der Computer Vision-Branche.

Dort forschte er weiter an der Bild- und Videoverstehen, um zu ermöglichen, dass Roboter die reale Welt verstehen können, indem sie kontinuierlich visuelle Erfahrungen sammeln.

In den Augen vieler Menschen ist ein Video eine Reihe von Bildern. Aber ein Video ist im Wesentlichen eine komplexe Informationsstruktur über Zeit, Personen, Ereignisse und Beziehungen. Das Verstehen von Videos bedeutet im Wesentlichen das Verstehen der realen Welt.

Im Jahr 2017 gründete Kang Hongwen Huichuan Intelligence und führte später die Text-zu-Video-Plattform Zhiying ein. Zu diesem Zeitpunkt begannen das Mobile Internet und die Kurzvideo-Branche mit einem raschen Wachstum, und eine große Anzahl von Inhaltserstellern trat auf den Markt ein.

Ein neues Problem trat auf. Früher war das Problem, dass die Maschine den Inhalt nicht verstehen konnte. Jetzt ist das Problem, dass die Effizienz der Inhaltserstellung zu niedrig ist.

Also begann Kang Hongwen, den Schwerpunkt seiner Technologie von der Verstehen zur Generierung zu verlagern. Text-zu-Video, intelligentes Schneiden, digitale Personen... all diese Richtungen, die später zu beliebten AIGC-Strassenbahnen wurden, waren bereits in den Produktentwicklungen von Zhiying enthalten.

Ende 2020 wurde Zhiying von Tencent übernommen. Kang Hongwen trat Tencent bei und übernahm die Leitung des Tencent Zhiying-Teams, um die Entwicklung von Full-Stack-AIGC-Produkten wie Text-zu-Bild, Text-zu-Video und digitale Personen weiter voranzutreiben.

Wenn er nach der Logik der Branche weiterentwickelt hätte, hätte er ganz gut auch weiterhin in die generative Künstliche Intelligenz investieren können. Aber was ihn zu neuen Überlegungen brachte, war genau der Ausbruch der Generierungsfähigkeit.

Je einfacher die Generierung wird, desto deutlicher wird ein neues Problem. Es gibt immer mehr Inhalte, und Menschen haben riesige Mengen an Videos, Audiodateien und Dokumenten. Der neue Engpass ist die Verwaltung. Die Künstliche Intelligenz hat das Problem der Inhaltserstellung gelöst, aber nicht das Problem des Verstehens persönlicher Inhalte. Je mehr Informationen aufgezeichnet werden, desto schwieriger ist es für Menschen, die Informationen zu finden, die sie brauchen.

Dies ließ ihn erkennen, dass die Branche vielleicht ein noch grundlegendes Problem übersehen hat.

Vor der Generierung muss man verstehen. Nach dem Verstehen muss man auch noch erinnern. Und der nächste Schritt der Künstlichen Intelligenz könnte genau das Gedächtnis sein.

03 Der nächste Wettbewerb in der Künstlichen Intelligenz,

warum wird es das Gedächtnis sein?

Nach Ansicht von Kang Hongwen muss ein Problem noch gelöst werden, bevor Agenten wirklich reif werden - das Gedächtnis.

Die heutigen Large Language Model sind schon klug genug. Sie können Code schreiben, Analysen durchführen, Berichte generieren und sogar Teile des Arbeitsablaufs für den Benutzer erledigen. Aber unabhängig von der Stärke des Modells besteht immer ein natürlicher Mangel - es kennt den Benutzer nicht.

Jedes Mal, wenn man ein neues KI-Produkt öffnet, ist es wie, mit einer Person, die ihr Gedächtnis verloren hat, neu bekannt zu werden. Man muss sich neu vorstellen, was man macht und was man in der Vergangenheit getan hat. Und sobald das Gespräch endet, verschwindet dieser Kontext wieder.

Nach Ansicht von Kang Hongwen fehlt der gesamten KI-Infrastruktur eine kritische Fähigkeit - das Benutzer-Modell.

Die heutigen Large Language Model haben fast alle öffentlichen Wissen im Internet, können aber keine konkrete Person wirklich verstehen. Denn die Daten über diese Person befinden sich nicht im Internet. Sie sind verteilt auf Computern, Mobiltelefonen, NAS, Cloud-Speichern, Kameras, Meetingprotokollen und verschiedenen lokalen Geräten.

Für die Künstliche Intelligenz sind diese Informationen fast unsichtbar. Und wenn Agenten in großem Maßstab verbreitet werden, wird dieses Problem noch deutlicher.

Heute diskutiert man Agenten eher in Bezug auf die Aufgaben, die sie dem Benutzer helfen können. Aber wenn es in Zukunft tatsächlich Millionen oder sogar Milliarden von Agenten gibt, wird ein neues Problem auftauchen: Wie können diese Agenten den Benutzer verstehen? Wie wissen sie, was der Benutzer in der Vergangenheit getan hat? Und wie können sie denselben persönlichen Kontext teilen?

Kang Hongwen ist der Ansicht, dass es nicht möglich ist, dass jeder Agent ein neues Benutzer-Gedächtnis aufbaut. Dies ist weder realistisch noch notwendig. Ein sinnvollerer Ansatz wäre, dass es eine unabhängige Gedächtnisschicht gibt.

Living Memory Graph

Agenten sind für die Ausführung von Aufgaben verantwortlich, die Gedächtnisschicht ist für die Verwaltung des Benutzer-Gedächtnisses verantwortlich. Alle Agenten können auf der Grundlage dieses einheitlichen Gedächtnissystems den Benutzer verstehen.

Dies ähnelt etwas dem Betriebssystem in der Ära des Internets. Es gibt immer mehr Anwendungen, aber es gibt nur ein Dateisystem auf der unteren Ebene.

Die heutige Agent-Ökosystem benötigt vielleicht auch ein ähnliches Gedächtnissystem als öffentliche Infrastruktur. Dies ist auch die Rolle, die Clipto spielen möchte.

Nach Kang Hongwens Einschätzung wird die zukünftige KI-Architektur wahrscheinlich aus zwei Schichten von Infrastruktur bestehen: eine Intelligenzschicht, die für das Verstehen der Welt verantwortlich ist, und eine Gedächtnisschicht, die für die Abscheidung des persönlichen Wissens, Kontexts und Langzeitgedächtnisses des Benutzers verantwortlich ist. Die erste Schicht wird hauptsächlich von Cloud-Large Language Model mit Weltwissen versorgt, die zweite Schicht basiert auf den kontinuierlich generierten persönlichen Daten des Benutzers.

Beide bilden zusammen eine echte Personal AI. Deshalb ist er der Ansicht, dass nicht alle KI-Fähigkeiten schließlich in die Cloud migrieren werden.

In den letzten Jahren hat sich die gesamte Branche fast ausschließlich um den Markt für Cloud-Large Language Model gekämpft. OpenAI, Google, Anthropic und die chinesischen Large Language Model-Unternehmen haben sich immer um die Modellfähigkeiten gerungen.

Allerdings tritt auch eine andere Tendenz auf. Die Apple M-Serie von Chips verbessert ständig die Rechenleistung für neuronale Netzwerke, NVIDIA beginnt mit der Förderung von AI-PCs, und Microsoft hat Copilot + PC eingeführt. Immer mehr Rechenleistung kehrt auf die Benutzergeräte zurück.

Die Rechenstruktur der Künstlichen Intelligenz ändert sich. In der Vergangenheit liefen die meisten KI-Fähigkeiten in der Cloud; in Zukunft werden, da persönliche Daten immer wichtiger werden, immer mehr Gedächtnisbezogene Fähigkeiten auf den Benutzergeräten laufen, während die Inferenz und das Weltwissen weiterhin von Cloud-Large Language Model profitieren werden.

Weil die wichtigsten Daten des Benutzers ohnehin lokal gespeichert sind. Interviewprotokolle, Vertragsdokumente, Finanzdaten, Erstellungsmaterialien, Familienbilder - diese Inhalte eignen sich weder für das häufige Hochladen in die Cloud noch können sie vollständig von der Cloud verarbeitet werden.

Wichtiger noch ist, dass das Datenvolumen selbst schnell ansteigt. Für Film- und Fernsehproduktionsteams kann ein Projekt mehrere zehn Terabyte oder sogar über hundert Terabyte an Videomaterial erzeugen. Auch für Medieninstitutionen entstehen in wenigen Jahren riesige Inhaltsbestände.

In diesem Fall ist die Cloud nicht unbedingt die beste Lösung. Lokale Verstehen, lokale Indizierung und lokale Inferenz gewinnen zunehmend an Bedeutung.

Allerdings ist Kang Hongwen der Ansicht, dass die Zukunft nicht der "reinen lokalen KI" gehört. Er betont, dass die Gedächtnisschicht am Ende immer noch ein System sein wird, das Cloud und lokale Geräte koordiniert.

Weil das Gedächtnis nicht einfach die Speicherung ist. Wichtig ist die Organisation, die Verknüpfung und der Zugriff. Die Daten des Benutzers können auf verschiedenen Geräten und Plattformen verteilt sein.

Am Computer gibt es Dateien, auf dem Mobiltelefon gibt es Bilder und Videos, und im

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Während alle KI die Welt versteht, versteht dieses Unternehmen dich.

01

Vom Suchtool zur Gedächtnisschicht:

Welches Problem will Clipto lösen?

02

Zwanzig Jahre: Von der Videoverstehen zur Videogenerierung

03

Der nächste Wettbewerb in der Künstlichen Intelligenz,

warum wird es das Gedächtnis sein?