Ein chinesischer Wissenschaftler nach 1990 gründet ein Startup und präsentiert das weltweit erste große visuelles Gedächtnis-Modell mit unbegrenzter Kontextverarbeitung. Das Unternehmen hat bereits Investitionen von Samsung erhalten.
Nachrichten von Zhidongxi vom 25. Juli. Heute hat der ehemalige Meta-Mitarbeiter Shawn Shen (Shen Junxiao) auf dem sozialen Netzwerk X im Ausland angekündigt, dass Memories.ai, das er gemeinsam mit Enmin Zhou gegründet hat, offiziell sein erstes Large Visual Memory Model vorgestellt hat.
Shen Junxiao hat auch angekündigt, dass Memories.ai eine Anfangsinvestition von 8 Millionen US-Dollar (etwa 57,3 Millionen Yuan) in der Seed-Runde abgeschlossen hat. Die Führung des Investments übernahm Susa Ventures, gefolgt von Crane Venture Partners, Samsung Next, Fusion Fund und anderen Institutionen.
Interessierte Benutzer können sofort einen kostenlosen Monatstest nutzen, ohne zusätzliche Bedingungen.
Testadresse: https://memories.ai/app
Shen Junxiaos Ankündigungstweet (Quelle: X)
Diese Technologie zielt darauf ab, visuelles Gedächtnisrückverfolgen für multi-modale Large Language Models (LLMs) zu ermöglichen. Das Modell realisiert die Funktion der visuellen Gedächtnisabfrage, kann die Benutzerabsicht verstehen, relevante visuelle Gedächtnissegmente abfragen, assoziierte visuelle Gedächtnisinformationen integrieren und auf der Grundlage dieser Gedächtnisse und der Benutzerabfrage schließen.
Der Innovationspunkt liegt in einem intelligenten Entscheidungsmechanismus, der selbstständig entscheiden kann, wann, wie und welche visuellen Gedächtnisse abgerufen werden sollen. Nach der Integration der Gedächtnisinformationen kann das Modell Gedächtnisreferenzen generieren und die Benutzerfragen in einem korrekten Ausgabeformat beantworten. Dies ermöglicht es multi-modalen Large Models, unendlich lange visuelle Gedächtniskontexte zu verarbeiten.
Die beiden Mitgründer von Memories.ai sind Chinesen. Shen Junxiao hat in seinem Blog erwähnt, dass er im Alter von 14 Jahren nach Großbritannien gegangen ist, um dort Gymnasium zu besuchen.
01.
Zwei Chinesen gründen gemeinsam
War schon im Alter von 14 Jahren nach Großbritannien gereist, um dort zu studieren
Shen Junxiao, geboren 1999, absolvierte seine Mittelschule in Suzhou. Im Alter von 14 Jahren erhielt er ein Stipendium und ging nach Großbritannien, um dort Gymnasium zu besuchen. Seine LinkedIn-Profilseite zeigt, dass er sein Bachelor-, Master- und Doktoratstudium an der Universität Cambridge absolvierte. Im Jahr 2019 erhielt er einen Bachelor of Arts (BA) in Ingenieurwesen (Einige Universitäten wie die Universität Cambridge behalten die traditionelle BA-Auszeichnung bei, sodass auch Ingenieurwesen-Absolventen den BA-Titel erhalten). Im Jahr 2020 absolvierte er ein Masterstudium in Ingenieurwesen an der Trinity College Dublin und im Jahr 2023 einen Doktorgrad in Ingenieurwesen.
Während seines Bachelorstudiums absolvierte Shen Junxiao auch eine kurze Praktika bei Morgan Stanley in Shanghai. Während seines Doktoratsstudiums arbeitete er 2022 im Reality Labs von Meta als Forschungswissenschaftler. Im Jahr 2024 verließ er Meta und gründete gemeinsam Memories.ai.
Links: Shen Junxiao, Rechts: Enmin Zhou (Quelle: Memories.ai)
Enmin Zhou, Mitgründer und CTO von Memories.ai, absolvierte 2020 sein Bachelorstudium in Mathematik und Computervissenschaft an der University of California, Los Angeles (UCLA). Anschließend studierte er Data Science an der Brown University und absolvierte 2022 sein Masterstudium.
Während seines Bachelorstudiums absolvierte er auch eine kurze Praktika bei Shanghai Shencha Information Technology in Shanghai. Nach Abschluss seines Masterstudiums arbeitete er bei Meta als Machine Learning Engineer. Im Jahr 2024 verließ er Meta und gründete gemeinsam Memories.ai.
In seinem Blog schrieb Shen Junxiao, dass sie Meta verlassen und Memories.ai gegründet haben, weil sie erkannt haben, dass es dringend notwendig ist, das Problem des visuellen Gedächtnisses zu lösen.
02.
Fähigkeit zur Video-Frage-Antwort-Interaktion übertrifft Gemini 2.5 Pro,
OpenAI GPT 4o und GPT4.1
In Bezug auf die Leistung hat Memories.ai in der Null-Shot-Video-Klassifizierungs-Benchmark-Testung eine Verbesserung im Vergleich zum bisher besten Modell PE-G erzielt. In der HMD8-Datenbank stieg die Punktzahl um 7,6 Punkte, in der K400-Datenbank um 6,6 Punkte.
In der Video-Abfrage-Benchmark-Testung hat Memories.ai in allen Datensätzen die Punktzahl des bisher besten Modells Perception Encoder übertroffen und in allen Tests gewonnen. In der Text-zu-Video-Testung des AVN-Datensatzes hat es die Punktzahl des Perception Encoder um 11 Punkte verbessert.
In der Video-Frage-Antwort-Benchmark-Testung hat Memories.ai in den Datensätzen MVBench, NextQA und Temp Compass das OpenAI GPT 4o übertroffen; in den Datensätzen ActivityNetQA und Perception Text hat es das Google Gemini 2.5 Pro und das OpenAI GPT4.1 übertroffen und neue Leistungsebenen erreicht.
Die Vergleichsdaten, einschließlich der Modelle von OpenAI und Google, stammen aus den offiziellen Blogs von OpenAI und Google.
03.
Von dem menschlichen Gedächtnismechanismus inspiriert, wird ein initiales Gedächtnisarchitektur aufgebaut
In einem anderen technologischen Blog hat Shen Junxiao erklärt, dass die Entstehung von Memories.ai von dem menschlichen Gedächtnismechanismus inspiriert wurde. Das initiale Gedächtnisarchitektur des gesamten Large Visual Memory Models besteht aus:
Ein Abfragemodell, das Gedächtnisindizien in suchbare Anfragen umwandelt, ein Suchmodell für grobe Abfragen, ein Vollmodus-Indexmodell, ein Auswahlmodell für die Extraktion feiner Details, ein Reflektionsmodell für die Überwachung des Gedächtnisses und ein Rekonstruktionsmodell für die Neuaufbau des Gedächtnisses.
Der Gedächtnisabfrageprozess kann in die folgenden Schlüsselpunkte zerlegt werden:
1. Gedächtnisindizien: Auslösen des Erinnerungsprozesses
Das Erinnern beginnt normalerweise mit einem Indiz. Ein Indiz kann extern sein, wie eine Frage, ein altes Foto, eine Melodie, ein Geruch, ein Ortsname; oder intern, wie ein Gedanke, eine Emotion. Wenn das Gehirn ein Indiz empfängt, wird ein bestimmtes neuronales Netzwerk aktiviert, das mit dem Zielgedächtnis verbunden ist.
Im System wird ein Abfragemodell verwendet, um Indizien (hauptsächlich textbasierte Indizien) in konkrete, suchbare Inhalte umzuwandeln. Dies beinhaltet Schritte wie Textanalyse und Transkription, um die Indizien in ein Format zu bringen, das für die nachfolgende Verarbeitung geeignet ist.
2. Grobe Abfrage: Vorläufiges "Filtern"
Der Aktivierungsprozess ist nicht immer exakt. Die anfängliche Suche ist oft grob und verallgemeinert. Das Gehirn sucht schnell in einer riesigen Menge an Informationen nach Mustern, die am besten mit dem aktuellen Indiz übereinstimmen. Einige relevante visuelle Segmente können zunächst aktiviert werden. Dies wird als "indizabhängiges Erinnern" bezeichnet.
Im System wird ein Suchmodell für die grobe Abfrage verwendet. Für das im vorherigen Schritt analysierte Abfrageobjekt wählt das Suchmodell die geeignete Datenbank und Abfragemethode aus, erkennt alle relevanten Segmente, verringert die Auswirkungen des "indizabhängigen Erinnerns" und aktiviert alle relevanten visuellen Segmente.
3. Extraktion feiner Details: Tieferes "Lesen" und "Bearbeiten"
Nachdem das anfängliche Indiz die relevanten Bereiche aktiviert hat, tritt das Gehirn in eine feinere Verarbeitungsphase ein. Die Rekonstruktionsfähigkeit des Gedächtnisses beginnt sich zu zeigen:
Ergänzung von Details: Das Gehirn füllt die Details des Gedächtnisses auf. Diese Details können auf der Grundlage des Verständnisses der Welt, logischer Schlussfolgerungen und früherer Erfahrungen ergänzt werden.
Assoziation und Integration: Das Gehirn assoziiert und integriert verschiedene Informationssegmente (wie visuelle Bilder, auditive Segmente und emotionale Schwankungen), um ein vollständigeres Gedächtnisbild zu erstellen.
Filterung und Auswahl: Das Gehirn filtert die relevantesten und wichtigsten Segmente aus allen aktivierten Informationen heraus, basierend auf dem aktuellen Ziel und der aktuellen Frage. Dies ist ein hochgradig zielgerichteter Prozess.
Im System werden ein Vollmodus-Untertitelmodell und ein Auswahlmodell verwendet, um feine Details zu extrahieren. Für alle visuellen Segmente fügt das Vollmodus-Untertitelmodell in Verbindung mit den Gedächtnisindizien Untertitel zu den wichtigsten Kerninhalten hinzu. Das Auswahlmodell führt auf der Grundlage aller untertitelten Inhalte Schlussfolgerungen durch und filtert einige der relevantesten visuellen Segmente heraus, um den Suchbereich des Gedächtnisses zu verkleinern. Damit ist der Prozess der visuellen Gedächtnisabfrage im Wesentlichen abgeschlossen.
4. Überwachung des Gedächtnisses: "Selbstkorrektur" des Gedächtnisses
Während des Erinnerungsprozesses überwacht und verifiziert das Gehirn die abgerufenen Informationen, um ihre Genauigkeit und Wahrheitlichkeit zu bewerten. Dies beinhaltet den Vergleich mit bestehendem Wissen, Überzeugungen und anderen relevanten Gedächtnissen. Wenn die erinnerten Informationen mit bekannten Fakten im Widerspruch stehen, wird möglicherweise versucht, weiter zu erinnern oder zu korrigieren.
Im System wird ein Reflektionsmodell verwendet, um das Gedächtnis zu überprüfen und zu verifizieren. Wenn der abgerufene Gedächtnisinhalt mit den Fakten im Widerspruch steht oder inkonsistent ist, wird der Prozess der Extraktion feiner Details erneut gestartet.
5. Rekonstruktion des Gedächtnisses: Von Fragmenten zu einer "verfeinerten Version"
Beim Erinnern an komplexe Ereignisse neigt das Gehirn dazu, die Kernpunkte des Ereignisses, die Hauptakteure und die Schlüsselergebnisse zu extrahieren, unwichtige oder redundante Informationen zu filtern und das Ereignis in eine Form zu gliedern, die leichter zu speichern und abzurufen ist. Der Rekonstruktionsprozess beinhaltet auch die Integration von verstreuten Gedächtnisfragmenten in ein sinnvolles Muster und die Organisation in eine kohärente Erzählung oder ein Konzept.
Im System wird ein Rekonstruktionsmodell verwendet, um das Gedächtnis zu rekonstruieren. Auf der Grundlage der Gedächtnisindizien und aller derzeit abgerufenen Informationen erkennt das Modell Muster in den Informationen, füllt fehlende Details unter Verwendung von Weltwissen und logischen Schlussfolgerungen auf, filtert und verfeinert irrelevante oder redundante Informationen und integriert verstreute Wahrnehmungs-, Konzept- und Emotionsfragmente in eine kohärente, sinnvolle Erzählung oder ein Konzept.
04.
Fazit: Kann möglicherweise ein wichtiger Meilenstein in der Entwicklung der AGI werden
Shen Junxiao hat in seinem Blog gesagt: "Dies ist ein Schritt in der Entwicklung der allgemeinen künstlichen Intelligenz (AGI)."
Das Large Visual Memory Model, das Memories.ai dieses Mal vorgestellt hat, hat ein initiales Architektur aufgebaut, das sich an dem Gedächtnismechanismus des menschlichen Gehirns orientiert. Seine Fähigkeit zur visuellen Gedächtnisabfrage, Integration und Schlussfolgerung hat in Benchmark-Testungen wie Video-Klassifizierung, -Abfrage und -Frage-Antwort-Interaktion gewisse Leistungsvorteile gezeigt.
Die Fertigstellung der 8-Millionen-US-Dollar-Saatfinanzierung (etwa 57,3 Millionen Yuan) zeigt auch, dass die Investmentinstitutionen an diesem technologischen Bereich interessiert sind.