Kann der AI-Agent wirklich daran erinnern, was er gesehen hat? MemEye hat eine "visuelle Untersuchung" für multimodale Langzeitgedächtnisse durchgeführt.
In den letzten 12 Monaten hat sich der Vorstellungsraum für AI-Agenten stetig erweitert: Sie können uns bei der Organisation von Informationen, beim Schreiben von Code, beim Surfen im Internet und der Bedienung von Computern helfen und nehmen zunehmend visuelle Informationen wie Bilder, Screenshots, Fotos und Videoframes auf. Ein naheliegender nächster Schritt wäre: Wenn ein Agent heute die Layoutung meines Zimmers, mein Gesundheitsdashboard, Screenshots eines Kartenspiels, Logos von Produkten und Fotos von Routen sieht, kann er das morgen noch behalten?
Diese Frage klingt einfach, aber wenn man sie in den Kontext des multimodalen Langzeitgedächtnisses (multimodal long-term memory) setzt, ist sie nicht so einfach. Denn „gesehen haben“ heißt nicht automatisch „behalten haben“, und „behalten haben“ heißt auch nicht, dass man die Informationen später nutzen kann“.
Viele Systeme scheinen ein multimodales Gedächtnis zu haben, aber in Wirklichkeit wandeln sie Bilder zunächst in eine Textbeschreibung, also einen Caption, um und speichern diesen Caption dann wie normale Texte in der Gedächtnisbank. Das ist zwar effizient und kostengünstig, aber das Problem ist: Wenn ein Bild in Text komprimiert wird, gehen viele Details für immer verloren.
Publikation: https://arxiv.org/abs/2605.15128
Datenmenge: https://huggingface.co/datasets/MemEyeBench/MemEye
Code: https://github.com/MinghoKwok/MemEye
MemEye in einem Satz zusammengefasst
MemEye ist ein visuelles Evaluierungsframework (visual-centric evaluation framework) für das Langzeitgedächtnis multimodaler Agenten. Es möchte nicht die Frage beantworten, ob ein Modell ein Bild verstehen kann, sondern:
Wenn visuelle Informationen über viele Dialoge und Sitzungen verteilt sind, kann der Agent die wichtigen visuellen Beweise behalten und die momentan gültigen Informationen auswählen, wenn sich der Zustand ständig ändert?
Dies ist auch der Unterschied zwischen MemEye und vielen bestehenden Benchmarks: Es testet nicht einfach nur, ob ein Modell mehr Bilder verarbeiten kann, sondern speziell die Probleme des visuellen Gedächtnisses, die nicht nur mit Text, Caption oder semantischer Suche gelöst werden können.
Warum brauchen wir eine neue Evaluierung? Weil Caption-Hacks zu einfach sind
In vielen multimodalen Gedächtnisaufgaben kann die Antwort auf eine Frage, die ein Bild enthält, bereits durch den Dialogtext, die Optionen oder einen groben Caption preisgegeben werden. So scheint das Modell, das Bild zu „behalten“, aber es behält eigentlich nur den Text.
Nehmen wir ein einfaches Beispiel: Wenn die Frage lautet, ob das letzte Foto, das der Benutzer hochgeladen hat, ein Foto der Küche oder des Schlafzimmers ist, reicht es, wenn der Caption sagt: „Dies ist ein Foto der Küche.“ Das Modell muss das Bild nicht wirklich behalten.
Aber in der Realität ist es oft nicht so einfach. Der Benutzer könnte fragen:
- „Welches der drei Materialproben neben dem Boden war dasselbe wie das, das später an der Schranktür platziert wurde?“
- „Hat sich die Zeit, zu der die Blutglukosekurve im Gesundheitsdashboard ihren höchsten Punkt erreichte, später geändert?“
- „Wie viele rote Karten hatte Spieler 3, nachdem Spieler 2 zum ersten Mal von 4 auf 5 Karten wechselte?“
- „Welches der Etiketten auf der Vitrine ist jetzt gültig, nachdem die alten ersetzt wurden?“
Diese Fragen erfordern detailliertere visuelle Beweise: lokale Bereiche, ähnliche Instanzen, kleine Schrift, Farben, Anzahl, Positionsverhältnisse und Zustandsänderungen über die Zeit. Ein normaler Caption beschreibt möglicherweise nur, dass es „einige Proben“ oder „ein Dashboard“ gibt, aber er speichert nicht alle Details, die möglicherweise später gefragt werden.
Deshalb ist die erste zentrale Einsicht von MemEye: Wenn ein Benchmark einfach durch Caption umgangen werden kann, ist es schwierig zu beweisen, dass der Agent wirklich ein visuelles Gedächtnis hat.
Wie ist MemEye gestaltet? Zwei Achsen, um die Probleme zu klären
Die wichtigste Gestaltung von MemEye ist ein zweidimensionales Koordinatensystem. Es zerlegt die Frage, warum das visuelle Gedächtnis schwierig ist, in zwei Richtungen:
Schauen wir uns zunächst die X-Achse an: Wie detailliert sind die visuellen Beweise?
X1 ist Szenenebene (scene-level): Das Modell muss nur die allgemeine Szene kennen, wie z.B. eine Küche, eine Straße, eine Comic-Szene oder ein Gesundheitsdashboard.
X2 ist Regionalebene (region-level): Das Modell muss sich auf lokale Bereiche in der Szene konzentrieren, wie z.B. die Ecke eines Zimmers, eine Straßenecke oder ein Modul in einer Benutzeroberfläche.
X3 ist Instanzebene (instance-level): Das Modell muss ein bestimmtes Objekt unter mehreren ähnlichen Objekten identifizieren, wie z.B. zwei ähnliche Charaktere, mehrere ähnliche Karten oder mehrere ähnliche Materialproben.
X4 ist Pixelebene (pixel-level): Das Modell muss feinere visuelle Informationen auslesen, wie z.B. kleine Schrift, Zahlen, Farben, Texturen, genaue Anzahl und OCR-ähnliche Hinweise.
Schauen wir uns nun die Y-Achse an: Wie muss das Gedächtnis schließen?
Y1 ist Atomare Suche (atomic retrieval): Ein relevanter Beweis reicht in der Regel aus, um die Frage zu beantworten.
Y2 ist Relationale Assoziation (relational association): Das Modell muss mehrere nicht-konfliktierende Hinweise verbinden, wie z.B. die Verfolgung desselben Charakters oder Objekts über mehrere Sitzungen hinweg.
Y3 ist Evolutionäre Synthese (evolutionary synthesis): Dies ist die schwierigste Aufgabe. Denn spätere visuelle Beweise können frühere Beweise aktualisieren, überschreiben oder widerlegen. Das Modell muss nicht nur relevante Informationen finden, sondern auch entscheiden, welcher Zustand momentan noch gültig ist.
Hier gibt es einen sehr wichtigen Unterschied: Relevante Beweise (relevant evidence) sind nicht unbedingt gültige Beweise (valid evidence). Ein alter Screenshot kann sehr relevant für die Frage sein, aber wenn er später von einem neuen Screenshot überschrieben wurde, ist er ein veralteter Beweis (stale evidence).
MemEye-Datenmenge: Macht Bilder unverzichtbar
In diesem Rahmen hat MemEye einen Benchmark erstellt, der reale Lebenssituationen abdeckt: 371 Fragen, 221 Sitzungen, 848 Dialogrunden, 438 Bilder, und jede Frage gibt es in zwei Formen: Mehrfachauswahl (multiple-choice) und Offene Antwort (open-ended).
Die Aufgaben decken 8 Lebenssituationen ab, die in vier Kategorien verteilt sind: Freizeit, Familie, Beruf und Privatleben: Kartenspielaufzeichnungen, Comic-Entertainment, Innenausbau, Outdoor-Navigation, Marken-Gedächtnis, Quer-Szenen-Gedächtnis, Gesundheitsversorgung und sozialer Chat.
Um „falsche visuelle Fragen“ zu vermeiden, hat MemEye auch einen Mehrstufen-Filtermechanismus entwickelt. Beispielsweise: Wenn das Modell die Frage nur mit Text und Optionen richtig beantworten kann, bedeutet das, dass die Antwort möglicherweise preisgegeben wurde; Wenn das Modell die Frage auch dann richtig beantworten kann, wenn das Bild durch einen minimalen Caption ersetzt wird, bedeutet das, dass das originale Bild nicht erforderlich ist; Wenn das Modell die Frage nicht beantworten kann, obwohl es das richtige Bild und die richtigen Hinweise hat, bedeutet das, dass die Frage möglicherweise unklar ist.
Diese Filter machen MemEye wie ein visuelles Gedächtnis-Test: Es stellt sicher, dass die verbleibenden Fragen tatsächlich dazu führen, dass das Modell die wichtigen Beweise im Bild behalten und nutzen muss.
Was soll man bei den Experimenten beachten? 13 Gedächtnismethoden, 4 VLM-Backbones
MemEye hat 13 Gedächtnismethoden evaluiert, die grob in zwei Kategorien eingeteilt werden können.
Die erste Kategorie ist Textbasiertes Gedächtnis (text-based memory): Bilder werden in dichte Captions umgewandelt, und dann werden Text-Systeme für die gesamte Kontextverarbeitung, RAG, Reflexion und Gedächtnisaktualisierung verwendet. Diese Methoden sind gut darin, Textzustände zu organisieren, verlieren aber leicht visuelle Details.
Die zweite Kategorie ist Multimodales Gedächtnis (multimodal memory): Das ursprüngliche visuelle Input wird beibehalten, oder es wird eine Bild-Embedding-Suche durchgeführt. Diese Methoden können Details besser speichern, aber sie haben auch ein anderes Problem: Wenn die Geschichte zu lang oder die ähnlichen Bilder zu zahlreich sind, kann das System zwar ein „relevantes Bild“ finden, aber nicht das „aktuell gültige Bild“.
Die VLM-Backbones, die in den Experimenten abgedeckt werden, umfassen Qwen3-VL-8B-Instruct, GPT-4.1-nano, GPT-5.4-mini und Gemini-2.5-flash-lite. Für Multiple-Choice-Fragen wird EM verwendet, und für offene Antworten wird hauptsächlich LLM-as-a-Judge eingesetzt.
Forschungsergebnisse
1. Captions funktionieren bei groben Fragen noch gut, aber bei Details versagen sie
Die Ergebnisse von MemEye zeigen, dass caption-basiertes Gedächtnis bei Fragen auf Szenen- und Regionalebene immer noch konkurrenzfähig ist. Der Grund ist einfach: Die gesamte Szene, die Hauptobjekte und grobe Bereiche können in der Regel durch Textbeschreibungen abgedeckt werden.
Aber auf Instanz- und Pixelebene beginnt der Unterschied zu werden. Denn die Antwort kann in der Identität eines bestimmten Objekts, kleinen Etiketten, kleinen Zahlen, Farbunterschieden, lokalen Texturen versteckt sein, und diese Informationen werden leicht von Captions weggelassen.
Das liegt nicht daran, dass die Captions nicht gut genug geschrieben sind, sondern daran, dass die Caption-Repräsentation selbst Kompressionsverluste hat. Sie muss auswählen, „welche Informationen wertvoll genug sind, geschrieben zu werden“, aber die wichtigen Details, die in Zukunft benötigt werden, werden möglicherweise nicht geschrieben.
Deshalb ist die erste wichtige Erkenntnis von MemEye: Wenn eine Aufgabe hochpräzise visuelle Beweise erfordert, sollte man nicht zu früh Bilder in nicht-wiederherstellbaren Text komprimieren.
2. Das Beibehalten des Originalbildes hilft, aber reicht nicht aus
Wenn Captions Details verlieren, löst das Beibehalten des Originalbildes das Problem nicht. Die Antwort ist nein.
Das Beibehalten des Originalbildes hilft tatsächlich bei Fragen auf hoher X-Achse, insbesondere bei visuellen Beweisen auf Instanz- und Pixelebene. Aber bei Aufgaben wie Y3, bei denen sich der Zustand ändert, muss das System auch wissen, welches Bild den aktuellen Zustand repräsentiert.
Beispielsweise war das Etikett in einem Zimmer zunächst A, später wurde es durch B ersetzt. Das Suchsystem kann sowohl A als auch B finden, weil beide mit der Frage relevant sind. Aber die richtige Antwort hängt davon ab, welches der neueste Zustand ist