A Chinese scientist born after 1999 has started a business and unveiled the world's first visual memory large model with infinite context, which has received investment from Samsung.
智东西7月25日消息,今天,前Meta员工沈俊潇(Shawn Shen)在海外社交媒体X上宣布,其和Enmin Zhou联合创立的Memories.ai,正式推出其首款大型视觉记忆模型(Large Visual Memory Model)。
沈俊潇还宣布Memories.ai已完成由Susa Ventures领投,Crane Venture Partners、三星Next、Fusion Fund等机构跟投的800万美元(约合人民币5730万元)种子轮融资。
感兴趣的用户立即享受首月免费体验,无需任何附加条件。
体验地址:https://memories.ai/app
沈俊潇官宣推文(来源:X)
这一技术旨在为多模态大语言模型(multi-modal LLMs)赋予视觉记忆回溯能力。该模型实现了视觉记忆检索功能,能够解析用户意图,检索相关视觉记忆片段,整合关联的视觉记忆信息,并基于这些记忆和用户查询进行推理。
其创新点在于智能决策机制,能自主判断何时、如何及调取哪些视觉记忆。完成记忆信息整合后,模型能生成记忆引用,并以正确输出格式回答用户问题,这使得多模态大模型具备无限长视觉记忆上下文处理能力。
Memories.ai的两位联合创始人均是华人,沈俊潇在博客中透露自己14岁就远赴英国读高中。
01.
两位华人联合创立
曾14岁就远赴英国求学
1999年出生的沈俊潇,初中在苏州上学,14岁就获得奖学金到远赴英国读高中。领英主页显示,其本硕博均在剑桥大学就读,2019年取得了工程专业的文学学士学位( 剑桥大学等部分高校保留传统BA授予制度,其工程专业毕业生仍获BA学位),2020年取得都柏林圣三一学院的工程学硕士学位,2023年获得工程学哲学博士学位。
在本科就读期间,沈俊潇还曾回到上海摩根士丹利短期实习,在博士就读期间,2022年,他到了Meta现实实验室工作,担任研究科学家职位。2024年沈俊潇离职创业,联合创立了Memories.ai。
左:沈俊潇,右:Enmin Zhou(图源:Memories.ai)
Memories.ai联合创始人兼CTO Enmin Zhou,2020年从美国加州大学洛杉矶分校毕业,获得数学与计算科学学士学位,后在美国布朗大学就读数据科学专业,于2022年毕业。
本科就读期间他也曾回到上海,在上海深察信息科技短暂实习,硕士毕业后在Meta就职,担任机器学习工程师一职。2024年Enmin Zhou离职创业,联合创立了Memories.ai。
在博客中,沈俊潇写道,他们正是因为意识到解决视觉记忆问题刻不容缓,才离开Meta共同创立Memories.ai。
02.
视频问答能力超越Gemini 2.5 Pro、
OpenAI GPT 4o和GPT4.1
从性能上看,在视频零样本分类基准测试中,Memories.ai的分数都较历史第一的模型PE-G都一定上涨,其中在HMD8数据库中,分数上涨了7.6分,在K400数据库中,分数上涨了6.6分。
视频检索基准测试中,Memories.ai在所有数据集中的分数都超越了历史第一Perception Encoder,各项测试均夺得桂冠,其中在AVN数据集的文字转视频测试中,其分数较Perception Encoder提升了11分。
视频问答基准测试中,Memories.ai在MVBench、NextQA以及Temp Compass数据集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text数据集中,超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,取得新的性能记录。
包括OpenAI和谷歌模型系统在内的比较数据,均源自OpenAI和谷歌各自的官方发布博客。
03.
受人类记忆机制启发,建立初始记忆架构
在另一篇技术博客中,沈俊潇介绍到,Memories.ai的创造是受了人类记忆机制启发,而创立的整个大视觉记忆模型的初始记忆架构,包括:
将记忆线索转化为可搜索请求的查询模型、用于粗粒度检索的检索模型、全模态索引模型、用于细粒度细节提取的选择模型、用于记忆监控的反思模型,以及用于记忆重构的重建模型。
记忆检索过程可分解为以下关键步骤:
1、记忆线索:激发回忆过程
回忆通常始于线索。线索可以是外部的,如问题、旧照片、旋律、气味、地名;也可以是内部的,如念头、情绪。当大脑接收线索时,会激活与目标记忆相关的特定神经网络。
在系统中,采用查询模型将线索(主要为基于文本的线索)转化为具体的、可搜索的内容,涉及文本解析和转录等步骤,将线索转化为适合后续处理的格式。
2、粗粒度检索:初步 “筛选”
激活过程并非总是精确的,初始检索往往粗略且泛化。大脑快速搜索海量信息,寻找与当前线索最匹配的模式,一些相关的视觉片段可能会被初步激活,此为 “线索依赖性回忆”。
在系统中,使用检索模型进行粗粒度检索。对于上一步解析的查询对象,检索模型选择合适的数据库和查询方法,识别所有相关片段,减轻 “线索依赖性回忆” 的影响,并激活所有相关视觉片段。
3、细粒度细节提取:深度 “阅读” 与 “编辑”
当初始线索激活相关区域后,大脑进入更精细的处理阶段,记忆的重构特性开始显现:
细节补全:大脑填补记忆的细节,这些细节可能基于对世界的理解、逻辑推理和过往经验推断补充。
关联整合:大脑将不同信息片段(如视觉图像、听觉片段和情绪波动)关联整合,形成更完整的记忆图景。
过滤选择:大脑根据当前目标和问题,从所有激活信息中过滤出最相关和最重要的片段,具有高度目的性。
在系统中,使用全模态字幕模型和选择模型进行细粒度细节提取。对于所有视觉片段,全模态字幕代理结合记忆线索为关键核心内容添加字幕。选择代理基于所有已字幕内容进行推理,筛选出若干最相关的视觉片段,缩小记忆搜索范围,基本完成视觉记忆检索过程。
4、记忆监控:记忆的 “自我校正”
回忆过程中,大脑会监控和验证检索到的信息,评估其准确性和真实性,包括将其与现有的知识、信念和其他相关记忆进行比较。若回忆信息与已知事实相矛盾,可能会尝试进一步回忆或修正。
在系统中,使用反思模型进行记忆检测和验证。当检索到的记忆内容与事实冲突或不一致时,会重新进入细粒度细节提取阶段。
5、记忆重构:从碎片到 “精修版”
回忆复杂事件时,大脑倾向于提取事件的核心要点、主要参与者和关键结果,过滤掉较不重要或冗余的信息,将其概括为更易存储和检索的形式。重构过程还涉及将分散的记忆碎片整合成有意义的模式,组织成连贯的叙述或概念。
在系统中,使用重建模型进行记忆重构。基于记忆线索和所有当前检索到的信息,识别信息模式,利用世界知识和逻辑推理补全缺失细节,过滤和精炼无关或冗余信息,将分散的感知、概念和情感片段整合成连贯、有意义的叙述或概念结构。
04.
结语:或将成为AGI发展的重要节点
沈俊潇在博客中称“这是在通用人工智能(AGI)发展中的一步。”
Memories.ai此次推出的大型视觉记忆模型,在技术路径上以人类大脑的记忆机制为参照构建了初始架构,其具备的视觉记忆检索、整合及推理能力,在视频分类、检索、问答等基准测试中展现出一定性能优势。
而800万美元种子轮(约合人民币5730万元)融资的完成,也体现了投资机构对该技术方向的关注。
本文来自微信公众号“智东西”(ID:zhidxcom),作者:王涵,编辑:漠影,36氪经授权发布。