AI Agent真的记得它看过什么吗?MemEye给多模态长期记忆做了一次“视觉体检”

多模态AI的“记忆模糊症”:能看见却想不清

过去,人们认为多模态大模型只要分辨率足够高、token数量足够多,就能完美理解图像。但DeepSeek、北京大学和清华大学联合发表的研究《Thinking with Visual Primitives》直接点出了痛点:给模型一张密集人群照片问“有多少人”,或给一张复杂电路图问“左边红色电容在右边电感的哪一侧”,主流模型如GPT-5.4和Claude Sonnet 4.6常常答错或前后矛盾。这并非视觉分辨率问题,而是模型在思考时无法精准“指向”它要讨论的对象——研究者将其命名为“Reference Gap”(指代鸿沟)。这种缺陷意味着,AI Agent即使“看”过某张图,其长期记忆也无法将视觉元素与语言指代牢固绑定,形成“看了但记不准”的模糊状态。

DeepSeek的解法:用“视觉原语”堵住指代鸿沟

为了根治“指代鸿沟”,DeepSeek在V4-Flash(284B参数、13B激活的MoE模型)基础上构建了一套全新的视觉推理流程。传统方案会将一张756×756图片切割为2916个视觉token喂入语言模型,而DeepSeek先通过自研ViT生成2916个图像块,再经3×3空间压缩合并为324个token,最后利用内置的“压缩稀疏注意力”(CSA)机制将KV缓存压缩至仅81条视觉条目。相比Claude Sonnet 4.6需要约870个KV缓存、Gemini-3-Flash需要约1100个,DeepSeek仅需约90个。论文的核心论点是:模型不需要“看更多”token,而需要“指更准”——通过精确的空间指代能力弥补token数量的不足,从而在长期记忆中建立更可靠的视觉索引。

体检报告单:计数、空间推理、拓扑导航全面超越

在11个基准测试的“视觉体检”中,该模型交出了亮眼成绩单。在精确计数任务Pixmo-Count上,它以89.2%的准确率超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。在空间推理的MIHBench和SpatialMQA上,以85.3%和69.4%均排名第一。最具冲击力的结果出现在拓扑推理上:迷宫导航任务中得分66.9%,而GPT-5.4仅50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%——所有前沿模型都只能答对一半,而该模型提升了约17个百分点;路径追踪任务同样以56.7%对GPT-5.4的46.5%和Gemini-3-Flash的41.4%形成碾压。这些数据表明,视觉长期记忆的“牢固性”关键不在于存储的视觉信息量,而在于推理时能否精准定位和引用。

从“看过”到“记住”:视觉长期记忆的真正落地

MemEye的视觉体检不仅对比了模型间的性能差异,更揭示了AI Agent长期记忆的本质变化。传统多模态记忆系统往往只记录图像特征,但在实际交互中,用户要求Agent回忆“上次那张图里左边第三个人的表情”时,模型常因无法在记忆中动态指代而失败。DeepSeek的“视觉原语”机制相当于为视觉记忆增加了“空间锚点”,使Agent在长期记忆中也能像人一样“用手指点着想”。这种能力让模型在回答连续多轮视觉问题时不会丢失目标,例如在复杂电路图对话中始终能锁定“左边红色电容”的位置。这意味着,AI Agent的长期记忆不再只是一堆像素特征的堆叠,而是可检索、可指代、可推理的结构化表达。

MemEye的使命:让AI Agent的视觉记忆经得起追问

随着“千问”App全面对标ChatGPT、阿里豪掷3800亿布局AI基础设施,多模态AI的竞争已经进入“记忆精细化”阶段。MemEye作为视觉体检工具,其核心价值在于提供了一个可量化的评估标准:AI Agent是真的“记住”了它看过的内容,还是仅仅把图像塞进了缓存?通过计数、空间关系、拓扑导航等“压力测试”,开发者可以检测模型在长期记忆中对视觉元素的指代准确率,从而定向优化架构。未来,当Agent需要基于连续视频流或跨图信息完成复杂任务时,拥有“视觉原语”能力的模型将具备显著优势——它们不仅能看见世界,还能在记忆中说清楚自己看到了什么、在哪里。