DeepSeek 识图模式正式上线 App 和网页端

5 天前

AI资讯

15 阅读

DeepSeek 多模态灰度测试识图模式

“鲸鱼开眼”：DeepSeek识图模式灰度上线

4月29日，DeepSeek在网页端和App端悄然开启“识图模式”灰度测试。部分用户发现，输入框上方原有的“快速模式”“专家模式”旁，多出了一个新标签——悬停提示为“图片理解功能内测中”。这一变化被外界视为DeepSeek多模态能力的重大突破。多模态团队负责人陈小康在X平台发布了一张意味深长的配图：一只DeepSeek标志性的蓝色鲸鱼戴着黑色眼罩，另一只则摘下眼罩，被解读为“鲸鱼开眼”，暗示DeepSeek正式获得视觉能力。不过，该功能仍处于灰度阶段，部分用户能看到入口但提示“暂不可用”，官方尚未公布正式上线时间和覆盖范围。

不是OCR，是真正“看懂”：实测表现与能力解析

与DeepSeek此前主线产品中仅支持图片文字识别（OCR）的“快速模式”不同，此次上线的“识图模式”实现了真正的视觉理解。据用户实测，上传一张人物照片并询问“这是什么动作姿势”，模型思考8秒后，逐项拆解躯干角度、面部朝向、发丝、着装、光影等画面细节，并给出“慵懒风躺姿”或“清冷氛围感姿势”的判断。更重要的是，模型在输出前进行了自我修正——先列出其他可能解读，再对比筛选出最全面的描述。这种结构化拆解、自我复核加文化语境识别的组合，已远超纯OCR的文字提取能力，进入画面语义、空间结构和审美判断层面。实际测试中，模型响应速度较快，有网友反馈“像flash模式一样快”，暗示DeepSeek可能为识图模式配置了专门的推理管线以控制延迟。

多模态家族的技术积累：从VL到Janus系列

DeepSeek在多模态领域并非新手。2024年发布的DeepSeek-VL系列主打真实世界视觉语言理解，涵盖图表、网页、科学文献等场景；此后推出的Janus系列尝试将多模态理解和视觉生成统一框架，其中Janus-Pro在GenEval图像生成基准上甚至超越DALL·E 3和Stable Diffusion 3。此外，DeepSeek还发布过强调结构化信息识别的DeepSeek-OCR。这些技术积累为识图模式奠定了底层基础。值得注意的是，DeepSeek V4预览版在4月24日上线时明确以长上下文、Agent能力和推理性能为核心卖点，官方论文曾提到V4原生整合了文字、图像和视频理解能力，但多模态API仍处于预览阶段。此次识图模式的灰度，正是V4多模态能力首次向普通用户开放，虽然底层模型细节和API开放计划尚未披露，但开发社区已通过接口字段证实功能正在逐步推送。

国内头部模型全员“睁眼”，DeepSeek补上最后一块拼图

此前，国内主流模型公司中，阿里巴巴Qwen-VL、智谱GLM-V、字节跳动和阶跃星辰的“全模态”、月之暗面的视觉理解防线、腾讯混元等均已具备或多模态产品线。唯独DeepSeek的官方产品长期缺乏视觉理解能力，仅靠OCR支撑“看图”。此次识图模式灰度上线，标志着中国头部模型公司全员完成“睁眼”。这一结构性变化对Agent场景尤为关键——纯文本Agent无法操作浏览器、读截图、识别UI元素或处理图表PDF，视觉能力是Agent进入生产力场景的基础设施。DeepSeek V4本身以Agent能力为核心卖点，补上视觉短板后，将能在Computer Use、屏幕操作等前沿领域与智谱AutoClaw、阿里云Coding Plan、Anthropic Computer Use等产品直接竞争。同时，DeepSeek在保持低成本优势的同时补齐多模态短板，其全球竞争力有望进一步提升。

灰度测试进行中：API未开放，正式开闸待官宣

截至发稿，识图模式仍在灰度内测阶段，用户能否体验取决于账号随机分配。网页端和App端均可见入口，但部分用户收到“暂不可用”提示。V2EX网友发现DeepSeek API已返回“识图模式”字段，但调用尚未对外开放。官方尚未公布底层模型名称、参数量、训练方式或正式上线时间表。值得注意的是，多模态团队核心成员阮翀、魏浩然近期已离职，但团队的产品化进度并未停滞。从4月8日产品界面首次出现能力分层入口，到4月24日V4纯文本发布，再到4月28日陈小康预告推文、4月29日灰度上线——这是一条连续的产品节奏。DeepSeek这只“蓝色鲸鱼”刚刚睁开了第一只眼，它的全貌仍有待揭晓。