DeepSeek 识图模式正式上线 App 和网页端
“鲸鱼开眼”:DeepSeek识图模式灰度上线
4月29日,DeepSeek在网页端和App端悄然开启“识图模式”灰度测试。部分用户发现,输入框上方原有的“快速模式”“专家模式”旁,多出了一个新标签——悬停提示为“图片理解功能内测中”。这一变化被外界视为DeepSeek多模态能力的重大突破。多模态团队负责人陈小康在X平台发布了一张意味深长的配图:一只DeepSeek标志性的蓝色鲸鱼戴着黑色眼罩,另一只则摘下眼罩,被解读为“鲸鱼开眼”,暗示DeepSeek正式获得视觉能力。不过,该功能仍处于灰度阶段,部分用户能看到入口但提示“暂不可用”,官方尚未公布正式上线时间和覆盖范围。
不是OCR,是真正“看懂”:实测表现与能力解析
与DeepSeek此前主线产品中仅支持图片文字识别(OCR)的“快速模式”不同,此次上线的“识图模式”实现了真正的视觉理解。据用户实测,上传一张人物照片并询问“这是什么动作姿势”,模型思考8秒后,逐项拆解躯干角度、面部朝向、发丝、着装、光影等画面细节,并给出“慵懒风躺姿”或“清冷氛围感姿势”的判断。更重要的是,模型在输出前进行了自我修正——先列出其他可能解读,再对比筛选出最全面的描述。这种结构化拆解、自我复核加文化语境识别的组合,已远超纯OCR的文字提取能力,进入画面语义、空间结构和审美判断层面。实际测试中,模型响应速度较快,有网友反馈“像flash模式一样快”,暗示DeepSeek可能为识图模式配置了专门的推理管线以控制延迟。
多模态家族的技术积累:从VL到Janus系列
DeepSeek在多模态领域并非新手。2024年发布的DeepSeek-VL系列主打真实世界视觉语言理解,涵盖图表、网页、科学文献等场景;此后推出的Janus系列尝试将多模态理解和视觉生成统一框架,其中Janus-Pro在GenEval图像生成基准上甚至超越DALL·E 3和Stable Diffusion 3。此外,DeepSeek还发布过强调结构化信息识别的DeepSeek-OCR。这些技术积累为识图模式奠定了底层基础。值得注意的是,DeepSeek V4预览版在4月24日上线时明确以长上下文、Agent能力和推理性能为核心卖点,官方论文曾提到V4原生整合了文字、图像和视频理解能力,但多模态API仍处于预览阶段。此次识图模式的灰度,正是V4多模态能力首次向普通用户开放,虽然底层模型细节和API开放计划尚未披露,但开发社区已通过接口字段证实功能正在逐步推送。
国内头部模型全员“睁眼”,DeepSeek补上最后一块拼图
此前,国内主流模型公司中,阿里巴巴Qwen-VL、智谱GLM-V、字节跳动和阶跃星辰的“全模态”、月之暗面的视觉理解防线、腾讯混元等均已具备或多模态产品线。唯独DeepSeek的官方产品长期缺乏视觉理解能力,仅靠OCR支撑“看图”。此次识图模式灰度上线,标志着中国头部模型公司全员完成“睁眼”。这一结构性变化对Agent场景尤为关键——纯文本Agent无法操作浏览器、读截图、识别UI元素或处理图表PDF,视觉能力是Agent进入生产力场景的基础设施。DeepSeek V4本身以Agent能力为核心卖点,补上视觉短板后,将能在Computer Use、屏幕操作等前沿领域与智谱AutoClaw、阿里云Coding Plan、Anthropic Computer Use等产品直接竞争。同时,DeepSeek在保持低成本优势的同时补齐多模态短板,其全球竞争力有望进一步提升。
灰度测试进行中:API未开放,正式开闸待官宣
截至发稿,识图模式仍在灰度内测阶段,用户能否体验取决于账号随机分配。网页端和App端均可见入口,但部分用户收到“暂不可用”提示。V2EX网友发现DeepSeek API已返回“识图模式”字段,但调用尚未对外开放。官方尚未公布底层模型名称、参数量、训练方式或正式上线时间表。值得注意的是,多模态团队核心成员阮翀、魏浩然近期已离职,但团队的产品化进度并未停滞。从4月8日产品界面首次出现能力分层入口,到4月24日V4纯文本发布,再到4月28日陈小康预告推文、4月29日灰度上线——这是一条连续的产品节奏。DeepSeek这只“蓝色鲸鱼”刚刚睁开了第一只眼,它的全貌仍有待揭晓。