让大模型从“一问一答”走向“边看边说”,京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction
让AI学会“看眼色”:从被动应答到主动观察
传统多模态大模型依然是“轮次制”的:用户上传图片或视频,再提出问题,模型才开始回答。但真实世界中的关键瞬间——监控画面突然出现火情、老人摔倒、直播中商品快速闪过——一旦错过就难以补救。京东团队即将开源的JoyAI-VL-Interaction,正是为了打破这一范式。该模型通过摄像头等实时视频流持续观察现实世界,自主判断何时回应、何时保持沉默、何时将任务委托给后台agent。它的核心思路是让模型像人一样持续“在场”,边看、边记、边判断,并在关键时刻主动回应。

58轮对决碾压豆包和Gemini,监控场景胜率100%
京东在技术报告中公开了一项人工评测结果,将JoyAI-VL-Interaction与字节豆包、Google Gemini的App内视频通话助手进行了对比。评测覆盖六类场景:监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆。在58个案例中,JoyAI-VL-Interaction对豆包的总体胜率为77.6%,对Gemini的总体胜率为87.9%。最亮眼的数据出现在监控预警场景——对两个基线均取得100%胜率。这意味着在安防、老人看护、异常行为检测等需要AI持续在场的领域,该模型已展现出显著优势。
不只是模型:京东开源完整系统,开发者即拿即用
JoyAI-VL-Interaction并非一个孤立的模型权重。京东计划开源模型权重、交互数据、训练方法和完整系统。系统支持摄像头、直播流、监控流等多种输入,囊括语音输入输出、可视化界面、长期记忆和后台模型接口。开发者拿到后,不仅能研究模型本身,还能直接搭建一个能看视频流、做判断、主动交互的实时AI助手。这一举措与海外Thinking Machines Lab(TML)的“interaction model”概念不谋而合,但京东选择将全部成果开源,推动社区共同探索落地场景。
8B小模型展现惊人能力:数据效率与涌现交互
值得强调的是,JoyAI-VL-Interaction当前仅为8B规模的模型。相比豆包、Gemini背后的更大参数模型和持续产品迭代,它在通用知识、长尾场景、表达丰富度和稳定性上未必占优,训练数据也还有扩展和清洗空间。但报告认为这恰恰是一个积极信号:即便在当前数据规模下,模型已展现出不错的交互能力,并观察到特定的能力涌现。这说明将交互性训进模型这条路数据效率很高,开源后有望与社区一起探究更广泛的应用落地。从安防监控、电商直播、赛事解说到AI眼镜和无障碍辅助,一个“边看边说”的实时AI助手正在成为现实。