让大模型从“一问一答”走向“边看边说”，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

1 天前

AI资讯

2 阅读

多模态开源][实时视频视觉语言

让AI学会“看眼色”：从被动应答到主动观察

传统多模态大模型依然是“轮次制”的：用户上传图片或视频，再提出问题，模型才开始回答。但真实世界中的关键瞬间——监控画面突然出现火情、老人摔倒、直播中商品快速闪过——一旦错过就难以补救。京东团队即将开源的JoyAI-VL-Interaction，正是为了打破这一范式。该模型通过摄像头等实时视频流持续观察现实世界，自主判断何时回应、何时保持沉默、何时将任务委托给后台agent。它的核心思路是让模型像人一样持续“在场”，边看、边记、边判断，并在关键时刻主动回应。

让大模型从“一问一答”走向“边看边说”，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

58轮对决碾压豆包和Gemini，监控场景胜率100%

京东在技术报告中公开了一项人工评测结果，将JoyAI-VL-Interaction与字节豆包、Google Gemini的App内视频通话助手进行了对比。评测覆盖六类场景：监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆。在58个案例中，JoyAI-VL-Interaction对豆包的总体胜率为77.6%，对Gemini的总体胜率为87.9%。最亮眼的数据出现在监控预警场景——对两个基线均取得100%胜率。这意味着在安防、老人看护、异常行为检测等需要AI持续在场的领域，该模型已展现出显著优势。

不只是模型：京东开源完整系统，开发者即拿即用

JoyAI-VL-Interaction并非一个孤立的模型权重。京东计划开源模型权重、交互数据、训练方法和完整系统。系统支持摄像头、直播流、监控流等多种输入，囊括语音输入输出、可视化界面、长期记忆和后台模型接口。开发者拿到后，不仅能研究模型本身，还能直接搭建一个能看视频流、做判断、主动交互的实时AI助手。这一举措与海外Thinking Machines Lab（TML）的“interaction model”概念不谋而合，但京东选择将全部成果开源，推动社区共同探索落地场景。

8B小模型展现惊人能力：数据效率与涌现交互

值得强调的是，JoyAI-VL-Interaction当前仅为8B规模的模型。相比豆包、Gemini背后的更大参数模型和持续产品迭代，它在通用知识、长尾场景、表达丰富度和稳定性上未必占优，训练数据也还有扩展和清洗空间。但报告认为这恰恰是一个积极信号：即便在当前数据规模下，模型已展现出不错的交互能力，并观察到特定的能力涌现。这说明将交互性训进模型这条路数据效率很高，开源后有望与社区一起探究更广泛的应用落地。从安防监控、电商直播、赛事解说到AI眼镜和无障碍辅助，一个“边看边说”的实时AI助手正在成为现实。

让大模型从“一问一答”走向“边看边说”，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

让AI学会“看眼色”：从被动应答到主动观察

58轮对决碾压豆包和Gemini，监控场景胜率100%

不只是模型：京东开源完整系统，开发者即拿即用

8B小模型展现惊人能力：数据效率与涌现交互

链接失效反馈