大模型看Coding，具身看Picking！原力灵机已抢先入局

1 个月前

AI资讯

47 阅读

具身智能原子任务 Picking 原力灵机

“原子任务”之争：为什么Picking是具身智能的“Coding”？

在大模型时代，Coding被视作解锁通用能力的“原子任务”——它考验模型对逻辑、结构和工具的抽象理解。而在具身智能领域，这一决定性角色属于Picking。拾取看似简单，却囊括了视觉感知、空间推理、力控反馈和动作规划的全链路闭环。原力灵机创始人周而进指出：“模型如果不能在高精度、高要求的物理反馈下学会动作，后续加多少规则都难以弥补。”正是这一洞察，让原力灵机从第一天起就围绕Picking重构技术底座——模型、框架、应用工作流三箭齐发，直指“让机器人在物理世界中精准完成人类任务”这一核心命题。

2.4B登顶全球：DM0如何用“小参数”撬动“大智能”？

今年2月，原力灵机发布的DM0模型以仅2.4B参数量登顶RoboChallenge真机评测榜单（单任务与多任务双项第一），瞬时引发行业震动。 “具身原生” 是DM0的灵魂：它从零开始训练，而非基于现有大模型改造。团队系统混合了互联网多模态数据、驾驶行为数据以及机器人操作、导航等具身场景特有的多传感数据，并在预训练阶段覆盖UR、Franka、ARX等8种差异显著的机型。这种策略让模型学习的是底层通用物理操作逻辑，而非记忆特定硬件的电机参数。

DM0的另一杀手锏是空间推理思维链（Spatial CoT）。面对“收拾桌面”这类模糊指令，模型先进行子任务规划，再完成物体识别与精确定位，最后输出2D轨迹并映射至3D动作——每一步推理都与物理现实对齐。结合768×768高分辨率输入（实时推理延迟仅60ms），DM0在精细分拣、工件摆放等毫米级任务中表现优异，真正实现了“能说清、能看准、能做对”。

乐高式开发：Dexbotic 2.0要做具身智能的PyTorch

基础设施是技术迭代效率的根本。原力灵机发布的Dexbotic 2.0，被外界称为“具身智能的PyTorch”——它通过 V-L-A模块化解耦，将视觉编码器、大语言模型和动作专家拆成三块可自由组合的“乐高积木”。研究者可以独立升级视觉基座、替换语言模型或更换动作头，而无需牵动全系统。正是这种架构，让Dexbotic在半年内密集接入了Pi0.5、GR00T N1、UniNaVid等十余种前沿模型，并适配从桌面机械臂到人形机器人的十余款硬件。

更关键的是 多源数据混合训练：Dexbotic 2.0用同一套训练过程统一互联网图文数据与机器人实操轨迹数据。模型同时学习场景描述、任务拆解和指令锚定，动作专家则将高维语义直接转化为抓取、移动等连续控制序列。配合DexData统一数据格式和5款仿真器适配，团队从“数据—训练—评测—硬件”四个环节形成完整闭环。与RLinf的战略合作进一步打通了SFT+RL后训练链路——开发者只需一行命令即可启动分布式强化学习，彻底终结了“模型开发在Dexbotic、后训练在RLinf”的割裂局面。

从Demo到7×24：DFOL解锁“滚雪球”式量产闭环

如果说DM0和Dexbotic解决了“模型能不能做好”，那么DFOL（分布式场域在线学习）则回答了“机器人能不能真正跑进工厂”。原力灵机选择的第一个落地场景是物流分拣——这是“Picking”最标准、复杂度最高的战场：工人需要从杂乱物料箱中分拣柔性、刚性等不同材质物品，涉及走动、蹲起、手部灵巧操作等全身动作。

DFOL的核心是 数据回流机制：现场运行的机器人每小时产生数千条训练片段（episode）与负样本块（negative chunk），实时回传云端进行模型迭代。这与“先做demo再做落地”的常见路径截然相反——原力灵机从一开始就推动机器人7×24真实运行。“今天demo做得再好，一旦上岗你就会发现电源、网络、摄像头甚至天气都会出问题”，周而进表示。目前团队已在多个物流场地实现全天候部署，通过“云端训练—现场执行—数据回流—模型更新”的闭环，让机器人在真实工作环境中持续自我改进。

结语：具身原生的“PyTorch时刻”正在到来

从2.4B参数的DM0登顶全球，到Dexbotic 2.0扛起“具身智能PyTorch”大旗，再到DFOL打通从模型到量产的价值链——原力灵机用一套完整的“具身原生”方法论，重新定义了机器人智能的修炼路径。正如PyTorch曾让深度学习从少数人的实验室走向全行业，Dexbotic正沿着相似的道路降低门槛：半年内服务超千位研发者、数十家顶尖机构，并联合清华大学、无问芯穹与RLinf共建底层共识。当“大模型看Coding，具身看Picking”成为行业格言时，率先在Picking上实现闭环的原力灵机，或许离真正的“PyTorch时刻”只有一步之遥。