大模型看Coding,具身看Picking!原力灵机已抢先入局
“原子任务”之争:为什么Picking是具身智能的“Coding”?
在大模型时代,Coding被视作解锁通用能力的“原子任务”——它考验模型对逻辑、结构和工具的抽象理解。而在具身智能领域,这一决定性角色属于Picking。拾取看似简单,却囊括了视觉感知、空间推理、力控反馈和动作规划的全链路闭环。原力灵机创始人周而进指出:“模型如果不能在高精度、高要求的物理反馈下学会动作,后续加多少规则都难以弥补。”正是这一洞察,让原力灵机从第一天起就围绕Picking重构技术底座——模型、框架、应用工作流三箭齐发,直指“让机器人在物理世界中精准完成人类任务”这一核心命题。
2.4B登顶全球:DM0如何用“小参数”撬动“大智能”?
今年2月,原力灵机发布的DM0模型以仅2.4B参数量登顶RoboChallenge真机评测榜单(单任务与多任务双项第一),瞬时引发行业震动。 “具身原生” 是DM0的灵魂:它从零开始训练,而非基于现有大模型改造。团队系统混合了互联网多模态数据、驾驶行为数据以及机器人操作、导航等具身场景特有的多传感数据,并在预训练阶段覆盖UR、Franka、ARX等8种差异显著的机型。这种策略让模型学习的是底层通用物理操作逻辑,而非记忆特定硬件的电机参数。
DM0的另一杀手锏是空间推理思维链(Spatial CoT)。面对“收拾桌面”这类模糊指令,模型先进行子任务规划,再完成物体识别与精确定位,最后输出2D轨迹并映射至3D动作——每一步推理都与物理现实对齐。结合768×768高分辨率输入(实时推理延迟仅60ms),DM0在精细分拣、工件摆放等毫米级任务中表现优异,真正实现了“能说清、能看准、能做对”。
乐高式开发:Dexbotic 2.0要做具身智能的PyTorch
基础设施是技术迭代效率的根本。原力灵机发布的Dexbotic 2.0,被外界称为“具身智能的PyTorch”——它通过 V-L-A模块化解耦,将视觉编码器、大语言模型和动作专家拆成三块可自由组合的“乐高积木”。研究者可以独立升级视觉基座、替换语言模型或更换动作头,而无需牵动全系统。正是这种架构,让Dexbotic在半年内密集接入了Pi0.5、GR00T N1、UniNaVid等十余种前沿模型,并适配从桌面机械臂到人形机器人的十余款硬件。
更关键的是 多源数据混合训练:Dexbotic 2.0用同一套训练过程统一互联网图文数据与机器人实操轨迹数据。模型同时学习场景描述、任务拆解和指令锚定,动作专家则将高维语义直接转化为抓取、移动等连续控制序列。配合DexData统一数据格式和5款仿真器适配,团队从“数据—训练—评测—硬件”四个环节形成完整闭环。与RLinf的战略合作进一步打通了SFT+RL后训练链路——开发者只需一行命令即可启动分布式强化学习,彻底终结了“模型开发在Dexbotic、后训练在RLinf”的割裂局面。
从Demo到7×24:DFOL解锁“滚雪球”式量产闭环
如果说DM0和Dexbotic解决了“模型能不能做好”,那么DFOL(分布式场域在线学习)则回答了“机器人能不能真正跑进工厂”。原力灵机选择的第一个落地场景是物流分拣——这是“Picking”最标准、复杂度最高的战场:工人需要从杂乱物料箱中分拣柔性、刚性等不同材质物品,涉及走动、蹲起、手部灵巧操作等全身动作。
DFOL的核心是 数据回流机制:现场运行的机器人每小时产生数千条训练片段(episode)与负样本块(negative chunk),实时回传云端进行模型迭代。这与“先做demo再做落地”的常见路径截然相反——原力灵机从一开始就推动机器人7×24真实运行。“今天demo做得再好,一旦上岗你就会发现电源、网络、摄像头甚至天气都会出问题”,周而进表示。目前团队已在多个物流场地实现全天候部署,通过“云端训练—现场执行—数据回流—模型更新”的闭环,让机器人在真实工作环境中持续自我改进。
结语:具身原生的“PyTorch时刻”正在到来
从2.4B参数的DM0登顶全球,到Dexbotic 2.0扛起“具身智能PyTorch”大旗,再到DFOL打通从模型到量产的价值链——原力灵机用一套完整的“具身原生”方法论,重新定义了机器人智能的修炼路径。正如PyTorch曾让深度学习从少数人的实验室走向全行业,Dexbotic正沿着相似的道路降低门槛:半年内服务超千位研发者、数十家顶尖机构,并联合清华大学、无问芯穹与RLinf共建底层共识。当“大模型看Coding,具身看Picking”成为行业格言时,率先在Picking上实现闭环的原力灵机,或许离真正的“PyTorch时刻”只有一步之遥。