本文介绍了微软亚洲研究院与清华大学合作提出的VITRA框架,首次实现从纯人类活动视频中预训练视觉-语言-动作(VLA)模型,仅需少量真实机器人数据微调即可在灵巧手上实现高成功率操作,并展现出强大的零样本泛化能力。