刚刚,小扎砸143亿的“牛油果”来了,硬刚GPT-5.4,硅谷最贵华人首作


背景:Meta重金布局AI战略

2025年6月,Meta以143亿美元收购AI初创公司Scale AI 49%的股权,同时将其创始人Alexandr Wang(王一)挖角至Meta,担任公司首任首席AI官,并领导新成立的Meta超级智能实验室(MSL)。这一举动标志着Meta在大模型领域的野心开始全面爆发。

Alexandr Wang是硅谷备受瞩目的华人技术领袖之一,曾以Scale AI的快速崛起和商业化能力闻名,被称为“硅谷最贵华人”。他的加入为Meta注入了全新的AI研发动力,并促成了Muse Spark(代号Avocado)的诞生。


模型详情:对标顶级模型,性能多维参差

Muse Spark在Artificial Analysis测试中获得了高达52分的成绩,仅次于Gemini 3.1 Pro、GPT-5.4和Opus 4.6,成为当前全球最先进模型之一。其主要特点包括:

  • 原生多模态能力:Muse Spark具备强大的图文理解与生成能力,尤其是在视觉思维链(Visual Chain-of-Thought)方面表现突出。
  • “沉思模式”(Contemplating):对标Gemini Deep Think和GPT Pro的高级推理模式,Muse Spark支持多个Agent并行思考、协同作答。
  • 上线渠道:模型已部署于meta.ai和Meta AI App,API预览版向部分开发者开放。

关键性能指标对比

Benchmark Muse Spark GPT-5.4 Pro Gemini 3.1 Pro Opus 4.6
CharXiv理解 86.4 82.8 80.2
ScreenSpot Pro截图定位 84.1 83.1
ZeroBench多步视觉 33.0 29.0
GPQA Diamond博士级难题 89.5 92.7 94.3
LiveCodeBench Pro编程 80.0 87.5 82.9
HealthBench Hard健康问答 42.8 40.1 20.6
MedXpertQA医学问答 78.4 81.3 64.8
SWE-Bench(Verified) 77.4 78.2 80.8
SWE-Bench(Pro) 52.4 57.7
Humanity's Last Exam(无工具) 50.2 43.9 48.4
Humanity's Last Exam(有工具) 58.4 58.7 53.4

刚刚,小扎砸143亿的“牛油果”来了,硬刚GPT-5.4,硅谷最贵华人首作


技术路径:强化学习与预训练双线并进

Meta在官方博客中详细拆解了Muse Spark的表现来源,将其归结为三条关键轴线:

  1. 预训练数据与规模:通过更大规模的语料和更复杂的训练策略,Muse Spark实现了更强的语言理解与生成能力。
  2. 强化学习(RL)优化:在Agent协同推理、多步逻辑任务中,Meta采用了基于人类反馈的深度强化学习机制,显著提升了模型在复杂任务下的表现。
  3. 测试时计算能力:模型在推理阶段引入了多Agent并行处理机制,使得在需要深度思考的任务中表现更佳,如数学难题、科学推理和编程挑战。

此外,Meta在技术文档中强调了其模型的“闭源”策略,这一做法与此前开源Llama系列的路线形成鲜明对比,反映出Meta对Muse Spark商业价值的高度重视。


竞争格局:硬刚GPT-5.4,争夺超级智能王座

Muse Spark的发布,直接将Meta拉入与OpenAI、Google DeepMind、Anthropic等顶级AI公司的激烈竞争中。尤其在多模态与医学推理方面,Muse Spark展现出的竞争力已经逼近甚至超过部分竞品。

然而,在编程和抽象思维任务上,GPT-5.4和Gemini系列仍占据优势。例如在SWE-Bench编程挑战中,GPT-5.4 Pro的Pro模式得分57.7,明显高于Muse Spark的52.4。在物理奥赛IPhO 2025理论题中,GPT-5.4 Pro也以93.5分遥遥领先Muse Spark的82.6。

Alexandr Wang在X平台回应外界质疑时表示:“这次我们不再追求刷分,而是注重真实世界的应用与泛化能力。”这番话也被解读为对之前Llama 4被指过度优化特定benchmark的回应。


影响与展望:AI格局或迎来新一轮洗牌

Muse Spark的上线不仅是Meta在AI战略上的重要节点,也预示着下一代超级智能模型的竞争进入白热化阶段。闭源路线的转变,显示出Meta希望将核心技术牢牢掌握在手中,以应对日益激烈的商业竞争。

随着多模态、医学、编程等垂直领域模型性能的提升,Muse Spark可能在Meta旗下的社交平台、虚拟助手、内容生成等产品中发挥关键作用。其“沉思模式”也为未来Agent驱动的智能系统打下基础。

尽管在某些指标上仍落后于GPT-5.4和Gemini 3.1 Pro,但Muse Spark的综合表现已经足够引起行业震动。可以预见,2026年将是超级智能模型全面商用、生态争夺的高峰期,而Meta正以“牛油果”为先锋,强势加入这场全球AI巅峰之战。


相关链接: