刚刚,小扎砸143亿的“牛油果”来了,硬刚GPT-5.4,硅谷最贵华人首作
背景:Meta重金布局AI战略
2025年6月,Meta以143亿美元收购AI初创公司Scale AI 49%的股权,同时将其创始人Alexandr Wang(王一)挖角至Meta,担任公司首任首席AI官,并领导新成立的Meta超级智能实验室(MSL)。这一举动标志着Meta在大模型领域的野心开始全面爆发。
Alexandr Wang是硅谷备受瞩目的华人技术领袖之一,曾以Scale AI的快速崛起和商业化能力闻名,被称为“硅谷最贵华人”。他的加入为Meta注入了全新的AI研发动力,并促成了Muse Spark(代号Avocado)的诞生。
模型详情:对标顶级模型,性能多维参差
Muse Spark在Artificial Analysis测试中获得了高达52分的成绩,仅次于Gemini 3.1 Pro、GPT-5.4和Opus 4.6,成为当前全球最先进模型之一。其主要特点包括:
- 原生多模态能力:Muse Spark具备强大的图文理解与生成能力,尤其是在视觉思维链(Visual Chain-of-Thought)方面表现突出。
- “沉思模式”(Contemplating):对标Gemini Deep Think和GPT Pro的高级推理模式,Muse Spark支持多个Agent并行思考、协同作答。
- 上线渠道:模型已部署于meta.ai和Meta AI App,API预览版向部分开发者开放。
关键性能指标对比
| Benchmark | Muse Spark | GPT-5.4 Pro | Gemini 3.1 Pro | Opus 4.6 |
|---|---|---|---|---|
| CharXiv理解 | 86.4 | 82.8 | 80.2 | — |
| ScreenSpot Pro截图定位 | 84.1 | — | — | 83.1 |
| ZeroBench多步视觉 | 33.0 | — | 29.0 | — |
| GPQA Diamond博士级难题 | 89.5 | 92.7 | 94.3 | — |
| LiveCodeBench Pro编程 | 80.0 | 87.5 | 82.9 | — |
| HealthBench Hard健康问答 | 42.8 | 40.1 | 20.6 | — |
| MedXpertQA医学问答 | 78.4 | — | 81.3 | 64.8 |
| SWE-Bench(Verified) | 77.4 | 78.2 | — | 80.8 |
| SWE-Bench(Pro) | 52.4 | 57.7 | — | — |
| Humanity's Last Exam(无工具) | 50.2 | 43.9 | 48.4 | — |
| Humanity's Last Exam(有工具) | 58.4 | 58.7 | 53.4 | — |

技术路径:强化学习与预训练双线并进
Meta在官方博客中详细拆解了Muse Spark的表现来源,将其归结为三条关键轴线:
- 预训练数据与规模:通过更大规模的语料和更复杂的训练策略,Muse Spark实现了更强的语言理解与生成能力。
- 强化学习(RL)优化:在Agent协同推理、多步逻辑任务中,Meta采用了基于人类反馈的深度强化学习机制,显著提升了模型在复杂任务下的表现。
- 测试时计算能力:模型在推理阶段引入了多Agent并行处理机制,使得在需要深度思考的任务中表现更佳,如数学难题、科学推理和编程挑战。
此外,Meta在技术文档中强调了其模型的“闭源”策略,这一做法与此前开源Llama系列的路线形成鲜明对比,反映出Meta对Muse Spark商业价值的高度重视。
竞争格局:硬刚GPT-5.4,争夺超级智能王座
Muse Spark的发布,直接将Meta拉入与OpenAI、Google DeepMind、Anthropic等顶级AI公司的激烈竞争中。尤其在多模态与医学推理方面,Muse Spark展现出的竞争力已经逼近甚至超过部分竞品。
然而,在编程和抽象思维任务上,GPT-5.4和Gemini系列仍占据优势。例如在SWE-Bench编程挑战中,GPT-5.4 Pro的Pro模式得分57.7,明显高于Muse Spark的52.4。在物理奥赛IPhO 2025理论题中,GPT-5.4 Pro也以93.5分遥遥领先Muse Spark的82.6。
Alexandr Wang在X平台回应外界质疑时表示:“这次我们不再追求刷分,而是注重真实世界的应用与泛化能力。”这番话也被解读为对之前Llama 4被指过度优化特定benchmark的回应。
影响与展望:AI格局或迎来新一轮洗牌
Muse Spark的上线不仅是Meta在AI战略上的重要节点,也预示着下一代超级智能模型的竞争进入白热化阶段。闭源路线的转变,显示出Meta希望将核心技术牢牢掌握在手中,以应对日益激烈的商业竞争。
随着多模态、医学、编程等垂直领域模型性能的提升,Muse Spark可能在Meta旗下的社交平台、虚拟助手、内容生成等产品中发挥关键作用。其“沉思模式”也为未来Agent驱动的智能系统打下基础。
尽管在某些指标上仍落后于GPT-5.4和Gemini 3.1 Pro,但Muse Spark的综合表现已经足够引起行业震动。可以预见,2026年将是超级智能模型全面商用、生态争夺的高峰期,而Meta正以“牛油果”为先锋,强势加入这场全球AI巅峰之战。
相关链接: