刚刚，小扎砸143亿的“牛油果”来了，硬刚GPT-5.4，硅谷最贵华人首作

3 个月前

AI资讯

48 阅读

模型发布 [AI战略华人创业硅谷动态]

背景：Meta重金布局AI战略

2025年6月，Meta以143亿美元收购AI初创公司Scale AI 49%的股权，同时将其创始人Alexandr Wang（王一）挖角至Meta，担任公司首任首席AI官，并领导新成立的Meta超级智能实验室（MSL）。这一举动标志着Meta在大模型领域的野心开始全面爆发。

Alexandr Wang是硅谷备受瞩目的华人技术领袖之一，曾以Scale AI的快速崛起和商业化能力闻名，被称为“硅谷最贵华人”。他的加入为Meta注入了全新的AI研发动力，并促成了Muse Spark（代号Avocado）的诞生。

模型详情：对标顶级模型，性能多维参差

Muse Spark在Artificial Analysis测试中获得了高达52分的成绩，仅次于Gemini 3.1 Pro、GPT-5.4和Opus 4.6，成为当前全球最先进模型之一。其主要特点包括：

原生多模态能力：Muse Spark具备强大的图文理解与生成能力，尤其是在视觉思维链（Visual Chain-of-Thought）方面表现突出。
“沉思模式”（Contemplating）：对标Gemini Deep Think和GPT Pro的高级推理模式，Muse Spark支持多个Agent并行思考、协同作答。
上线渠道：模型已部署于meta.ai和Meta AI App，API预览版向部分开发者开放。

关键性能指标对比

Benchmark	Muse Spark	GPT-5.4 Pro	Gemini 3.1 Pro	Opus 4.6
CharXiv理解	86.4	82.8	80.2	—
ScreenSpot Pro截图定位	84.1	—	—	83.1
ZeroBench多步视觉	33.0	—	29.0	—
GPQA Diamond博士级难题	89.5	92.7	94.3	—
LiveCodeBench Pro编程	80.0	87.5	82.9	—
HealthBench Hard健康问答	42.8	40.1	20.6	—
MedXpertQA医学问答	78.4	—	81.3	64.8
SWE-Bench（Verified）	77.4	78.2	—	80.8
SWE-Bench（Pro）	52.4	57.7	—	—
Humanity's Last Exam（无工具）	50.2	43.9	48.4	—
Humanity's Last Exam（有工具）	58.4	58.7	53.4	—

刚刚，小扎砸143亿的“牛油果”来了，硬刚GPT-5.4，硅谷最贵华人首作

技术路径：强化学习与预训练双线并进

Meta在官方博客中详细拆解了Muse Spark的表现来源，将其归结为三条关键轴线：

预训练数据与规模：通过更大规模的语料和更复杂的训练策略，Muse Spark实现了更强的语言理解与生成能力。
强化学习（RL）优化：在Agent协同推理、多步逻辑任务中，Meta采用了基于人类反馈的深度强化学习机制，显著提升了模型在复杂任务下的表现。
测试时计算能力：模型在推理阶段引入了多Agent并行处理机制，使得在需要深度思考的任务中表现更佳，如数学难题、科学推理和编程挑战。

此外，Meta在技术文档中强调了其模型的“闭源”策略，这一做法与此前开源Llama系列的路线形成鲜明对比，反映出Meta对Muse Spark商业价值的高度重视。

竞争格局：硬刚GPT-5.4，争夺超级智能王座

Muse Spark的发布，直接将Meta拉入与OpenAI、Google DeepMind、Anthropic等顶级AI公司的激烈竞争中。尤其在多模态与医学推理方面，Muse Spark展现出的竞争力已经逼近甚至超过部分竞品。

然而，在编程和抽象思维任务上，GPT-5.4和Gemini系列仍占据优势。例如在SWE-Bench编程挑战中，GPT-5.4 Pro的Pro模式得分57.7，明显高于Muse Spark的52.4。在物理奥赛IPhO 2025理论题中，GPT-5.4 Pro也以93.5分遥遥领先Muse Spark的82.6。

Alexandr Wang在X平台回应外界质疑时表示：“这次我们不再追求刷分，而是注重真实世界的应用与泛化能力。”这番话也被解读为对之前Llama 4被指过度优化特定benchmark的回应。

影响与展望：AI格局或迎来新一轮洗牌

Muse Spark的上线不仅是Meta在AI战略上的重要节点，也预示着下一代超级智能模型的竞争进入白热化阶段。闭源路线的转变，显示出Meta希望将核心技术牢牢掌握在手中，以应对日益激烈的商业竞争。

随着多模态、医学、编程等垂直领域模型性能的提升，Muse Spark可能在Meta旗下的社交平台、虚拟助手、内容生成等产品中发挥关键作用。其“沉思模式”也为未来Agent驱动的智能系统打下基础。

尽管在某些指标上仍落后于GPT-5.4和Gemini 3.1 Pro，但Muse Spark的综合表现已经足够引起行业震动。可以预见，2026年将是超级智能模型全面商用、生态争夺的高峰期，而Meta正以“牛油果”为先锋，强势加入这场全球AI巅峰之战。

刚刚，小扎砸143亿的“牛油果”来了，硬刚GPT-5.4，硅谷最贵华人首作

背景：Meta重金布局AI战略

模型详情：对标顶级模型，性能多维参差

关键性能指标对比

技术路径：强化学习与预训练双线并进

竞争格局：硬刚GPT-5.4，争夺超级智能王座

影响与展望：AI格局或迎来新一轮洗牌

链接失效反馈