LM Studio 与苹果合作,成功用四台 Mac Studio 运行万亿参数 Kimi K2.6 大模型

四台 Mac Studio 集群,硬扛万亿参数大模型

在 WWDC 2026 的特别讲座中,苹果与 LM Studio 联手展示了一项前所未见的操作:用四台配备 512GB 内存的 Mac Studio,通过 LM Studio 预览版,成功运行月之暗面(Moonshot AI)发布的万亿参数模型 Kimi K2.6。这一模型全面升级了代码编写、长程任务执行以及 Agent 集群能力,通常需要庞大的云端 GPU 集群才能驱动。而 LM Studio 通过集群化部署,将单机显存与内存聚合,使四台 Mac Studio 的本地算力总和足以承载 1T 参数量的推理任务。苹果官方在 B 站发布的 98 分钟回顾视频中,将这一演示作为压轴环节,强调“私有前沿 AI”的无限可能。

低延迟互联秘诀:RDMA over Thunderbolt 技术

让四台机器协同工作并非简单堆叠硬件。苹果在 macOS Tahoe 26.2 中引入的 RDMA over Thunderbolt 技术成为关键——该技术允许通过 Thunderbolt 接口,在多台 Mac 之间以微秒级延迟直接读写内存。这意味着在 Kimi K2.6 推理过程中,每一层参数可以动态分布在不同节点的内存中,而 LM Studio 负责协调数据流,使集群像一台巨型“虚拟 Mac”一样运作。这种低延迟内存池化方案,有效避免了传统网络通信的瓶颈,让万亿参数模型在消费级硬件集群上首次实现可用的推理速度。

LM Studio 与苹果合作,成功用四台 Mac Studio 运行万亿参数 Kimi K2.6 大模型

LM Link 神操作:用 iPhone 访问本地万亿模型

除了集群本身,LM Studio 推出的 LM Link 功能引发更大关注。演示中,工程师通过一台 MacBook Neo 和一台 iPhone,借助 LM Link 远程安全连接到四台 Mac Studio 集群,而终端用户感觉就像直接在手机或笔记本上运行该模型。LM Link 加密了远程调用通道,确保数据不出本地网络,同时提供了极低的交互延迟。有用户评价:“在 iPhone 上使用 Llama 模型已经觉得帅,现在能远程访问自有的万亿参数模型,而且感觉完全是本地的,这才是真正的黑科技。” LM Studio 团队表示,这为个人用户提供了一个“自己私有的前沿 AI”雏形。

一条提示词生成完整应用:开发者现场实战

在视频长达 20 分钟的 AI 构建 App 环节中,苹果工程师仅用单条提示词,便生成了 WWDC badge tracker 应用——该应用具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。后续又通过追加命令不断微调完善。这一演示展示了 Kimi K2.6 在代码生成和复杂应用构建上的惊人能力,同时凸显了本地模型相比云端 API 的即时反馈优势:无需等待网络传输,开发者可以像与人对话一样迭代修改,大幅缩短创意到落地的时间。

隐私突破与成本困境:用户两极评价

演示引爆了技术社区讨论。正面评价认为,LM Studio 此举是“隐私的突破”和“本地 AI 的未来”——用户无需将数据上传至云端即可使用顶级模型,完全掌控自己的数据。“四个节点的集群很酷,但更期待它变成单节点,甚至在未来跑在笔记本和手机上。” 然而,负面声音同样尖锐:批评者指出,入门门槛极其高昂——每台 Mac Studio 需 512GB 内存配置,四台合计成本堪比小型服务器集群,且性能是否能与传统 GPU 集群相提并论存疑。“你们怎么获得 512GB 内存规格的 Mac Studio 的?这根本不是普通开发者能承担的。” 此外,万亿模型在消费硬件上的推理速度是否能满足实时交互,仍需更多实测数据。但无论如何,这次合作证明了本地大模型硬件群落的可行性,为高隐私要求的行业(如医疗、金融)铺平了道路。