实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

1 个月前

AI资讯

117 阅读

大模型 Vibe Coding 小米高吞吐量

千token狂飙：10秒做贪吃蛇，7秒交付代码

人类打字速度约5 tokens/s，普通大模型推理约100-300 tokens/s，而小米MiMo-V2.5-Pro UltraSpeed模式直接拉到1000+ tokens/s，峰值可达1200 tokens/s——相当于模型生成速度是人类打字的200倍。在这种速度下，“零等待”体验成为现实：输入提示词后，仅需7秒就能完成一个复杂可视化大屏的Vibe Coding生成任务，而标准版需要6分15秒，提速28倍。实测中，10秒生成贪吃蛇小游戏，1分钟复刻macOS系统界面，彻底颠覆了开发者对万亿模型响应速度的认知。

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

不用专用芯片：8卡通用GPU如何驯服万亿参数？

团队并未依赖定制芯片或昂贵专用硬件，仅使用一个标准的8卡通用GPU节点便实现了这一突破。核心在于模型与系统的双向极致协同：模型侧采用FP4量化，针对MoE架构仅对Expert参数进行4位量化，配合量化感知训练（QAT），在将模型体积压缩80%的同时保持能力基本持平；同时引入基于块级Masked并行预测的DFlash推测解码，Coding场景下平均接受长度达6.30，每轮验证8个Draft token中可接受6-7个，大幅提升单次验证吞吐。系统侧，TileRT团队定制了超低延迟推理内核，通过常驻引擎、异构流水线协作和微秒级软硬件收敛，消除算子边界间隙，让数据搬运与计算极致重叠。

实战揭秘：3倍价格10倍速度，申请制限时体验

UltraSpeed API已于6月9日上线，采用限时体验价——定价为MiMo-V2.5-Pro标准版的3倍，但输出速度提升约10倍。由于高速推理资源稀缺，目前采取申请制限时开放（6月9日至6月23日），优先审核具备真实业务需求的企业与开发者。通过审核的用户可获得两周内免费的Chat体验。实测显示，模型名为 mimo-v2.5-pro-ultraspeed，每轮输出会展示真实输出tok/s、思考tok/s、首响应时延等数据，高峰期存在排队但属正常现象。团队已开源FP4量化与DFlash参数的checkpoint至HuggingFace，供社区进一步探索。

实时AI梦更近：从代码生成到医疗决策的范式变革

1000 tokens/s带来的不仅是“打字机变快”，更意味着万亿模型可实时参与高频决策闭环。在Coding Agent场景中，开发者无需等待代码生成，多轮工具调用可瞬间完成；在量化交易、反欺诈、医疗影像分析等对时间极度敏感的场景中，毫秒级的“思考-响应”循环使AI能从辅助工具升级为实时决策者。不过，当前高接受率仍集中在结构化任务（如代码），通用对话场景的优化空间尚存；同时资源紧张说明大规模商用仍需时间。但正如团队所言，这是高水平系统基础设施与极致算法模型深度收敛的结果，通用GPU路线的可行性为万亿模型普惠应用打开了新的大门。

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

千token狂飙：10秒做贪吃蛇，7秒交付代码

不用专用芯片：8卡通用GPU如何驯服万亿参数？

实战揭秘：3倍价格10倍速度，申请制限时体验

实时AI梦更近：从代码生成到医疗决策的范式变革

链接失效反馈