实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

千token狂飙:10秒做贪吃蛇,7秒交付代码

人类打字速度约5 tokens/s,普通大模型推理约100-300 tokens/s,而小米MiMo-V2.5-Pro UltraSpeed模式直接拉到1000+ tokens/s,峰值可达1200 tokens/s——相当于模型生成速度是人类打字的200倍。在这种速度下,“零等待”体验成为现实:输入提示词后,仅需7秒就能完成一个复杂可视化大屏的Vibe Coding生成任务,而标准版需要6分15秒,提速28倍。实测中,10秒生成贪吃蛇小游戏,1分钟复刻macOS系统界面,彻底颠覆了开发者对万亿模型响应速度的认知。

实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

不用专用芯片:8卡通用GPU如何驯服万亿参数?

团队并未依赖定制芯片或昂贵专用硬件,仅使用一个标准的8卡通用GPU节点便实现了这一突破。核心在于模型与系统的双向极致协同:模型侧采用FP4量化,针对MoE架构仅对Expert参数进行4位量化,配合量化感知训练(QAT),在将模型体积压缩80%的同时保持能力基本持平;同时引入基于块级Masked并行预测的DFlash推测解码,Coding场景下平均接受长度达6.30,每轮验证8个Draft token中可接受6-7个,大幅提升单次验证吞吐。系统侧,TileRT团队定制了超低延迟推理内核,通过常驻引擎、异构流水线协作和微秒级软硬件收敛,消除算子边界间隙,让数据搬运与计算极致重叠。

实战揭秘:3倍价格10倍速度,申请制限时体验

UltraSpeed API已于6月9日上线,采用限时体验价——定价为MiMo-V2.5-Pro标准版的3倍,但输出速度提升约10倍。由于高速推理资源稀缺,目前采取申请制限时开放(6月9日至6月23日),优先审核具备真实业务需求的企业与开发者。通过审核的用户可获得两周内免费的Chat体验。实测显示,模型名为 mimo-v2.5-pro-ultraspeed,每轮输出会展示真实输出tok/s、思考tok/s、首响应时延等数据,高峰期存在排队但属正常现象。团队已开源FP4量化与DFlash参数的checkpoint至HuggingFace,供社区进一步探索。

实时AI梦更近:从代码生成到医疗决策的范式变革

1000 tokens/s带来的不仅是“打字机变快”,更意味着万亿模型可实时参与高频决策闭环。在Coding Agent场景中,开发者无需等待代码生成,多轮工具调用可瞬间完成;在量化交易、反欺诈、医疗影像分析等对时间极度敏感的场景中,毫秒级的“思考-响应”循环使AI能从辅助工具升级为实时决策者。不过,当前高接受率仍集中在结构化任务(如代码),通用对话场景的优化空间尚存;同时资源紧张说明大规模商用仍需时间。但正如团队所言,这是高水平系统基础设施与极致算法模型深度收敛的结果,通用GPU路线的可行性为万亿模型普惠应用打开了新的大门。