阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
速度409 tokens/s,端到端响应称冠
在Artificial Analysis最新榜单上,阶跃星辰开源的Step 3.7 Flash凭借409 tokens/s的输出速度位列主流模型第一,同时在端到端响应时长(End-to-End)指标上同样登顶。这并非单纯秀参数——官方披露模型运行速度超400 tokens/s,而开发者实测在极限条件下单流速度可达6000 tokens/s。更关键的是,其端到端延迟被压缩到极低水平,这意味着从用户输入到模型输出完整结果的总耗时大幅缩短,尤其适合对实时性要求高的Agent场景。与之对比,一些同类模型仅在单次生成上有速度优势,但在多轮交互、工具调用等真实任务链中,端到端延迟往往因上下文累积而剧增。
百万token只要0.2美元,性价比断层领先
成本是衡量模型能否大规模商用的硬门槛。Step 3.7 Flash的综合单价为每百万token仅0.2美元(约合人民币1.35元),与DeepSeek、小米MiMo持平,并列榜单第一。但结合速度来看,其性价比优势更为突出:Artificial Analysis的速度价格比分布图显示,Step 3.7 Flash在兼具高速和低成本方面处于断层领先。有开发者算了一笔账:Step 3.7 Flash以约1/9的任务成本,实现了Claude Opus 4.6 97%的性能。这意味着企业可以将Agent部署成本压到同类模型的十分之一,同时保持接近顶尖模型的效果。对于Uber那样“4个月烧掉全年AI预算”的企业而言,这种性价比直接决定Agent能否从演示进入生产。
破解Agent“跑不动、养不起”的商用困局
当前智能体落地面临两大核心痛点:一是任务循环中大量冗余延迟,二是token消耗失控。密歇根大学、斯坦福等机构联合研究指出,智能体执行任务时输入输出token消耗比高达154:1;Cursor社区有开发者吐槽,相邻命令间竟存在约27秒的冗余延迟。Step 3.7 Flash的解法是双管齐下: 提升单次任务成功率,减少不必要的重试和上下文回填;压缩无效等待时间,通过高并发吞吐能力(64并发峰值达DeepSeek-V4的3.47倍)让算力每秒都用在任务闭环上。智东西实测显示,模型生成一个体感打砖块游戏仅需一次请求,人脸追踪、特效碰撞、游戏结束动画等元素全部到位,在普通PC上也能流畅运行。这种“跑得快、不浪费token”的特性,恰好对应了Agent从“跑Demo”到“能搞钱”的关键转变。
实测:复杂编程一次过,本地部署照样快
开发者社区对Step 3.7 Flash的反馈直接印证了其“实用主义”定位。在复杂编程任务中,智东西要求模型生成一个番茄计时器,结果仅耗时1分钟且一次成功,布局整洁、功能完整。更令人关注的是本地部署能力:Step 3.7 Flash的4bit量化版仅需128GB Apple Silicon设备即可满载32K上下文,在Mac Studio环境下基准测试生成速度超过53 tokens/s。这意味着中小企业和个人开发者无需依赖云端GPU,就能在本地享受高速Agent推理。此外,在OpenRouter社区,Step 3.7 Flash发布后迅速登上Trending榜全球第二,开发者真实反馈集中在“速度惊人”“缓存命中率高”,其高达86.1%的缓存命中率进一步降低了API调用成本。
延续Flash系列:效率至上,落地优先
Step 3.7 Flash延续了阶跃星辰Flash系列的一贯打法:不追求单点性能屠榜,而是在速度、性能和成本之间找到最优平衡点。上一代Step 3.5 Flash已在车载场景实现规模化落地——为极氪8X打造整车智能体“超级Eva”,打通了感知、理解、执行全链路。Step 3.7 Flash在此基础上进一步优化Agent多轮交互、工具编排和长程任务稳定性。例如,在整理报销单这类“杂活”中,模型需要在多轮对话中稳定调用各类工具(搜索、计算、表格填写等),而不偏离原始目标。这种对真实业务场景的针对性打磨,让Flash系列成为企业从“跑Demo”转向“能搞钱”的优选基座。随着OpenAI CEO萨姆·奥尔特曼明确提出“全天候主动式Agent是未来一年头号布局方向”,阶跃Step 3.7 Flash所代表的轻量化、高效率、低成本路线,或将成为推动AI智能体产业规模化的核心动力。