阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

1 个月前

AI资讯

50 阅读

端到端 Flash AA榜阶跃Step3.7 性能榜首

速度409 tokens/s，端到端响应称冠

在Artificial Analysis最新榜单上，阶跃星辰开源的Step 3.7 Flash凭借409 tokens/s的输出速度位列主流模型第一，同时在端到端响应时长（End-to-End）指标上同样登顶。这并非单纯秀参数——官方披露模型运行速度超400 tokens/s，而开发者实测在极限条件下单流速度可达6000 tokens/s。更关键的是，其端到端延迟被压缩到极低水平，这意味着从用户输入到模型输出完整结果的总耗时大幅缩短，尤其适合对实时性要求高的Agent场景。与之对比，一些同类模型仅在单次生成上有速度优势，但在多轮交互、工具调用等真实任务链中，端到端延迟往往因上下文累积而剧增。

百万token只要0.2美元，性价比断层领先

成本是衡量模型能否大规模商用的硬门槛。Step 3.7 Flash的综合单价为每百万token仅0.2美元（约合人民币1.35元），与DeepSeek、小米MiMo持平，并列榜单第一。但结合速度来看，其性价比优势更为突出：Artificial Analysis的速度价格比分布图显示，Step 3.7 Flash在兼具高速和低成本方面处于断层领先。有开发者算了一笔账：Step 3.7 Flash以约1/9的任务成本，实现了Claude Opus 4.6 97%的性能。这意味着企业可以将Agent部署成本压到同类模型的十分之一，同时保持接近顶尖模型的效果。对于Uber那样“4个月烧掉全年AI预算”的企业而言，这种性价比直接决定Agent能否从演示进入生产。

破解Agent“跑不动、养不起”的商用困局

当前智能体落地面临两大核心痛点：一是任务循环中大量冗余延迟，二是token消耗失控。密歇根大学、斯坦福等机构联合研究指出，智能体执行任务时输入输出token消耗比高达154:1；Cursor社区有开发者吐槽，相邻命令间竟存在约27秒的冗余延迟。Step 3.7 Flash的解法是双管齐下： 提升单次任务成功率，减少不必要的重试和上下文回填；压缩无效等待时间，通过高并发吞吐能力（64并发峰值达DeepSeek-V4的3.47倍）让算力每秒都用在任务闭环上。智东西实测显示，模型生成一个体感打砖块游戏仅需一次请求，人脸追踪、特效碰撞、游戏结束动画等元素全部到位，在普通PC上也能流畅运行。这种“跑得快、不浪费token”的特性，恰好对应了Agent从“跑Demo”到“能搞钱”的关键转变。

实测：复杂编程一次过，本地部署照样快

开发者社区对Step 3.7 Flash的反馈直接印证了其“实用主义”定位。在复杂编程任务中，智东西要求模型生成一个番茄计时器，结果仅耗时1分钟且一次成功，布局整洁、功能完整。更令人关注的是本地部署能力：Step 3.7 Flash的4bit量化版仅需128GB Apple Silicon设备即可满载32K上下文，在Mac Studio环境下基准测试生成速度超过53 tokens/s。这意味着中小企业和个人开发者无需依赖云端GPU，就能在本地享受高速Agent推理。此外，在OpenRouter社区，Step 3.7 Flash发布后迅速登上Trending榜全球第二，开发者真实反馈集中在“速度惊人”“缓存命中率高”，其高达86.1%的缓存命中率进一步降低了API调用成本。

延续Flash系列：效率至上，落地优先

Step 3.7 Flash延续了阶跃星辰Flash系列的一贯打法：不追求单点性能屠榜，而是在速度、性能和成本之间找到最优平衡点。上一代Step 3.5 Flash已在车载场景实现规模化落地——为极氪8X打造整车智能体“超级Eva”，打通了感知、理解、执行全链路。Step 3.7 Flash在此基础上进一步优化Agent多轮交互、工具编排和长程任务稳定性。例如，在整理报销单这类“杂活”中，模型需要在多轮对话中稳定调用各类工具（搜索、计算、表格填写等），而不偏离原始目标。这种对真实业务场景的针对性打磨，让Flash系列成为企业从“跑Demo”转向“能搞钱”的优选基座。随着OpenAI CEO萨姆·奥尔特曼明确提出“全天候主动式Agent是未来一年头号布局方向”，阶跃Step 3.7 Flash所代表的轻量化、高效率、低成本路线，或将成为推动AI智能体产业规模化的核心动力。