阶跃Step 3.7 Flash拿下AA榜第一，让Agent从「跑Demo」到「能搞钱」

1 个月前

AI资讯

51 阅读

Flash Agent 阶跃星辰 Step 3.7 AA榜

多模态“卷王”再出招，AA榜封顶直指Agent痛点

在国产大模型领域，阶跃星辰被称为“多模态卷王”。其最新发布的Step 3.7 Flash，在衡量Agent现实工作能力的AA榜（Agentic Arena）上，以67.1分的成绩一举超越DeepSeek V4 Flash（57.8分）和Kimi K2.6（62.3分），甚至逼近了闭源旗舰Claude Opus 4.6（70.8分）。这个榜单的含金量在于，它测试的不是单纯的“答题”能力，而是模型在复杂工作流中的真实闭环表现，包括编码、工具调用、多轮交互与任务稳定性。Step 3.7 Flash的登顶，意味着AI不再是只会“说”的聊天机器人，而是真正学会了“做”事。

阶跃Step 3.7 Flash拿下AA榜第一，让Agent从「跑Demo」到「能搞钱」

400 TPS“快进键”：从“跑Demo”到“能搞钱”的速度革命

对于Agent应用来说，“快”不再是用户体验的加分项，而是能否完成商业闭环的能力基础。Step 3.7 Flash采用稀疏MoE架构，总参数高达196B+1.8B（ViT），但单次推理仅激活11B参数，使其单请求生成速度飙升至400 Tokens/秒。在动辄几十轮工具调用的高频Agent场景（如Coding Agent、Search Agent）中，速度直接决定了任务的完成度和成功率。更关键的是，这种效率带来了极致的成本优势：在开启Advisor模式后，Step 3.7 Flash用大约对手九分之一的单任务成本（每Agnet任务仅0.19美元，而Claude Opus 4.6高达1.76美元），实现了其编码能力的97%。这意味着，企业真正拥有了低成本、高效率地将AI投入生产链的可行性。

原生多模态与“读屏”能力：占领真实世界的“手替”

Step 3.7 Flash强大的Agent能力，根植于其原生多模态理解能力。它内置了完整的视觉理解模型（196B + 1.8B ViT），不仅能看懂静态图片，还能像人一样理解GUI界面。例如，在分析一张飞机驾驶舱图片时，它能自主框选关键仪表区域，识别每一个仪表含义，并理清“先做什么、再做什么”的操作顺序，最终用鼠标光标一步步演示操作流程。这种“读屏+指路+防呆”的本事，正是AI从“嘴替”进化为真实工作流中“手替”的关键。它率先打通了搜索、工具调用、GUI感知与代码生成的完整Agent Loop闭环，让AI能自主操作软件、填写报销单、执行企业行政财务等工作。

开发者实测：精准找Bug与效率碾压的真实落地

在真实的开发者场景中，Step 3.7 Flash的表现同样惊艳。一位原本使用Gemini 3.5 Flash写代码的开发者在切换后，模型一次性找出了代码中超过7个的漏洞。在处理财务报销单据时，Step 3.7 Flash能精准识别每张票上的金额、税额、商户名，并自动判断哪些字段是关键信息，最终整理成统一表格并一键导出Excel。从“识别→理解→整理→导出”的完整链条，对应的是大量重复、低效却每天发生的真实行政财务工作。这种“即用即走”的高效体验，让开发者直呼“太好用了”，并迅速在90%的Agent任务中稳定运行。

阶跃Step 3.7 Flash拿下AA榜第一，让Agent从「跑Demo」到「能搞钱」

多模态“卷王”再出招，AA榜封顶直指Agent痛点

400 TPS“快进键”：从“跑Demo”到“能搞钱”的速度革命

原生多模态与“读屏”能力：占领真实世界的“手替”

开发者实测：精准找Bug与效率碾压的真实落地

链接失效反馈