阶跃Step 3.7 Flash拿下AA榜第一,让Agent从「跑Demo」到「能搞钱」
多模态“卷王”再出招,AA榜封顶直指Agent痛点
在国产大模型领域,阶跃星辰被称为“多模态卷王”。其最新发布的Step 3.7 Flash,在衡量Agent现实工作能力的AA榜(Agentic Arena)上,以67.1分的成绩一举超越DeepSeek V4 Flash(57.8分)和Kimi K2.6(62.3分),甚至逼近了闭源旗舰Claude Opus 4.6(70.8分)。这个榜单的含金量在于,它测试的不是单纯的“答题”能力,而是模型在复杂工作流中的真实闭环表现,包括编码、工具调用、多轮交互与任务稳定性。Step 3.7 Flash的登顶,意味着AI不再是只会“说”的聊天机器人,而是真正学会了“做”事。

400 TPS“快进键”:从“跑Demo”到“能搞钱”的速度革命
对于Agent应用来说,“快”不再是用户体验的加分项,而是能否完成商业闭环的能力基础。Step 3.7 Flash采用稀疏MoE架构,总参数高达196B+1.8B(ViT),但单次推理仅激活11B参数,使其单请求生成速度飙升至400 Tokens/秒。在动辄几十轮工具调用的高频Agent场景(如Coding Agent、Search Agent)中,速度直接决定了任务的完成度和成功率。更关键的是,这种效率带来了极致的成本优势:在开启Advisor模式后,Step 3.7 Flash用大约对手九分之一的单任务成本(每Agnet任务仅0.19美元,而Claude Opus 4.6高达1.76美元),实现了其编码能力的97%。这意味着,企业真正拥有了低成本、高效率地将AI投入生产链的可行性。
原生多模态与“读屏”能力:占领真实世界的“手替”
Step 3.7 Flash强大的Agent能力,根植于其原生多模态理解能力。它内置了完整的视觉理解模型(196B + 1.8B ViT),不仅能看懂静态图片,还能像人一样理解GUI界面。例如,在分析一张飞机驾驶舱图片时,它能自主框选关键仪表区域,识别每一个仪表含义,并理清“先做什么、再做什么”的操作顺序,最终用鼠标光标一步步演示操作流程。这种“读屏+指路+防呆”的本事,正是AI从“嘴替”进化为真实工作流中“手替”的关键。它率先打通了搜索、工具调用、GUI感知与代码生成的完整Agent Loop闭环,让AI能自主操作软件、填写报销单、执行企业行政财务等工作。
开发者实测:精准找Bug与效率碾压的真实落地
在真实的开发者场景中,Step 3.7 Flash的表现同样惊艳。一位原本使用Gemini 3.5 Flash写代码的开发者在切换后,模型一次性找出了代码中超过7个的漏洞。在处理财务报销单据时,Step 3.7 Flash能精准识别每张票上的金额、税额、商户名,并自动判断哪些字段是关键信息,最终整理成统一表格并一键导出Excel。从“识别→理解→整理→导出”的完整链条,对应的是大量重复、低效却每天发生的真实行政财务工作。这种“即用即走”的高效体验,让开发者直呼“太好用了”,并迅速在90%的Agent任务中稳定运行。