阶跃星辰开源 Step 3.7 Flash 模型,最高生成速度每秒 400 Tokens
350 Tokens/s:专为Agent打造的闪电速度
阶跃星辰最新开源的Step 3.5 Flash模型,将实时Agent工作流的推理效率推向新高度。在单请求代码类任务中,该模型峰值推理速度可达每秒350个token,这意味着开发者调用Agent进行复杂编程或工具链编排时,几乎感受不到等待延迟。这一速度背后是“Think-and-Act”协同设计与多token并行预测(MTP-3)技术的支撑,让模型在“思考”与“执行”之间无缝切换,真正成为开发者的“Agent搭子”。

稀疏MoE架构:196B总参量只激活11B的极致效率
Step 3.5 Flash采用稀疏混合专家(Sparse MoE)架构,总参数量高达1960亿,但每个token仅激活约110亿参数。这种设计在保持前沿级推理能力的同时,大幅降低计算资源消耗。对比同级模型动辄万亿参数的规模,Step 3.5 Flash的激活参数量仅为它们的五分之一左右,推理成本显著下降。这使得模型不仅能在云端高效部署,甚至通过INT4量化后可在消费级硬件上本地运行,大幅降低企业及个人使用大模型的准入门槛。
与Kimi K2.5、Qwen3-Max同台竞技:性能接近,成本碾压
在LiveCodeBench V6代码挑战、AIME 2025数学竞赛等多项权威基准测试中,Step 3.5 Flash的表现与同期发布的Kimi K2.5、Qwen3-Max-Thinking接近甚至持平。然而,后两者均为万亿参数级模型,而Step 3.5 Flash活跃参数仅11B,推理成本远低于二者。这种“高性价比”优势,使其成为中小型团队及个人开发者调用高端模型能力的理想选择。值得注意的是,Step 3.5 Flash还支持256K超长上下文,可从容应对长文档、多轮对话等场景。
原生Agent生态:工具调用与多芯片适配双管齐下
Step 3.5 Flash并非单纯追求速度,而是围绕Agent场景进行了全方位优化。其原生多模态理解与执行能力、联网与视觉搜索增强、高可靠工具调用与编排功能,以及完善的Agent生态兼容设计,让开发者能快速构建智能体应用。在底层算力层面,华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家芯片厂商已率先完成对该模型的适配。阶跃星辰此前发起的“模芯生态创新联盟”,进一步打通了芯片、模型与平台间的技术壁垒,通过联合优化提升算力效率,加速大模型在金融、医疗、工业等场景中的落地。