阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

1 个月前

AI资讯

56 阅读

开源模型 AI [阶跃星辰生成速度]

350 Tokens/s：专为Agent打造的闪电速度

阶跃星辰最新开源的Step 3.5 Flash模型，将实时Agent工作流的推理效率推向新高度。在单请求代码类任务中，该模型峰值推理速度可达每秒350个token，这意味着开发者调用Agent进行复杂编程或工具链编排时，几乎感受不到等待延迟。这一速度背后是“Think-and-Act”协同设计与多token并行预测（MTP-3）技术的支撑，让模型在“思考”与“执行”之间无缝切换，真正成为开发者的“Agent搭子”。

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

稀疏MoE架构：196B总参量只激活11B的极致效率

Step 3.5 Flash采用稀疏混合专家（Sparse MoE）架构，总参数量高达1960亿，但每个token仅激活约110亿参数。这种设计在保持前沿级推理能力的同时，大幅降低计算资源消耗。对比同级模型动辄万亿参数的规模，Step 3.5 Flash的激活参数量仅为它们的五分之一左右，推理成本显著下降。这使得模型不仅能在云端高效部署，甚至通过INT4量化后可在消费级硬件上本地运行，大幅降低企业及个人使用大模型的准入门槛。

与Kimi K2.5、Qwen3-Max同台竞技：性能接近，成本碾压

在LiveCodeBench V6代码挑战、AIME 2025数学竞赛等多项权威基准测试中，Step 3.5 Flash的表现与同期发布的Kimi K2.5、Qwen3-Max-Thinking接近甚至持平。然而，后两者均为万亿参数级模型，而Step 3.5 Flash活跃参数仅11B，推理成本远低于二者。这种“高性价比”优势，使其成为中小型团队及个人开发者调用高端模型能力的理想选择。值得注意的是，Step 3.5 Flash还支持256K超长上下文，可从容应对长文档、多轮对话等场景。

原生Agent生态：工具调用与多芯片适配双管齐下

Step 3.5 Flash并非单纯追求速度，而是围绕Agent场景进行了全方位优化。其原生多模态理解与执行能力、联网与视觉搜索增强、高可靠工具调用与编排功能，以及完善的Agent生态兼容设计，让开发者能快速构建智能体应用。在底层算力层面，华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家芯片厂商已率先完成对该模型的适配。阶跃星辰此前发起的“模芯生态创新联盟”，进一步打通了芯片、模型与平台间的技术壁垒，通过联合优化提升算力效率，加速大模型在金融、医疗、工业等场景中的落地。

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

350 Tokens/s：专为Agent打造的闪电速度

稀疏MoE架构：196B总参量只激活11B的极致效率

与Kimi K2.5、Qwen3-Max同台竞技：性能接近，成本碾压

原生Agent生态：工具调用与多芯片适配双管齐下

链接失效反馈