阶跃星辰上线 Step 3.5 Flash 新版本,新增低推理模式
背景
近年来,随着AI Agent技术的快速发展,开发者对模型的推理速度、稳定性和部署成本提出了更高要求。在此背景下,阶跃星辰于2026年2月2日发布新一代开源Agent基座模型 Step 3.5 Flash。该模型采用创新的稀疏MoE架构,总参数量高达1960亿,但推理时仅激活约110亿参数,兼顾性能与效率。为满足多样化的部署需求,Step 3.5 Flash 新增了低推理模式,进一步优化模型响应速度与资源占用,助力开发者实现更高效、稳定的Agent开发体验。
新版本特性:低推理模式
Step 3.5 Flash 最大的亮点在于新增的低推理模式,具体表现为:
- 稀疏MoE架构:每个token仅激活约110亿参数,大幅降低计算资源消耗。
- MTP-3多Token预测技术:模型一次预测4个token,提升推理效率,缩短响应时间。
- 混合注意力机制(3:1滑动窗口 + 全局注意力):在处理长文本时,仅聚焦关键信息,显著减少计算开销,支持256K上下文处理。
- 轻量化部署选项:低推理模式特别适用于边缘设备或资源受限场景,支持更广泛的落地应用。

通过这些优化,Step 3.5 Flash能够在保证推理质量的同时,实现高达350 TPS(每秒处理请求)的极速生成能力,特别适合代码类任务及高频交互场景。
应用案例展示
Step 3.5 Flash 已在多个实际场景中展现其卓越能力:
- 气象情报仪表盘:基于定制WebGL 2.0引擎,构建三维地球可视化平台,实时处理超过15,000个动态节点与WebSocket遥测数据流,展现其在高性能地理空间可视化系统中的低延迟数据管道构建能力。
- 多平台价格比对:用户提出对比 Mac Mini M4 在淘宝、京东和拼多多上的价格,Step 3.5 Flash 作为“云端大脑”将复杂任务拆解为多个子任务,分别在各平台抓取实时数据,汇总后识别最低价平台并提供购买指南,凸显“云端协同”的高效与可靠性。
这些案例不仅展示了模型的灵活性和智能化水平,也说明了其在专业级用户体验和系统稳定性上的专注。
技术生态与部署支持
为加速AI Agent技术的落地,Step 3.5 Flash 提供了丰富的部署与使用方式:
- OpenRouter限免体验:用户可在OpenRouter上免费试用,0成本升级Agent。
- GitHub部署:提供完整代码库,开发者可快速部署并构建专属Agent:GitHub链接。
- HuggingFace 与魔搭社区:用户可从HuggingFace和魔搭平台下载模型权重。
- 昇腾算力支持:昇腾平台已实现对Step 3.5 Flash的0day适配,凭借全互联高带宽设计,满足多Agent在规模化部署中的长序列、高并发、低时延需求,为国产算力生态注入新活力。
未来展望
阶跃星辰表示,目前已启动Step 4模型的训练工作,并邀请开发者深度参与共创。Step 3.5 Flash的上线不仅标志着AI Agent模型在推理速度、部署效率与性价比方面的突破,也为下一代Agent技术奠定了基础。
昇腾作为阶跃星辰的长期战略合作伙伴,将持续提供全栈技术支撑,助力突破模型性能上限。开发者可通过阶跃AI APP或网页端(stepfun.com)免费体验Step 3.5 Flash,探索其在AI+汽车、AI+金融、智能客服等领域的应用潜力。
更多技术细节可参考官方文档:Step 3.5 Flash 技术文档。