阶跃星辰上线 Step 3.5 Flash 新版本，新增低推理模式

3 个月前

AI资讯

99 阅读

[AI模型推理优化稀疏架构低推理模式]

背景

近年来，随着AI Agent技术的快速发展，开发者对模型的推理速度、稳定性和部署成本提出了更高要求。在此背景下，阶跃星辰于2026年2月2日发布新一代开源Agent基座模型 Step 3.5 Flash。该模型采用创新的稀疏MoE架构，总参数量高达1960亿，但推理时仅激活约110亿参数，兼顾性能与效率。为满足多样化的部署需求，Step 3.5 Flash 新增了低推理模式，进一步优化模型响应速度与资源占用，助力开发者实现更高效、稳定的Agent开发体验。

新版本特性：低推理模式

Step 3.5 Flash 最大的亮点在于新增的低推理模式，具体表现为：

稀疏MoE架构：每个token仅激活约110亿参数，大幅降低计算资源消耗。
MTP-3多Token预测技术：模型一次预测4个token，提升推理效率，缩短响应时间。
混合注意力机制（3:1滑动窗口 + 全局注意力）：在处理长文本时，仅聚焦关键信息，显著减少计算开销，支持256K上下文处理。
轻量化部署选项：低推理模式特别适用于边缘设备或资源受限场景，支持更广泛的落地应用。

阶跃星辰上线 Step 3.5 Flash 新版本，新增低推理模式

通过这些优化，Step 3.5 Flash能够在保证推理质量的同时，实现高达350 TPS（每秒处理请求）的极速生成能力，特别适合代码类任务及高频交互场景。

应用案例展示

Step 3.5 Flash 已在多个实际场景中展现其卓越能力：

气象情报仪表盘：基于定制WebGL 2.0引擎，构建三维地球可视化平台，实时处理超过15,000个动态节点与WebSocket遥测数据流，展现其在高性能地理空间可视化系统中的低延迟数据管道构建能力。
多平台价格比对：用户提出对比 Mac Mini M4 在淘宝、京东和拼多多上的价格，Step 3.5 Flash 作为“云端大脑”将复杂任务拆解为多个子任务，分别在各平台抓取实时数据，汇总后识别最低价平台并提供购买指南，凸显“云端协同”的高效与可靠性。

这些案例不仅展示了模型的灵活性和智能化水平，也说明了其在专业级用户体验和系统稳定性上的专注。

技术生态与部署支持

为加速AI Agent技术的落地，Step 3.5 Flash 提供了丰富的部署与使用方式：

OpenRouter限免体验：用户可在OpenRouter上免费试用，0成本升级Agent。
GitHub部署：提供完整代码库，开发者可快速部署并构建专属Agent：GitHub链接。
HuggingFace 与魔搭社区：用户可从HuggingFace和魔搭平台下载模型权重。
昇腾算力支持：昇腾平台已实现对Step 3.5 Flash的0day适配，凭借全互联高带宽设计，满足多Agent在规模化部署中的长序列、高并发、低时延需求，为国产算力生态注入新活力。

未来展望

阶跃星辰表示，目前已启动Step 4模型的训练工作，并邀请开发者深度参与共创。Step 3.5 Flash的上线不仅标志着AI Agent模型在推理速度、部署效率与性价比方面的突破，也为下一代Agent技术奠定了基础。

昇腾作为阶跃星辰的长期战略合作伙伴，将持续提供全栈技术支撑，助力突破模型性能上限。开发者可通过阶跃AI APP或网页端（stepfun.com）免费体验Step 3.5 Flash，探索其在AI+汽车、AI+金融、智能客服等领域的应用潜力。

更多技术细节可参考官方文档：Step 3.5 Flash 技术文档。

阶跃星辰上线 Step 3.5 Flash 新版本，新增低推理模式

背景

新版本特性：低推理模式

应用案例展示

技术生态与部署支持

未来展望

链接失效反馈