商汤大装置分享AI原生云实践:如何提供可用、易用、高效的算力服务?
商汤大装置在AI原生时代持续探索如何为用户提供更加稳定、高效、智能的算力服务,通过底层基础设施的深度优化、中层平台能力的创新演进以及上层服务的场景适配,打造出一套“更懂AI、更懂模型、更懂行业”的全栈云服务体系。
一、算力服务的新挑战与AI原生云的兴起
随着大模型训练和推理需求的快速增长,传统云服务在灵活性、效率和成本控制上面临诸多挑战。AI原生云应运而生,专为支持AI工作负载而设计。与传统云不同,AI原生云强调从基础设施到应用层的全链路AI优化,而非仅在现有云架构上叠加AI能力。
- 商汤科技作为原生AI云厂商的代表,凭借商汤大装置在《2025年H1中国全栈AI云服务市场报告》中位列第四,原生AI云厂商首位。
- 原生AI云的核心优势在于:从模型调优、推理优化到基础设施适配,形成端到端的技术闭环。
二、“三明治”分层架构实现算力优化
商汤大装置采用“三明治”水平分层架构,贯穿底层基础设施、中间虚拟集群、上层开发工具链,构建出高效的AI算力调度体系。
1. 底层基础设施优化
- 算电协同平台:通过整合AI平台运行数据与电力基础设施数据,实现底层硬件到用户任务的全链路联动。
- 有效提升单位算力利用率,使在相同电力指标下支持的算力集群规模翻倍。
2. 中间层虚拟集群技术
- 支持断点续训、自动容错、任务迁移和拓扑感知调度。
- 借助SRE-Agent智能运维代理,实现任务异常时的快速故障检测、根因分析与修复方案生成,达到分钟级闭环处置。
3. 上层开发工具链
- 提供覆盖数据、算力、模型与应用的完整大模型生产工具体系。
- 支持大规模分布式训练、模型加速、异构部署,涵盖通用模型、多模态感知与生成、代码与3D模型等多样化能力。
三、国产异构算力的高效适配与规模化落地
商汤大装置在推动国产AI算力规模化应用方面取得了显著进展:
- 在5000张国产GPU集群上实现大规模异构混训,算力利用率高达80%,效率接近同构训练的95%。
- 与昇腾384超节点完成全面适配,并与寒武纪等国产芯片厂商达成战略合作。
- 通过软硬件联合优化,推动国产AI芯片从“可用”迈向“好用”。
这一系列技术突破不仅降低了企业使用国产算力的门槛,也为AI基础设施的自主可控提供了可行路径。
四、训推一体化与性能优化能力
在模型训练与推理层面,商汤大装置展现出强大的性能优化能力:
- 自研训练框架支持FP8混合精度训练,显著提升训练效率。
- 双推理引擎架构优化在线推理性能,较行业头部厂商提升15%。
- 在大模型推理的Prefill阶段提速5倍,Decode阶段提速3.5倍,使多模态大模型推理成本与大语言模型持平。
IDC在其《中国大模型推理算力市场分析报告》中对商汤大装置的训推一体化能力给予满分评价,进一步印证其在推理性能优化方面的领先地位。
五、面向场景的全链路服务与生态构建
商汤大装置不仅在技术层面实现突破,更注重与行业场景的深度融合,打造“场景化+高响应”的服务体系:
1. 新兴产业赋能
- 在具身智能领域提供市场唯一完整端到端解决方案。
- 与头部AIGC创业企业合作,提供千卡级算力调度与全流程工具链支持。
- 联合国家级科研机构,推动AI for Science(AI4S)领域的科研创新。
2. 传统产业数智化升级
- 联合铁一院打造行业首个融合28个专业知识领域的多模态大模型应用平台。
- 有效解决知识传承、系统融合、应用效率等行业痛点,加速铁路等传统行业的智能化转型。
3. 面向Agentic AI的智能体基础设施
- 构建具备“可自进化”能力的AI Agent Infra,推动AI服务从工具辅助向自主进化演进。
- 在某大型项目中实现统一调度百余个Agent,覆盖30余业务系统、4000多工具和十多个垂类模型,验证其高效扩展性。
商汤大装置正通过其AI原生基因为企业提供全链路支撑,推动AI在各行业的规模化落地与价值释放。未来,商汤将持续推进技术革新与生态共建,助力企业高效拥抱智能化时代。