商汤大装置分享AI原生云实践:如何提供可用、易用、高效的算力服务?

商汤大装置在AI原生时代持续探索如何为用户提供更加稳定、高效、智能的算力服务,通过底层基础设施的深度优化、中层平台能力的创新演进以及上层服务的场景适配,打造出一套“更懂AI、更懂模型、更懂行业”的全栈云服务体系。

一、算力服务的新挑战与AI原生云的兴起

随着大模型训练和推理需求的快速增长,传统云服务在灵活性、效率和成本控制上面临诸多挑战。AI原生云应运而生,专为支持AI工作负载而设计。与传统云不同,AI原生云强调从基础设施到应用层的全链路AI优化,而非仅在现有云架构上叠加AI能力。

  • 商汤科技作为原生AI云厂商的代表,凭借商汤大装置在《2025年H1中国全栈AI云服务市场报告》中位列第四,原生AI云厂商首位。
  • 原生AI云的核心优势在于:从模型调优、推理优化到基础设施适配,形成端到端的技术闭环。

二、“三明治”分层架构实现算力优化

商汤大装置采用“三明治”水平分层架构,贯穿底层基础设施、中间虚拟集群、上层开发工具链,构建出高效的AI算力调度体系。

1. 底层基础设施优化

  • 算电协同平台:通过整合AI平台运行数据与电力基础设施数据,实现底层硬件到用户任务的全链路联动。
  • 有效提升单位算力利用率,使在相同电力指标下支持的算力集群规模翻倍。

2. 中间层虚拟集群技术

  • 支持断点续训、自动容错、任务迁移和拓扑感知调度。
  • 借助SRE-Agent智能运维代理,实现任务异常时的快速故障检测、根因分析与修复方案生成,达到分钟级闭环处置。

3. 上层开发工具链

  • 提供覆盖数据、算力、模型与应用的完整大模型生产工具体系。
  • 支持大规模分布式训练、模型加速、异构部署,涵盖通用模型、多模态感知与生成、代码与3D模型等多样化能力。

三、国产异构算力的高效适配与规模化落地

商汤大装置在推动国产AI算力规模化应用方面取得了显著进展:

  • 在5000张国产GPU集群上实现大规模异构混训,算力利用率高达80%,效率接近同构训练的95%。
  • 与昇腾384超节点完成全面适配,并与寒武纪等国产芯片厂商达成战略合作。
  • 通过软硬件联合优化,推动国产AI芯片从“可用”迈向“好用”。

这一系列技术突破不仅降低了企业使用国产算力的门槛,也为AI基础设施的自主可控提供了可行路径。

四、训推一体化与性能优化能力

在模型训练与推理层面,商汤大装置展现出强大的性能优化能力:

  • 自研训练框架支持FP8混合精度训练,显著提升训练效率。
  • 双推理引擎架构优化在线推理性能,较行业头部厂商提升15%。
  • 在大模型推理的Prefill阶段提速5倍,Decode阶段提速3.5倍,使多模态大模型推理成本与大语言模型持平。

IDC在其《中国大模型推理算力市场分析报告》中对商汤大装置的训推一体化能力给予满分评价,进一步印证其在推理性能优化方面的领先地位。

五、面向场景的全链路服务与生态构建

商汤大装置不仅在技术层面实现突破,更注重与行业场景的深度融合,打造“场景化+高响应”的服务体系:

1. 新兴产业赋能

  • 在具身智能领域提供市场唯一完整端到端解决方案。
  • 与头部AIGC创业企业合作,提供千卡级算力调度与全流程工具链支持。
  • 联合国家级科研机构,推动AI for Science(AI4S)领域的科研创新。

2. 传统产业数智化升级

  • 联合铁一院打造行业首个融合28个专业知识领域的多模态大模型应用平台。
  • 有效解决知识传承、系统融合、应用效率等行业痛点,加速铁路等传统行业的智能化转型。

3. 面向Agentic AI的智能体基础设施

  • 构建具备“可自进化”能力的AI Agent Infra,推动AI服务从工具辅助向自主进化演进。
  • 在某大型项目中实现统一调度百余个Agent,覆盖30余业务系统、4000多工具和十多个垂类模型,验证其高效扩展性。

商汤大装置正通过其AI原生基因为企业提供全链路支撑,推动AI在各行业的规模化落地与价值释放。未来,商汤将持续推进技术革新与生态共建,助力企业高效拥抱智能化时代。