首页

登录

商汤大装置分享AI原生云实践：如何提供可用、易用、高效的算力服务？

3 个月前

AI资讯

71 阅读

算力服务 [AI原生云全栈云体系商汤大装置]

商汤大装置在AI原生时代持续探索如何为用户提供更加稳定、高效、智能的算力服务，通过底层基础设施的深度优化、中层平台能力的创新演进以及上层服务的场景适配，打造出一套“更懂AI、更懂模型、更懂行业”的全栈云服务体系。

一、算力服务的新挑战与AI原生云的兴起

随着大模型训练和推理需求的快速增长，传统云服务在灵活性、效率和成本控制上面临诸多挑战。AI原生云应运而生，专为支持AI工作负载而设计。与传统云不同，AI原生云强调从基础设施到应用层的全链路AI优化，而非仅在现有云架构上叠加AI能力。

商汤科技作为原生AI云厂商的代表，凭借商汤大装置在《2025年H1中国全栈AI云服务市场报告》中位列第四，原生AI云厂商首位。
原生AI云的核心优势在于：从模型调优、推理优化到基础设施适配，形成端到端的技术闭环。

二、“三明治”分层架构实现算力优化

商汤大装置采用“三明治”水平分层架构，贯穿底层基础设施、中间虚拟集群、上层开发工具链，构建出高效的AI算力调度体系。

1. 底层基础设施优化

算电协同平台：通过整合AI平台运行数据与电力基础设施数据，实现底层硬件到用户任务的全链路联动。
有效提升单位算力利用率，使在相同电力指标下支持的算力集群规模翻倍。

2. 中间层虚拟集群技术

支持断点续训、自动容错、任务迁移和拓扑感知调度。
借助SRE-Agent智能运维代理，实现任务异常时的快速故障检测、根因分析与修复方案生成，达到分钟级闭环处置。

3. 上层开发工具链

提供覆盖数据、算力、模型与应用的完整大模型生产工具体系。
支持大规模分布式训练、模型加速、异构部署，涵盖通用模型、多模态感知与生成、代码与3D模型等多样化能力。

三、国产异构算力的高效适配与规模化落地

商汤大装置在推动国产AI算力规模化应用方面取得了显著进展：

在5000张国产GPU集群上实现大规模异构混训，算力利用率高达80%，效率接近同构训练的95%。
与昇腾384超节点完成全面适配，并与寒武纪等国产芯片厂商达成战略合作。
通过软硬件联合优化，推动国产AI芯片从“可用”迈向“好用”。

这一系列技术突破不仅降低了企业使用国产算力的门槛，也为AI基础设施的自主可控提供了可行路径。

四、训推一体化与性能优化能力

在模型训练与推理层面，商汤大装置展现出强大的性能优化能力：

自研训练框架支持FP8混合精度训练，显著提升训练效率。
双推理引擎架构优化在线推理性能，较行业头部厂商提升15%。
在大模型推理的Prefill阶段提速5倍，Decode阶段提速3.5倍，使多模态大模型推理成本与大语言模型持平。

IDC在其《中国大模型推理算力市场分析报告》中对商汤大装置的训推一体化能力给予满分评价，进一步印证其在推理性能优化方面的领先地位。

五、面向场景的全链路服务与生态构建

商汤大装置不仅在技术层面实现突破，更注重与行业场景的深度融合，打造“场景化+高响应”的服务体系：

1. 新兴产业赋能

在具身智能领域提供市场唯一完整端到端解决方案。
与头部AIGC创业企业合作，提供千卡级算力调度与全流程工具链支持。
联合国家级科研机构，推动AI for Science（AI4S）领域的科研创新。

2. 传统产业数智化升级

联合铁一院打造行业首个融合28个专业知识领域的多模态大模型应用平台。
有效解决知识传承、系统融合、应用效率等行业痛点，加速铁路等传统行业的智能化转型。

3. 面向Agentic AI的智能体基础设施

构建具备“可自进化”能力的AI Agent Infra，推动AI服务从工具辅助向自主进化演进。
在某大型项目中实现统一调度百余个Agent，覆盖30余业务系统、4000多工具和十多个垂类模型，验证其高效扩展性。

商汤大装置正通过其AI原生基因为企业提供全链路支撑，推动AI在各行业的规模化落地与价值释放。未来，商汤将持续推进技术革新与生态共建，助力企业高效拥抱智能化时代。