AI原生时代来临，商汤大装置如何重塑算力集群架构

3 个月前

AI资讯

49 阅读

商汤科技算力集群 [生成式AI SenseCore]

背景：AI大模型对算力提出新挑战

近年来，生成式AI的爆发性发展对算力基础设施提出了前所未有的要求。大模型训练需要连续、高并发、长周期地调度海量算力资源，这对算力集群的稳定性、调度效率以及资源利用率都构成了巨大挑战。商汤科技凭借对AI发展趋势的前瞻判断，早在2018年便启动SenseCore大装置建设，致力于打造一个高效、低成本、规模化的AI云基础设施，以应对AI原生时代的复杂需求。

大装置的核心技术能力

商汤大装置并非简单地堆叠算力资源，而是通过一系列技术创新构建了一个高度工程化的算力集群架构：

高稳定性与容错机制：支持30天以上的稳定训练不间断能力，训练间断时可在半小时内完成诊断与恢复。
断点续训与自动容错：在大规模训练中减少资源浪费，提升训练效率。
任务迁移与拓扑感知调度：确保算力资源的最优利用，尤其在跨地域集群部署中表现突出。
异构算力统一管理：支持容器化任务和多品牌GPU资源的统一调度，平台灵活性大幅提升。

国产算力的深度适配与商业化

在海外高性能GPU出口受限的背景下，商汤大装置加速国产算力布局：

与上海人工智能实验室联合研发DeepLink并行计算体系，有效兼容主流AI训练框架（如PyTorch、DeepSpeed）。
深度适配华为、寒武纪、壁仞、沐曦等20余款国产芯片，推动国产算力商业化进程。
成功落地多个千卡级别国产算力集群，为“百模争流”的大模型时代提供坚实支撑。

这一战略举措不仅降低了对外部技术的依赖，也提升了整体AI生态的自主可控能力。

行业应用与业务转型

商汤大装置已广泛应用于多个行业领域：

支持上千个参数量在数十亿至上千亿的大模型训练。
客户涵盖京东、小米、阅文、金山办公等大型企业，以及澜舟科技、Tiamat等AI初创公司。
在金融、医疗、基础科研等领域，大装置帮助机构训练垂直领域模型，如蛋白质折叠等。
在气象领域，与高校院所合作推出全球中期气象预报大模型“风乌”，在商汤大装置支持下，首次实现10.75天的有效预报时长，远超此前物理模型的8.5天。

与此同时，商汤科技的业务结构也发生重大转型。2023年，其生成式AI业务收入迅速突破12亿元，成为公司成立以来最快达到该体量的新业务。

商汤大装置的未来展望

随着AI 2.0时代的全面到来，商汤大装置不仅支撑其自身大模型体系“日日新”的快速迭代：

“日日新4.0”已具备与GPT-4相匹敌的能力。
“日日新5.0”预计2024年4月发布，性能将全面对标GPT-4 Turbo。

大装置团队仍在持续优化算力调度、网络拓扑、容错机制等关键技术，致力于构建万卡级AI原生算力平台。未来，随着更多国产芯片的适配和行业客户的深入合作，商汤大装置有望在算力即服务（CaaS）和模型即服务（MaaS）的新范式中占据主导地位。