AI原生时代来临,商汤大装置如何重塑算力集群架构
背景:AI大模型对算力提出新挑战
近年来,生成式AI的爆发性发展对算力基础设施提出了前所未有的要求。大模型训练需要连续、高并发、长周期地调度海量算力资源,这对算力集群的稳定性、调度效率以及资源利用率都构成了巨大挑战。商汤科技凭借对AI发展趋势的前瞻判断,早在2018年便启动SenseCore大装置建设,致力于打造一个高效、低成本、规模化的AI云基础设施,以应对AI原生时代的复杂需求。
大装置的核心技术能力
商汤大装置并非简单地堆叠算力资源,而是通过一系列技术创新构建了一个高度工程化的算力集群架构:
- 高稳定性与容错机制:支持30天以上的稳定训练不间断能力,训练间断时可在半小时内完成诊断与恢复。
- 断点续训与自动容错:在大规模训练中减少资源浪费,提升训练效率。
- 任务迁移与拓扑感知调度:确保算力资源的最优利用,尤其在跨地域集群部署中表现突出。
- 异构算力统一管理:支持容器化任务和多品牌GPU资源的统一调度,平台灵活性大幅提升。
国产算力的深度适配与商业化
在海外高性能GPU出口受限的背景下,商汤大装置加速国产算力布局:
- 与上海人工智能实验室联合研发DeepLink并行计算体系,有效兼容主流AI训练框架(如PyTorch、DeepSpeed)。
- 深度适配华为、寒武纪、壁仞、沐曦等20余款国产芯片,推动国产算力商业化进程。
- 成功落地多个千卡级别国产算力集群,为“百模争流”的大模型时代提供坚实支撑。
这一战略举措不仅降低了对外部技术的依赖,也提升了整体AI生态的自主可控能力。
行业应用与业务转型
商汤大装置已广泛应用于多个行业领域:
- 支持上千个参数量在数十亿至上千亿的大模型训练。
- 客户涵盖京东、小米、阅文、金山办公等大型企业,以及澜舟科技、Tiamat等AI初创公司。
- 在金融、医疗、基础科研等领域,大装置帮助机构训练垂直领域模型,如蛋白质折叠等。
- 在气象领域,与高校院所合作推出全球中期气象预报大模型“风乌”,在商汤大装置支持下,首次实现10.75天的有效预报时长,远超此前物理模型的8.5天。
与此同时,商汤科技的业务结构也发生重大转型。2023年,其生成式AI业务收入迅速突破12亿元,成为公司成立以来最快达到该体量的新业务。
商汤大装置的未来展望
随着AI 2.0时代的全面到来,商汤大装置不仅支撑其自身大模型体系“日日新”的快速迭代:
- “日日新4.0”已具备与GPT-4相匹敌的能力。
- “日日新5.0”预计2024年4月发布,性能将全面对标GPT-4 Turbo。
大装置团队仍在持续优化算力调度、网络拓扑、容错机制等关键技术,致力于构建万卡级AI原生算力平台。未来,随着更多国产芯片的适配和行业客户的深入合作,商汤大装置有望在算力即服务(CaaS)和模型即服务(MaaS)的新范式中占据主导地位。