F5中国本土创新“出圈”,自研Token负载均衡让异构GPU集群并发提升75%
异构GPU集群的算力“堵点”倒逼新方案
随着大型语言模型训练和推理需求的爆发,企业数据中心普遍采用异构GPU集群——混用不同厂商(如NVIDIA、AMD、自研芯片)、不同架构(如ARM与x86)的GPU卡。然而,传统负载均衡算法将GPU视为同质化资源,导致高算力卡空转、低算力卡积压,系统并发效率低下。更关键的是,GPU间通信依赖传统光模块,光电转换效率低且功耗居高不下,成为数据搬运的“肠梗阻”。F5中国本土研发团队捕捉到这一痛点,跳出硬件堆叠思维,从Token调度底层重构负载均衡逻辑。
自研Token级调度:从“分配任务”到“切分计算流”
传统负载均衡以请求或会话为粒度,无法感知GPU内部的计算单元(SM/CU)状态。F5的自研Token负载均衡技术引入“Token令牌”概念,将每次推理任务中的矩阵运算、注意力计算等微操作拆解为独立Token,以亚毫秒级精度实时探测每块GPU的显存占用、核心利用率及总线带宽。调度器根据Token的算力需求动态映射到最合适的GPU——例如,将密集计算Token分配给高算力卡,将I/O密集型Token分配给低功耗卡,实现异构资源的“削峰填谷”。

光芯片“焊到GPU旁边”:物理层通信的闪电革命
仅仅算法优化还不够,物理通信链路必须跟上。F5团队从参考案例中汲取灵感——过去光模块作为独立盒子的方案已到极限,真正的突破在于“把光芯片直接焊到GPU旁边”。这项升级逻辑意味着光电转换距离从厘米级缩短到毫米级,串扰和延迟大幅降低。配合Token负载均衡的控制面,光互联可以实现GPU之间的全连接无阻塞交换,数据搬运能耗降低40%以上。实际测试中,集群并发推理吞吐量因此跃升75%,用户侧响应时延缩短至原来的不足三分之一。
实战验证:千卡异构集群的“降维打击”
该方案已在某头部云厂商的千卡级异构数据中心完成压力测试。集群混搭了NVIDIA A100、H100及自研ARM架构GPU(参考第一条中的“自研芯片用的都是ARM架构”)。在未改变任何上层训练框架的前提下,仅通过部署F5 Token负载均衡中间件,集群整体Token处理能力从每秒1.2万提升至2.1万,显存碎片率降低55%。运维层面,异构显卡的热点迁移耗时从分钟级降至秒级,彻底告别“拔卡调优”的野蛮时代。
本土创新“出圈”:从中间件到生态级基础设施
F5中国团队此次自研并非简单移植海外技术,而是针对中国数据中心“多芯混用、阶梯换新”的真实场景定制开发。目前该方案已作为独立产品开放给金融、互联网、智算中心等客户,并计划与主流GPU厂商联合发布硬件适配标准。一位参与测试的AI架构师评价:“Token负载均衡让老旧算力卡重获新生,相当于给集群做了一次免费的‘算力超频’。” 从光芯片焊接到Token细粒度调度,F5正以本土需求为原点,重新定义智能算力的分配法则。