腾讯AI还有一张暗牌
背景:AI进化进入Agent时代
在大模型逐步成熟之后,行业开始面临一个新问题:如何让模型真正「行动」起来。传统模式下,模型只需生成文本、回答问题即可,但在Agent时代,AI需要像人类一样操作文件、调用工具、执行代码、修正错误。这意味着,模型训练不再只是算法问题,而是工程问题。
MiniMax作为一家从2022年起步的AI初创公司,从M2.5版本开始尝试Agentic RL(基于强化学习的智能体训练)路径。这种方式直接将模型置于真实操作系统环境中,进行大量模拟任务。但随之而来的是巨大的计算压力,尤其是在并发沙箱的调度上,传统基础设施无法承载。
腾讯云在2026年上海峰会上首次系统性地公开其Agent Runtime解决方案,与MiniMax的合作标志着其在底层工程上的突破。这场合作不仅是算力支持,更是一次对AI基础设施未来的重新定义。
技术困境:K8S与Serverless不再适用
在Agent训练中,每个任务可能推演出上百条路径,每条路径都需要独立沙箱环境运行。这种高频、高并发的调度,对现有的云计算架构提出了挑战:
-
Kubernetes调度效率不足
Kubernetes(简称K8S)作为微服务时代的核心调度工具,面对Agent动辄数万并发沙箱的请求时,系统响应迟缓,甚至崩溃。其设计初衷是稳定、长时间运行的服务,而非频繁启停的沙箱任务。 -
Serverless机制适配不良
Serverless架构本意是按需启动资源,但在Agent训练中,模型需要长时间“思考”和执行,频繁中断会导致记忆丢失、任务中断。
这些基础设施“摩擦力”直接卡住了模型迭代的速度。阿岛曾指出,GPU集群在等待沙箱启动时,数小时算力就被白白浪费。
解决方案:腾讯Agent Runtime的工程突破
腾讯云在与MiniMax的合作中,推出了Agent Runtime沙箱系统,解决了上述问题。该系统基于云原生架构,分为「控制面」与「执行面」:

- 控制面:负责编排、权限管理与任务审计。
- 执行面:每个任务运行在独立、隔离的沙箱中,毫秒级启动,任务状态可持久化存储,即使沙箱销毁也能恢复。
这套系统实现了以下关键性能:
- 百万级吞吐、十万级并发
MiniMax部署后,成为国内最大的Agent RL训练沙箱系统之一。 - 启动速度从几分钟压缩到百毫秒级
极大地降低了GPU空转时间,提高了训练效率。 - 任务状态持久化
Agent即使在沙箱销毁后也能恢复“记忆”,实现真正的连续任务执行。
腾讯云还在底层进行了大量定制优化:
- 计算层:调度优化、内核锁控制、快照技术、内存映射。
- 存储层:开发了镜像盘/沙箱盘,让磁盘本身就是运行时的一部分。
这些改进让腾讯云不再只是提供算力,而是为AI训练提供「生产级」基础设施。
工程优先:Harness决定AI上限
汤道生在峰会上指出,大模型之间的基础推理能力差距正在缩小,真正的竞争转向工程能力。他用“Harness”来形容支撑Agent运作的一整套系统:
- 工具调用能力
- 上下文管理
- 长期记忆机制
- 安全执行环境
- 工作流编排
这些能力加在一起,构成了Agent能否“有用”的关键。业内已形成共识:
Agent = Model + Harness
MiniMax的实践数据佐证了这一点:通过优化Harness,任务完成率从35%提升至82%。阿岛打了个比方:
模型像是F1引擎,Harness才是车身。
战略意义:腾讯的「暗牌」正在浮出水面
过去一年,腾讯AI陆续亮出明牌:元宝、龙虾特工队、养虾全景图,展示了其在应用层的布局。但这张暗牌——Agent Runtime与Cube平台的开源——才是其在AI基础设施上的核心动作。
Cube全面开源,意味着腾讯不仅是在卖算力,而是在推动整个行业向Agent时代迈进。这与MiniMax的合作也体现了其技术驱动的思路:
- 早期支持初创公司搭建算力集群
- 持续迭代,解决其十万级并发需求
- 推动全球合规与模型分发(如TokenHub)
正如阿岛所说:
“写字的人,多了几个。”
这意味着,腾讯正在将“下一代AI”的构想,从一张白板上的愿景,变为可执行、可落地的系统工程。
展望:谁能在Agent时代留下?
阿岛预测:未来一两年内,能留在AI牌桌上的公司可能不超过5家。留下的关键在于:
- 并发Agent数量:决定了训练效率和模型自我进化能力。
- Token燃烧效率:模型推理和训练的资源利用率。
腾讯与MiniMax的合作,不仅是技术攻坚的成果,也预示着未来AI工程的主战场将转向:
- 系统架构的创新
- 底层资源的高效调度
- Harness Engineering的成熟度
正如Gary所说:
“我们是在两个时代的临界点上,一起携手。”
这正是腾讯AI那张暗牌的价值所在:它不只在训练模型,更在训练整个行业迈向下一个AI时代。