腾讯AI还有一张暗牌

3 个月前

AI资讯

80 阅读

强化学习 [腾讯AI 智能体训练操作系统环境]

背景：AI进化进入Agent时代

在大模型逐步成熟之后，行业开始面临一个新问题：如何让模型真正「行动」起来。传统模式下，模型只需生成文本、回答问题即可，但在Agent时代，AI需要像人类一样操作文件、调用工具、执行代码、修正错误。这意味着，模型训练不再只是算法问题，而是工程问题。

MiniMax作为一家从2022年起步的AI初创公司，从M2.5版本开始尝试Agentic RL（基于强化学习的智能体训练）路径。这种方式直接将模型置于真实操作系统环境中，进行大量模拟任务。但随之而来的是巨大的计算压力，尤其是在并发沙箱的调度上，传统基础设施无法承载。

腾讯云在2026年上海峰会上首次系统性地公开其Agent Runtime解决方案，与MiniMax的合作标志着其在底层工程上的突破。这场合作不仅是算力支持，更是一次对AI基础设施未来的重新定义。

技术困境：K8S与Serverless不再适用

在Agent训练中，每个任务可能推演出上百条路径，每条路径都需要独立沙箱环境运行。这种高频、高并发的调度，对现有的云计算架构提出了挑战：

Kubernetes调度效率不足
Kubernetes（简称K8S）作为微服务时代的核心调度工具，面对Agent动辄数万并发沙箱的请求时，系统响应迟缓，甚至崩溃。其设计初衷是稳定、长时间运行的服务，而非频繁启停的沙箱任务。
Serverless机制适配不良
Serverless架构本意是按需启动资源，但在Agent训练中，模型需要长时间“思考”和执行，频繁中断会导致记忆丢失、任务中断。

这些基础设施“摩擦力”直接卡住了模型迭代的速度。阿岛曾指出，GPU集群在等待沙箱启动时，数小时算力就被白白浪费。

解决方案：腾讯Agent Runtime的工程突破

腾讯云在与MiniMax的合作中，推出了Agent Runtime沙箱系统，解决了上述问题。该系统基于云原生架构，分为「控制面」与「执行面」：

腾讯AI还有一张暗牌

控制面：负责编排、权限管理与任务审计。
执行面：每个任务运行在独立、隔离的沙箱中，毫秒级启动，任务状态可持久化存储，即使沙箱销毁也能恢复。

这套系统实现了以下关键性能：

百万级吞吐、十万级并发
MiniMax部署后，成为国内最大的Agent RL训练沙箱系统之一。
启动速度从几分钟压缩到百毫秒级
极大地降低了GPU空转时间，提高了训练效率。
任务状态持久化
Agent即使在沙箱销毁后也能恢复“记忆”，实现真正的连续任务执行。

腾讯云还在底层进行了大量定制优化：

计算层：调度优化、内核锁控制、快照技术、内存映射。
存储层：开发了镜像盘/沙箱盘，让磁盘本身就是运行时的一部分。

这些改进让腾讯云不再只是提供算力，而是为AI训练提供「生产级」基础设施。

工程优先：Harness决定AI上限

汤道生在峰会上指出，大模型之间的基础推理能力差距正在缩小，真正的竞争转向工程能力。他用“Harness”来形容支撑Agent运作的一整套系统：

工具调用能力
上下文管理
长期记忆机制
安全执行环境
工作流编排

这些能力加在一起，构成了Agent能否“有用”的关键。业内已形成共识：

Agent = 开心版el + Harness

MiniMax的实践数据佐证了这一点：通过优化Harness，任务完成率从35%提升至82%。阿岛打了个比方：

模型像是F1引擎，Harness才是车身。

战略意义：腾讯的「暗牌」正在浮出水面

过去一年，腾讯AI陆续亮出明牌：元宝、龙虾特工队、养虾全景图，展示了其在应用层的布局。但这张暗牌——Agent Runtime与Cube平台的开源——才是其在AI基础设施上的核心动作。

Cube全面开源，意味着腾讯不仅是在卖算力，而是在推动整个行业向Agent时代迈进。这与MiniMax的合作也体现了其技术驱动的思路：

早期支持初创公司搭建算力集群
持续迭代，解决其十万级并发需求
推动全球合规与模型分发（如TokenHub）

正如阿岛所说：

“写字的人，多了几个。”

这意味着，腾讯正在将“下一代AI”的构想，从一张白板上的愿景，变为可执行、可落地的系统工程。

展望：谁能在Agent时代留下？

阿岛预测：未来一两年内，能留在AI牌桌上的公司可能不超过5家。留下的关键在于：

并发Agent数量：决定了训练效率和模型自我进化能力。
Token燃烧效率：模型推理和训练的资源利用率。

腾讯与MiniMax的合作，不仅是技术攻坚的成果，也预示着未来AI工程的主战场将转向：

系统架构的创新
底层资源的高效调度
Harness Engineering的成熟度

正如Gary所说：

“我们是在两个时代的临界点上，一起携手。”

这正是腾讯AI那张暗牌的价值所在：它不只在训练模型，更在训练整个行业迈向下一个AI时代。

腾讯AI还有一张暗牌

背景：AI进化进入Agent时代

技术困境：K8S与Serverless不再适用

解决方案：腾讯Agent Runtime的工程突破

工程优先：Harness决定AI上限

战略意义：腾讯的「暗牌」正在浮出水面

展望：谁能在Agent时代留下？

链接失效反馈