从大模型到Agent的跨越难度，正被整个行业严重低估

1 个月前

AI资讯

164 阅读

人工智能 Agent [大模型技术挑战]

人工智能发展至今，大语言模型（LLM）已展现出强大的知识问答和逻辑推理能力，但当行业开始尝试将其能力从“回答问题”拓展至“完成任务”时，一个全新的挑战浮现出来：如何将静态的智能转化为动态的生产力？这正是从LLM向Agent演进的核心命题。

Agent被寄望于具备自主规划、环境感知、工具调用与任务执行的能力，类似于一个能独立完成多步骤工作的AI员工。然而，这一跃迁并非简单的版本更新，而是一次技术范式的彻底重构。

为了真实评估Agent的实际能力，APEX-Agents基准测试摒弃了传统的MMLU、HumanEval等以“知识掌握度”为核心的评测方式，转而构建了一个数字沙盒环境，包含33个模拟现实场景的“世界（Worlds）”。

这些任务涉及9大类应用场景，包括文档处理、公式调试、需求确认等。评测不仅要求Agent完成最终目标，还强调过程的合理性与可解释性，引入了“过程准则（Rubrics）”作为评判标准。

在这一全新标准下，顶尖模型的表现并不理想：

这揭示了一个现实：当前AI Agent在复杂任务链中仍表现出显著的不稳定性和认知缺陷。

尽管模型在某些场景中展现出潜力，但在关键任务中暴露出多个严重问题：

这些问题表明，即便是在最先进模型的支持下，Agent仍无法满足企业级任务中对“可靠”与“安全”的基本要求。尤其在金融、法律等高风险领域，这种误操作可能带来灾难性后果。

Agent在模拟环境中执行任务，对资源的消耗远高于传统LLM应用。例如，Google的Gemini 3 Flash单次任务平均消耗531.5万token，约为GPT-5.2的5倍、Gemini 3 Pro的8倍。

这种“高消耗+低增益”的现象揭示了Agent在实际部署中面临的一个产业级难题：

因此，如何在有限资源下实现高成功率、高稳定性的任务执行，是当前Agent发展必须跨越的关键鸿沟。

LLM时代，训练数据主要依赖于已有的文本、图像、音视频等“非结构化存量数据”。然而，Agent的训练数据需求完全不同，它需要大量真实环境下的交互记录与决策路径。

当前Agent训练仍面临严峻挑战：

与字节跳动通过Seedance 2.0在TikTok中积累视觉数据实现多模态突破不同，Agent训练无法依赖现有数据，必须通过主动构建来获取“过程性知识”。而这一过程本质上属于强化学习范式，在数据不足的情况下，Agent只能陷入严重的欠拟合状态。

在Agent能力排行榜中，一个显著趋势是闭源模型对开源模型形成碾压性优势：

这种差距主要源于以下几点：

这种生态分化将进一步加剧AI产业的集中度，使开源模型在Agent时代面临边缘化的风险。

要实现真正可靠的Agent，行业必须正视其构建难度，并围绕以下三大核心展开持续投入：

从大模型到Agent的跨越不仅是技术挑战，更是数据、算法、工程和产业协同能力的综合考验。在这一过程中，行业的低估情绪正在被现实无情修正，唯有正视问题、构建生态，才能真正实现AI的“工作制”时代。