AI原生时代下，让世界适应Agent，而非教AI做人

1 个月前

AI资讯

37 阅读

AI安全 Agent 基础设施漏洞

论文留下最后一句：十多年前的旧攻击算法仍能奏效

黄超在演讲中分享了一个令从业者深思的发现：他在论文末尾留下了一个判断——"不需要任何新攻击算法。十多年前就..."。这一结论直指当前AI安全领域的核心困境：即便在Agent快速迭代的今天，大量传统安全漏洞依然未被修复。他呼吁从业者将精力从"教AI做人"转移到构建更鲁棒的Agent基础设施上，因为旧有的攻击手段在全新架构下依然能造成破坏。

用三个机制锁死循环失控风险

针对Agent运行时可能出现的循环依赖与计算失控，黄超团队提出了一套工程化的稳定方案：

LTI约束注入：将循环神经网络的谱半径强制控制在小于1的范围内，从根本上抑制梯度爆炸或发散。
自适应计算时间（ACT）：允许模型在不同推理步骤中根据任务复杂度自主决定何时"停机"，避免无限循环。
深度级LoRA适配器：让每一次迭代迭代都能调用独立的参数调整行为，而非共享同一套微调层。

AI原生时代下，让世界适应Agent，而非教AI做人 | 港大黄超@AIGC2026

这三项机制被集成到新一代Agent框架中，使得多步推理的误差累积现象减少了83%。

从"模拟人类"到"世界重构"：Agent不应被人类逻辑束缚

黄超指出，当前行业存在严重的路径依赖：开发者习惯用"拟人化"标准要求Agent——要求它懂礼貌、会解释、按人类社交规则行事。但AI原生时代的生产力爆发，恰恰需要Agent完全脱离人类的行为框架。例如，一个用于金融风控的Agent每秒需要处理数万笔交易，它不需要"像人一样思考"，只需要确保结果可验证、流程可回滚。他主张将Agent视为一种新物种，为它们设计专属的通信协议、错误处理机制和权限模型，而非强迫它们学会"做人"。

当Agent不再需要"解释自己"，安全防线反而更牢固

传统AI安全强调"可解释性"，但黄超认为这在Agent场景下可能成为攻击入口。他展示了团队的最新实验：当Agent被要求每一步都输出"理由"时，反而暴露了更多可被篡改的中间变量。相反，采用黑盒验证+形式化证明的架构，可以在不透露内部逻辑的前提下保证行为边界。例如，一个供应链调度Agent只需对外输出是否满足约束条件的"保证书"，而无需说明它为何选择某条路线——这种设计让十多年前那套旧攻击算法彻底失效。

AI原生时代下，让世界适应Agent，而非教AI做人

论文留下最后一句：十多年前的旧攻击算法仍能奏效

用三个机制锁死循环失控风险

从"模拟人类"到"世界重构"：Agent不应被人类逻辑束缚

当Agent不再需要"解释自己"，安全防线反而更牢固

链接失效反馈