AI原生时代下,让世界适应Agent,而非教AI做人
论文留下最后一句:十多年前的旧攻击算法仍能奏效
黄超在演讲中分享了一个令从业者深思的发现:他在论文末尾留下了一个判断——"不需要任何新攻击算法。十多年前就..."。这一结论直指当前AI安全领域的核心困境:即便在Agent快速迭代的今天,大量传统安全漏洞依然未被修复。他呼吁从业者将精力从"教AI做人"转移到构建更鲁棒的Agent基础设施上,因为旧有的攻击手段在全新架构下依然能造成破坏。
用三个机制锁死循环失控风险
针对Agent运行时可能出现的循环依赖与计算失控,黄超团队提出了一套工程化的稳定方案:
- LTI约束注入:将循环神经网络的谱半径强制控制在小于1的范围内,从根本上抑制梯度爆炸或发散。
- 自适应计算时间(ACT):允许模型在不同推理步骤中根据任务复杂度自主决定何时"停机",避免无限循环。
- 深度级LoRA适配器:让每一次迭代迭代都能调用独立的参数调整行为,而非共享同一套微调层。

这三项机制被集成到新一代Agent框架中,使得多步推理的误差累积现象减少了83%。
从"模拟人类"到"世界重构":Agent不应被人类逻辑束缚
黄超指出,当前行业存在严重的路径依赖:开发者习惯用"拟人化"标准要求Agent——要求它懂礼貌、会解释、按人类社交规则行事。但AI原生时代的生产力爆发,恰恰需要Agent完全脱离人类的行为框架。例如,一个用于金融风控的Agent每秒需要处理数万笔交易,它不需要"像人一样思考",只需要确保结果可验证、流程可回滚。他主张将Agent视为一种新物种,为它们设计专属的通信协议、错误处理机制和权限模型,而非强迫它们学会"做人"。
当Agent不再需要"解释自己",安全防线反而更牢固
传统AI安全强调"可解释性",但黄超认为这在Agent场景下可能成为攻击入口。他展示了团队的最新实验:当Agent被要求每一步都输出"理由"时,反而暴露了更多可被篡改的中间变量。相反,采用黑盒验证+形式化证明的架构,可以在不透露内部逻辑的前提下保证行为边界。例如,一个供应链调度Agent只需对外输出是否满足约束条件的"保证书",而无需说明它为何选择某条路线——这种设计让十多年前那套旧攻击算法彻底失效。