Anthropic最强模型，很可能敲响了AGI的防盗门

3 个月前

AI资讯

38 阅读

人工智能安全威胁编程推理

近日，网络安全研究员意外发现了Anthropic一组未公开的内部文件，其中详细披露了一款代号为“Capybara”的前沿模型，其产品层级命名为“Mythos”。这份草稿毫不掩饰其强大的性能，直言其在软件编程、学术推理以及网络安全测试上的得分显著超越了当前最强的Claude Opus 4.6。更引人注目的是，文件中提到该模型在“网络能力方面目前远远领先于任何其他AI模型”。

这一发现迅速得到了Anthropic方面的侧面证实，该公司发言人承认新模型在推理与编码上取得了“有意义的进步”，是一种“阶跃式变化”。然而，随之而来的还有高度的警惕。由于担心该模型可能被用于发现零日漏洞或被滥用于网络攻击，Anthropic迅速关闭了公开访问权限，并将其发布策略调整为极度谨慎，仅交付给极少数早期客户进行风险测试。这不仅是一次技术迭代，更像是一次可能引发安全格局重构的“压力测试”。

模型架构的质变：从“单次回答”到“线束化执行”

如果我们深入剖析Mythos的技术潜力，会发现它的提升可能不只是参数量的堆砌，而是一套“模型+编排+验证+风险控制”的复合系统。其中最核心的变化在于任务执行的稳定性与长链条操作能力。

线束管理（Harness）的进化：传统大模型在处理复杂任务时往往是线性的、脆弱的。而Mythos展现出的能力更接近工业级的“线束管理”。它不再是想到哪改到哪，而是能够先拆解改动图，分批落patch，甚至主动补测试、跑静态检查。
长任务的断点续传与局部修复：在长链条任务中，一旦某一步报错，Mythos不需要从头再来，而是能精准定位问题发生地，进行局部修复后继续执行。这对于编程、自动化研究等需要高稳定性的场景至关重要，意味着它从一个“单次回答强”的模型，进化为“整条执行链稳”的系统。

网络安全与漏洞挖掘：双刃剑的锋芒

泄露文件中最令人担忧也最能体现其能力的，是Capybara在网络安全领域的表现。草稿中明确指出，该模型“预示着即将到来的一波模型浪潮，这些模型利用漏洞的能力将远远超过防御者的努力”。

语义级漏洞推理：与传统模糊测试（Fuzzing）那种“乱撞”式的寻找漏洞不同，Mythos展现出了语义级的理解能力。它能理解代码逻辑、分析历史修复模式，从而推断出尚未被发现的同类漏洞（Zero-day）。
行为模式识别：这正如现代EDR（端点检测与响应）系统，不再单纯依赖病毒库比对，而是通过分析API调用序列、进程行为等来判断威胁。Mythos的这种能力意味着它不仅能发现漏洞，还能理解攻击路径，这种能力一旦被恶意使用，后果不堪设想。
对外部系统的影响：文章提到，OpenAI的GPT-5.3-Codex也曾被归类为“高网络安全能力”，但Anthropic显然试图在这一维度上实现超越。这种能力的封闭发布，反映了业界对AI能力外溢风险的焦虑。

思考方式的革命：测试时计算与强化学习的转向

Mythos之所以被视为接近AGI的门槛，还在于其底层推理方式的改变，这主要体现在“测试时计算”（Test-time Compute）和强化学习的目标调整上。

动态思考预算：Mythos不再是匀速线性吐字的机器。它像一个学霸，拿到题目会先分级：简单题秒答，压轴大题则分配更多算力进行深度思考、打草稿、反复验证。这种“因题制宜”的思考策略，大幅提升了复杂问题的解决率。
过程导向的强化学习：传统的RLHF（人类反馈强化学习）往往只看结果（项目有没有交差）。而Mythos的训练更关注过程——它被训练去拆解计划、合理调用工具、在出错时回退修正。这种训练方式让模型具备了“工程师思维”，即从单一指令执行者，转变为具备排障与实验能力的智能体。

潜在的AGI特征：语义泛化与工具驾驭

整合上述能力，Mythos显露出向通用人工智能（AGI）靠拢的特征，它不再是被动调用工具，而是开始“理解”工具与环境。

从操作员到工程师：在计算机使用（Computer Use）场景下，它可能从简单的UI自动化，升级为像工程师一样做排障实验。当遇到未知问题时，它甚至能“原地掏出一个机床”，自己制造特化工具来解决问题。
语义安全内化：Mythos的安全机制也从的过滤器，变成了推理过程本身的一部分。它不再只是屏蔽敏感词，而是能综合判断任务语义、工具调用顺序和代码行为，预判一个请求可能造成的后果。这种能力是实现高阶AI安全对齐的关键。

结语：防盗门后的博弈

虽然目前Capybara/Mythos仍处于封闭测试阶段，且Anthropic极力控制其风险外泄，但泄露的信息已经勾勒出下一代AI系统的轮廓。这是一个在编程、推理、安全漏洞发现以及长任务自动化上都实现“阶跃式变化”的系统。它证明了LLM的演进不仅是变大，更是变“深”、变“稳”、变“聪明”。当AI能够自主拆解任务、发现系统深层漏洞并自我修正错误时，我们确实已经站在了AGI的门槛前，敲响了那扇紧闭的防盗门。未来真正的考验，将在于如何在释放其巨大潜力的同时，确保这把双刃剑不会失控。