实测 Claude Opus 4.8：活干得更漂亮了，话说得更难听了

1 个月前

AI资讯

46 阅读

代码生成 claude AI评测 Opus 4.8 上下文维护

Claude Code写复杂项目更舒服，代码感和上下文维护强

不少开发者反馈，Claude Opus 4.8在代码任务上最大的变化是“上下文维护”能力飞跃。参考资料中多次提到：“Claude Code写复杂项目很舒服，代码感和上下文维护很好。”相比之下，Codex/GPT系在某些命令行自动化、测试循环、执行反馈上更丝滑（不容易失败）。实测场景中，Opus 4.8能持续记住多文件间的依赖关系，重构时不再频繁丢失变量引用——这在过去版本中常让人抓狂。

代码生成：对长函数、多文件结构的理解准确，少有遗漏。
状态控制：Agent调用的中间结果缓存机制更智能，减少重复计算。
不足之处：极少数边缘情况下（如复杂正则或系统调用）仍不如GPT系稳定，但整体“干得更漂亮”。

Agent能力爆发：定时任务与深度任务运行

Claude Opus 4.8在Agent方向上的进步更引人注目。据行业内实验，Claude App里常驻5到10个session、几百个Agent，夜里有几千个在跑深度任务。开发者管这种做法叫Loop——让Claude用cron起一个定时任务，每分钟、每五分钟或每天跑一次。实测中，Opus 4.8对这种循环式Agent编排的支持明显优于前代：

实测 Claude Opus 4.8：活干得更漂亮了，话说得更难听了

任务调度：cron语法识别率接近100%，能自动处理时区、夏令时。
失败重试：Agent执行脚本若报错，Opus 4.8不再简单堆栈输出，而是尝试分析根因并修正命令。
“话说得更难听”：若任务设计不合理（如循环中缺少退出条件），模型会直接抛出“这种死循环是在浪费算力”等尖锐批评，不再委婉。

模型强了，但AI Safety批评更犀利了

关于Claude模型系列的可靠性，参考资料提到“对AI Safety的批评（非常犀利）”。实测Opus 4.8时，这一特征尤其明显：当用户试图绕过安全护栏（如生成钓鱼代码），模型不仅拒绝执行，还会附加一段直白的说理，甚至反问“你真的需要这样做？”而非简单回复“I'm sorry, I cannot”。另一方面，模型对AI安全研究者的意见也变得更挑剔，能指出某些对齐方案的理论漏洞。这种风格被不少开发者形容为“活干得更漂亮了，话说得更难听了”——能力提升伴随态度硬朗。

Gemini 3的转折点与Claude家族能力对比

实测中还将Opus 4.8与竞品Gemini 3做了横向对比。参考资料指出，Gemini 3的转折点在于“更强的深层思考（Deep Think）”，而Claude家族则在agentic coding上领先。Opus 4.8继承了Claude 3.7开始大规模化、窄而精的数据分布策略，在数学推理、数值稳定性上更进一步。以下是几个关键差异：

代码Agent：Opus 4.8 > Gemini 3（尤其在多步骤任务中）。
深度思考：Gemini 3 > Opus 4.8（对复杂数学证明更透彻）。
对话风格：Opus 4.8更直白，Gemini 3更谨慎。
安全控制：两者都严格，但Opus 4.8的批评性反馈更个性化。

预训练与后训练之争：工程vs科学

最后，实测视角还引出一个更深层讨论：AI本质是简单的。参考资料中核心命题是：“AI本质是简单的。”（且强调这是statement不是conclusion）。Opus 4.8的“话说得难听”或许正源于这种对简洁性的追求——模型不再扮演圆滑助手，而是专注于精准输出。在预训练vs后训练的分歧上，实测表明：Opus 4.8在后训练RL环节投入巨大，这正是它“干活漂亮”的基础；而前代Claude 3.6（实为3.5 new）则更多是架构小修补。这项实测也印证了业内判断：TPU vs GPU、工程vs科学的争论尚未停歇，但模型输出风格的变化已率先落地——用户在获得更高效率的同时，也得接受更不留情面的对话。

实测 Claude Opus 4.8：活干得更漂亮了，话说得更难听了

Claude Code写复杂项目更舒服，代码感和上下文维护强

Agent能力爆发：定时任务与深度任务运行

模型强了，但AI Safety批评更犀利了

Gemini 3的转折点与Claude家族能力对比

预训练与后训练之争：工程vs科学

链接失效反馈