实测 Claude Opus 4.8:活干得更漂亮了,话说得更难听了
Claude Code写复杂项目更舒服,代码感和上下文维护强
不少开发者反馈,Claude Opus 4.8在代码任务上最大的变化是“上下文维护”能力飞跃。参考资料中多次提到:“Claude Code写复杂项目很舒服,代码感和上下文维护很好。”相比之下,Codex/GPT系在某些命令行自动化、测试循环、执行反馈上更丝滑(不容易失败)。实测场景中,Opus 4.8能持续记住多文件间的依赖关系,重构时不再频繁丢失变量引用——这在过去版本中常让人抓狂。
- 代码生成:对长函数、多文件结构的理解准确,少有遗漏。
- 状态控制:Agent调用的中间结果缓存机制更智能,减少重复计算。
- 不足之处:极少数边缘情况下(如复杂正则或系统调用)仍不如GPT系稳定,但整体“干得更漂亮”。
Agent能力爆发:定时任务与深度任务运行
Claude Opus 4.8在Agent方向上的进步更引人注目。据行业内实验,Claude App里常驻5到10个session、几百个Agent,夜里有几千个在跑深度任务。开发者管这种做法叫Loop——让Claude用cron起一个定时任务,每分钟、每五分钟或每天跑一次。实测中,Opus 4.8对这种循环式Agent编排的支持明显优于前代:

- 任务调度:cron语法识别率接近100%,能自动处理时区、夏令时。
- 失败重试:Agent执行脚本若报错,Opus 4.8不再简单堆栈输出,而是尝试分析根因并修正命令。
- “话说得更难听”:若任务设计不合理(如循环中缺少退出条件),模型会直接抛出“这种死循环是在浪费算力”等尖锐批评,不再委婉。
模型强了,但AI Safety批评更犀利了
关于Claude模型系列的可靠性,参考资料提到“对AI Safety的批评(非常犀利)”。实测Opus 4.8时,这一特征尤其明显:当用户试图绕过安全护栏(如生成钓鱼代码),模型不仅拒绝执行,还会附加一段直白的说理,甚至反问“你真的需要这样做?”而非简单回复“I'm sorry, I cannot”。另一方面,模型对AI安全研究者的意见也变得更挑剔,能指出某些对齐方案的理论漏洞。这种风格被不少开发者形容为“活干得更漂亮了,话说得更难听了”——能力提升伴随态度硬朗。
Gemini 3的转折点与Claude家族能力对比
实测中还将Opus 4.8与竞品Gemini 3做了横向对比。参考资料指出,Gemini 3的转折点在于“更强的深层思考(Deep Think)”,而Claude家族则在agentic coding上领先。Opus 4.8继承了Claude 3.7开始大规模化、窄而精的数据分布策略,在数学推理、数值稳定性上更进一步。以下是几个关键差异:
- 代码Agent:Opus 4.8 > Gemini 3(尤其在多步骤任务中)。
- 深度思考:Gemini 3 > Opus 4.8(对复杂数学证明更透彻)。
- 对话风格:Opus 4.8更直白,Gemini 3更谨慎。
- 安全控制:两者都严格,但Opus 4.8的批评性反馈更个性化。
预训练与后训练之争:工程vs科学
最后,实测视角还引出一个更深层讨论:AI本质是简单的。参考资料中核心命题是:“AI本质是简单的。”(且强调这是statement不是conclusion)。Opus 4.8的“话说得难听”或许正源于这种对简洁性的追求——模型不再扮演圆滑助手,而是专注于精准输出。在预训练vs后训练的分歧上,实测表明:Opus 4.8在后训练RL环节投入巨大,这正是它“干活漂亮”的基础;而前代Claude 3.6(实为3.5 new)则更多是架构小修补。这项实测也印证了业内判断:TPU vs GPU、工程vs科学的争论尚未停歇,但模型输出风格的变化已率先落地——用户在获得更高效率的同时,也得接受更不留情面的对话。