首页
登录
当前标签:基准测试]
Opus 4.8:一个不太诚实的模型
Anthropic声称Claude Opus 4.8比前代更“诚实”,但“诚实”本身成为最难验证的指标——模型糊弄你的成本几乎为零,而你必须重新检查才能确认它是否真的说了实话。