基准测试] - AI 智域导航

首页

当前标签：基准测试]

Anthropic声称Claude Opus 4.8比前代更“诚实”，但“诚实”本身成为最难验证的指标——模型糊弄你的成本几乎为零，而你必须重新检查才能确认它是否真的说了实话。