[大模型评测 - AI 智域导航

首页

登录

当前标签：[大模型评测

10小时测完DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

10小时测完DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

10小时测完DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

南大团队直击大模型高分神话：人类90分，最强模型仅49分

南大团队直击大模型高分神话：人类90分，最强模型仅49分

南大团队实测揭示大模型在复杂推理任务中远逊人类，最强模型Gemini-3-Pro仅得49.4分，人类专家达90.7分。