10小时测完DeepSeek-V4!北大团队终结工程师噩梦?深扒大模型评测的“千亿生意”
南大团队实测揭示大模型在复杂推理任务中远逊人类,最强模型Gemini-3-Pro仅得49.4分,人类专家达90.7分。