南大团队实测揭示大模型在复杂推理任务中远逊人类,最强模型Gemini-3-Pro仅得49.4分,人类专家达90.7分。
手机端AI推理能力大幅提升,但逻辑处理仍存短板。
GLM 5是一款拥有7450亿参数的超大规模AI模型,致力于提升智能体能力与复杂推理表现。