难上热搜的高考数学，我拿ChatGPT和豆包PK了一把！

1 个月前

AI资讯

63 阅读

豆包 AI评测元宝高考数学

国产双雄并列第一，豆包与元宝领跑

在2025年高考数学新课标Ⅰ卷的客观题（14道，满分73分）测试中，字节跳动的豆包和腾讯的元宝（T1）均以68分的总成绩并列第一。两者仅在单选题第6题上失手，其余题目全部正确，展现出稳定的多步推理和函数分析能力。紧随其后的是DeepSeek（63分）和通义（62分），而百度文心X1 Turbo因多选题和填空题频频失误，仅获51分。最令人意外的是OpenAI的o3，它面对中国高考数学题表现出明显的“水土不服”，正确率仅47%，被网友调侃“降智”实锤。

单选题成“分水岭”，图像识别仍是AI短板

单选题共8道，满分40分。豆包、通义、元宝和文心均斩获35分，DeepSeek错两道得30分，而o3仅答对一半。测试发现，第6题涉及图像识别的题目成为“杀手”——几乎所有大模型的多模态能力都在此翻车。例如，DeepSeek的OCR识别出现严重错误，导致无法正确理解题目；通义虽歪打正着选对答案，但计算方法本身有误。这暴露出当前AI在图文结合理解上的共性短板，即便是国产顶尖模型也难以完美应对。

难上热搜的高考数学，我拿ChatGPT和豆包PK了一把！

多选题满分通关，豆包、DeepSeek、元宝展现稳定推理

多选题共3道，总分18分。豆包、DeepSeek和元宝三道题全部满分，发挥极为稳定。相比之下，文心X1 Turbo则表现尴尬：三道题错了俩，其中一道甚至未响应。更可惜的是，文心在最后一道填空题上思路完全正确，算出了公比为2或-2，却因画蛇添足地补充“通常取正值”而丢掉分数。豆包虽然在填空题中也曾犯过类似错误（排除-2），但整体表现仍优于文心。

解答题拉开差距，Gemini称王但国产紧随其后

在包含5道解答题（满分77分）的完整测试中，谷歌Gemini 2.5 Pro以总分145分夺得第一，豆包和DeepSeek R1以144分并列第二，ChatGPT O3为140分。解答题成为大模型失分重灾区，除了Gemini拿到全部分数，其他模型均有丢分。其中DeepSeek和豆包仅失1分，O3失2分，而腾讯混元T1和文心X1 Turbo分别只拿到68分和66分。值得注意的是，所有参测模型在解答题上的得分均超过134分，在考生中属于非常优秀的水平。

从“全军覆没”到“高分频出”，AI数学能力一年飞跃

对比去年复旦大学NLP实验室的测试结果——当时AI大模型在数学题上几乎“全军覆没”，今年大模型的进步堪称飞跃。深度思考模式、针对数学题的专项优化，让AI在处理复杂函数、概率建模、解析几何计算时更加游刃有余。尽管图像识别和多步推理仍有提升空间，但国产模型如豆包、DeepSeek已能稳定应对高考数学的大部分难题。这也解释了为何今年高考期间，多家AI厂商主动暂停图片识别问答功能——它们确实具备了被考生用于作弊的能力。

难上热搜的高考数学，我拿ChatGPT和豆包PK了一把！

国产双雄并列第一，豆包与元宝领跑

单选题成“分水岭”，图像识别仍是AI短板

多选题满分通关，豆包、DeepSeek、元宝展现稳定推理

解答题拉开差距，Gemini称王但国产紧随其后

从“全军覆没”到“高分频出”，AI数学能力一年飞跃

链接失效反馈