难上热搜的高考数学,我拿ChatGPT和豆包PK了一把!

国产双雄并列第一,豆包与元宝领跑

在2025年高考数学新课标Ⅰ卷的客观题(14道,满分73分)测试中,字节跳动的豆包和腾讯的元宝(T1)均以68分的总成绩并列第一。两者仅在单选题第6题上失手,其余题目全部正确,展现出稳定的多步推理和函数分析能力。紧随其后的是DeepSeek(63分)和通义(62分),而百度文心X1 Turbo因多选题和填空题频频失误,仅获51分。最令人意外的是OpenAI的o3,它面对中国高考数学题表现出明显的“水土不服”,正确率仅47%,被网友调侃“降智”实锤。

单选题成“分水岭”,图像识别仍是AI短板

单选题共8道,满分40分。豆包、通义、元宝和文心均斩获35分,DeepSeek错两道得30分,而o3仅答对一半。测试发现,第6题涉及图像识别的题目成为“杀手”——几乎所有大模型的多模态能力都在此翻车。例如,DeepSeek的OCR识别出现严重错误,导致无法正确理解题目;通义虽歪打正着选对答案,但计算方法本身有误。这暴露出当前AI在图文结合理解上的共性短板,即便是国产顶尖模型也难以完美应对。

难上热搜的高考数学,我拿ChatGPT和豆包PK了一把!

多选题满分通关,豆包、DeepSeek、元宝展现稳定推理

多选题共3道,总分18分。豆包、DeepSeek和元宝三道题全部满分,发挥极为稳定。相比之下,文心X1 Turbo则表现尴尬:三道题错了俩,其中一道甚至未响应。更可惜的是,文心在最后一道填空题上思路完全正确,算出了公比为2或-2,却因画蛇添足地补充“通常取正值”而丢掉分数。豆包虽然在填空题中也曾犯过类似错误(排除-2),但整体表现仍优于文心。

解答题拉开差距,Gemini称王但国产紧随其后

在包含5道解答题(满分77分)的完整测试中,谷歌Gemini 2.5 Pro以总分145分夺得第一,豆包和DeepSeek R1以144分并列第二,ChatGPT O3为140分。解答题成为大模型失分重灾区,除了Gemini拿到全部分数,其他模型均有丢分。其中DeepSeek和豆包仅失1分,O3失2分,而腾讯混元T1和文心X1 Turbo分别只拿到68分和66分。值得注意的是,所有参测模型在解答题上的得分均超过134分,在考生中属于非常优秀的水平。

从“全军覆没”到“高分频出”,AI数学能力一年飞跃

对比去年复旦大学NLP实验室的测试结果——当时AI大模型在数学题上几乎“全军覆没”,今年大模型的进步堪称飞跃。深度思考模式、针对数学题的专项优化,让AI在处理复杂函数、概率建模、解析几何计算时更加游刃有余。尽管图像识别和多步推理仍有提升空间,但国产模型如豆包、DeepSeek已能稳定应对高考数学的大部分难题。这也解释了为何今年高考期间,多家AI厂商主动暂停图片识别问答功能——它们确实具备了被考生用于作弊的能力。