最强文本转 SQL 任务 AI 模型:谷歌发布 Gemini-SQL2,准确率 80.04% 登顶

几乎横扫所有榜单:Gemini-SQL2凭什么登顶?

Gemini-SQL2在BIRD-SQL排行榜上以80.04%的准确率拔得头筹,比第二名的模型高出近3个百分点。这一成绩得益于谷歌对Gemini架构的深度优化——参考4中Gemini 2.5 Pro正式版在SQL能力评测中综合得分82,并在SQL优化、方言转换、SQL理解三大维度均有突破。Gemini-SQL2正是继承了这一技术路线,针对文本转SQL任务进行了专项训练,使其能够准确理解自然语言查询意图,并生成高效、正确的SQL语句。

最强文本转 SQL 任务 AI 模型:谷歌发布 Gemini-SQL2,准确率 80.04% 登顶

从Gemini Ultra到Pro:谷歌文本转SQL的一路进化

谷歌在文本转SQL领域并非一蹴而就。早在Gemini Ultra版本,其在代码生成基准HumanEval上就达到74.4%,远超GPT-4的67.0%(参考1)。随后,Gemini Pro被定位为广泛任务的性能标杆(参考2),而Gemini 2.5 Pro正式版则进一步兑现了“从预览到稳定”的承诺——在Oracle到OceanBase的复杂迁移路径测试中,Gemini 2.5 Pro成为少数能较好完成任务的顶级模型(参考4)。Gemini-SQL2正是这一进化链条的最新产物,将代码理解能力与SQL领域知识深度融合。

面对强敌:Gemini-SQL2如何击败GPT-4和Claude?

当前文本转SQL赛道竞争激烈。OpenAI的GPT-4和Anthropic的Claude Sonnet 4均参与其中,但Gemini-SQL2凭借更高的准确率拉开差距。参考1显示,Gemini Ultra在综合能力、代码能力上曾全面压制GPT-4(MLMU 90.0% vs 86.4%,HumanEval 74.4% vs 67.0%)。参考4中,Claude Sonnet 4首秀在SQL优化、方言转换、SQL理解维度得分分别为70.9、77.1、79.3,均低于Gemini 2.5 Pro的稳定版表现(综合82分)。Gemini-SQL2在此基础上进一步调优,尤其在执行准确率这一硬指标上实现突破。

不只是SQL:Gemini-SQL2背后的多模态推理引擎

Gemini-SQL2的强大并非孤立——它依托于整个Gemini家族的多模态推理能力。参考3中,Gemini 3在GPQA Diamond测试中获得91.9%,在MMMU-Pro多模态推理上达到81%,这意味着模型能更可靠地理解自然语言中的复杂逻辑和隐含条件。即使面对包含表格截图、语音描述的非标准查询,Gemini-SQL2也能借助原生多模态理解能力(参考2的跨模态综合能力)解析意图,从而生成更精准的SQL。这一设计使其在真实企业场景中比纯文本模型更具优势。

开发者福音:Gemini-SQL2如何改变数据库工作流?

Gemini-SQL2不仅是一个排名产物,更将重塑开发者与数据库的交互方式。参考4中,评测新增了“大SQL转换”指标,模拟从Oracle到OceanBase的迁移场景——Gemini 2.5 Pro是少数能高质量完成转换的模型。Gemini-SQL2进一步降低了这一门槛:开发者只需用自然语言描述需求,模型即可输出兼容不同数据库方言的SQL。结合参考3中Gemini 3的智能体能力(如Vending-Bench 2长期规划工具使用),未来数据库运维、报表生成、数据迁移等重复性工作有望实现全自动化,大幅提升效率。