百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA
96.33%准确率碾压竞品,文档解析新王诞生
在OmniDocBench v1.6这一业界公认的文档解析核心基准上,PaddleOCR-VL-1.6一举拿下96.33%的总指标,直接超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等一众顶级闭源与开源方案,综合性能跃居全球第一。测试数据显示,该模型在文本、公式、表格三大核心识别维度上全线领先,彻底巩固了百度飞桨在OCR与文档理解领域的技术制高点。

0.9B参数缔造奇迹:小模型也能吊打大模型
令人瞩目的是,PaddleOCR-VL-1.6的参数量仅0.9B,却能在OmniDocBench上刷新纪录,完胜参数远超自己的GPT-4o、Gemini等庞然大物。这种极致轻量的设计离不开其精心设计的架构——集成高效视觉编码器与强大语言模型,专为文档元素识别而生。在上一代PaddleOCR-VL-0.9B已实现94.5%精度的基础上,1.6版本进一步将表格、公式及文本识别能力大幅拉升,并首次成为全球支持异形框(如不规则印章、手绘图表框)的行业先驱。
复杂场景全面开花:古籍、生僻字、印章一个不落
除了常规文档,PaddleOCR-VL-1.6在表格、古籍、生僻字识别等复杂场景中表现尤为亮眼。测试结果显示,其针对印章、Spotting(目标检测定位)等高度变形或遮挡元素的处理能力显著提升,彻底攻克了传统OCR模型面对凌乱排版、污损古籍、特殊符号时的痛点。这意味着无论医院处方、历史拓本还是金融票据,该模型都能精准解析,将“不可能”变成“毫秒级”的随手可得。
文档解析界的全栈革命:从视觉到语义的全面SOTA
PaddleOCR-VL-1.6不仅刷新了精度记录,更标志着多模态文档理解进入新阶段。作为百度文心生态的核心组件,它具备“强多模态”能力——不只是识别字符,更能理解文档的逻辑结构、表格关系与公式语义。四大核心能力(文本识别、公式解析、表格重构、异形框定位)全线达到SOTA,真正实现从视觉像素到语义知识的端到端跃迁。未来,该模型将直接赋能百度智能云、智慧金融、数字图书馆等业务,推动文档处理效率实现量级突破。