百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA

1 个月前

AI资讯

20 阅读

文档解析 [文心 PaddleOCR OCR]

96.33%准确率碾压竞品，文档解析新王诞生

在OmniDocBench v1.6这一业界公认的文档解析核心基准上，PaddleOCR-VL-1.6一举拿下96.33%的总指标，直接超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等一众顶级闭源与开源方案，综合性能跃居全球第一。测试数据显示，该模型在文本、公式、表格三大核心识别维度上全线领先，彻底巩固了百度飞桨在OCR与文档理解领域的技术制高点。

百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA

0.9B参数缔造奇迹：小模型也能吊打大模型

令人瞩目的是，PaddleOCR-VL-1.6的参数量仅0.9B，却能在OmniDocBench上刷新纪录，完胜参数远超自己的GPT-4o、Gemini等庞然大物。这种极致轻量的设计离不开其精心设计的架构——集成高效视觉编码器与强大语言模型，专为文档元素识别而生。在上一代PaddleOCR-VL-0.9B已实现94.5%精度的基础上，1.6版本进一步将表格、公式及文本识别能力大幅拉升，并首次成为全球支持异形框（如不规则印章、手绘图表框）的行业先驱。

复杂场景全面开花：古籍、生僻字、印章一个不落

除了常规文档，PaddleOCR-VL-1.6在表格、古籍、生僻字识别等复杂场景中表现尤为亮眼。测试结果显示，其针对印章、Spotting（目标检测定位）等高度变形或遮挡元素的处理能力显著提升，彻底攻克了传统OCR模型面对凌乱排版、污损古籍、特殊符号时的痛点。这意味着无论医院处方、历史拓本还是金融票据，该模型都能精准解析，将“不可能”变成“毫秒级”的随手可得。

文档解析界的全栈革命：从视觉到语义的全面SOTA

PaddleOCR-VL-1.6不仅刷新了精度记录，更标志着多模态文档理解进入新阶段。作为百度文心生态的核心组件，它具备“强多模态”能力——不只是识别字符，更能理解文档的逻辑结构、表格关系与公式语义。四大核心能力（文本识别、公式解析、表格重构、异形框定位）全线达到SOTA，真正实现从视觉像素到语义知识的端到端跃迁。未来，该模型将直接赋能百度智能云、智慧金融、数字图书馆等业务，推动文档处理效率实现量级突破。

百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA

96.33%准确率碾压竞品，文档解析新王诞生

0.9B参数缔造奇迹：小模型也能吊打大模型

复杂场景全面开花：古籍、生僻字、印章一个不落

文档解析界的全栈革命：从视觉到语义的全面SOTA

链接失效反馈