综合视频区,无论你在哪,都能随时体验高速与便捷的服务_新万博体育
综合视频区 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件无人能敌 → 综合视频区 v1.869.8530 安卓最新版

综合视频区

综合视频区

  • 电脑版下载
猜你喜欢
标签: 综合视频区 唐校长罗莉金选
详情
介绍
猜你喜欢
相关版本

内容详情

综合视频区

新智元报道

编辑:定慧 KingHZ

【新智元导读】百度登顶全球第一!最新模型「PaddleOCR-VL」以0.9B参数量,在全球权威榜单OmniDocBench V1.5中以92.6分夺得综合性能第一,横扫文本识别、公式识别、表格理解与阅读顺序四项SOTA。

今天习惯性地刷Hugging Face,突然发现Trending榜单第一的模型有点眼熟。

点进去一看,这不百度飞桨昨天才发布的PaddleOCR-VL吗,一夜之间就冲上榜首,这个速度也太快了吧!

Hugging Face:https://huggingface.co/PaddlePaddle/PaddleOCR-VL

去社区翻了一下,发现好多人都在聊这个模型,很多人使用后都各种称赞,什么:

PDF天才、PDF之神、OCR之神、又小又棒、难以置信、好用、迄今为止最强、能像人类一样理解文档、将文档AI提升到全新高度、最好的OCR框架。

左右滑动查看

有点夸张啊,这么厉害的嘛,必须去翻一下了。

去看了一下官方文档,10月16日发布并开源的PaddleOCR-VL,已经在OCR领域全球第一啦!

这里插一句,OCR大家都熟悉,日常扫描或者用AI读个图片已经司空见惯,不过效果多多少少不能100%识别。

OCR在AI领域的能力,还有另一个名称,这个能力基准叫做文档视觉语言理解基准。

仔细看了一下16号公布的数据,在最新OmniDocBench榜单中,PaddleOCR-VL以92.6综合得分位列全球第一!而且是双榜单第一。

OmniDocBench v1.0+v1.5双榜:百度的AI模型PaddleOCR-VL,综合性能全球第一

并且在四大核心能力维度——文本识别、公式识别、表格理解、阅读顺序中,PaddleOCR-VL均位居第一,是榜单中唯一在四项指标中全面领先的模型。

然后去查了下OmniDocBench的权威性,这个基准测试榜单竟然是国际上最有代表性的文档视觉语言理解基准之一。

并且GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL、InternVL 1.5、MonkeyOCR Pro等主流模型都采用这个基准测试结果。

OmniDocBench几乎包含能想到的所有PDF文件样式和内容

这下真的好奇心拉满了,必须实测感受一下了。

在百度飞桨AI Studio上,提供了一个PaddleOCR-VL Demo体验链接,可以直接上传文件。

官方Demo体验:https://aistudio.baidu.com/application/detail/98365

实测惊人,堪称「OCR之神」

在测试完以上四项任务和评测基准外一些专门上难度的例子后,觉得PaddleOCR-VL是真的有点厉害!

最直观的感受就是,非常的准,或者说太准了!不愧是能登顶排第一的模型。

以前我们常用的一些传统OCR,或者说多模态大模型,比如GPT-5/Gemini等,大部分情况下能够识别个80/90%,已经觉得很厉害。

但PaddleOCR-VL给人的感觉就是不管是什么样子的文档上「犄角旮旯的」内容都能识别出来。

文本识别

任意选择了编程书上的一页,PaddleOCR-VL的特点是对版面分解非常清晰。

分割出的每个模块都带有1、2、3这样的序号,在此基础上,再进行文本识别。

特地选择了带水印的代码和文本混杂章节,PaddleOCR-VL识别的准确率是100%。

左右滑动查看

公式识别

对于复杂的数学公式,比如公式都有上下标、且很长的情况,PaddleOCR-VL也能完美的处理。

左右滑动查看

同样的公式,使用GPT-5 OCR的模式,因为公式太长,GPT-5就没有识别出来。

对于手写公式来说,也基本不在话下:

表格识别

OCR识别表格算是一个难题,而且表格类型丰富,有时候带边线,有时候不带,数字又多,模型非常容易整错。

用PaddleOCR-VL测了几个表格,发现它是「看得真准」。

用PaddleOCR-VL识别了一下百度的财报,可以直接整理出一个非常好看的表格。

左右滑动查看

识别一下工作报销用的表格,结果也很完美识别,准确率依然100%。

还可以把类似表格的结构整体出来。

比如,App Store的免费APP排行榜就能提取到一张表格之中。

阅读顺序

OCR识别的另一个难题就是文档的结构和阅读顺序。

现代社会,信息的主要载体就是文档,而现在的文档不仅内容越来越复杂,而且版面也越来越多变。

多栏布局、图文混排、表格、折页、背景装饰、彩色印刷、倾斜扫描、手写注记……都大大增加了OCR的难度。

文档的阅读顺序不一定总是从上到下,从左到右。

在PaddleOCR-VL技术报告附录中,还展示了模型如何像人一样去理解复杂的文档结构。

以一份《2025百度人工智能创新与专利白皮书》为例,其中一页是这样。

早期传统的OCR只能逐行扫描,会将红框中的字体连成一句本不存在的话。

PaddleOCR-VL首先就对内容的版面进行准确地分割和定位。

这就是PaddleOCR-VL一个很强的能力,也是识别准确率很高的一大原因:能够像人一样理解复杂版面结构。

无论是学术论文、多栏报刊还是技术报告,均可智能解析版面布局,自动还原符合人类阅读习惯的阅读顺序。

比如PaddleOCR-VL对左下角的图片处理也很「巧妙」,它直接「截图」,而没有「多此一举」去截取这些文字。

对于更加复杂版面的识别,PaddleOCR-VL的表现也极其稳定。

以一份手写笔记为例,其中涉及到文本、数字、段落和图片等各种元素,以及人类才能理解的左右、上下分栏。

PaddleOCR-VL(左一)的分法正确、合理,分解难点在于图片分割和上下、左右分栏。

而中间模型和右一其他模型则对版面的分解错误,比如无法理解「右下角的解析部分」其实是一整段。

小小揭秘一下,其他模型也是今年OCR领域其他爆火的VLM模型,中间是MinerU2.5,右边是dots.ocr。

能够登顶权威榜单,并在文本识别、公式识别、表格理解和阅读顺序四个核心维度中均位列第一,背后离不开模型在版面分解与元素识别上的极高准确率。

在精度方面,PaddleOCR-VL于OmniDocBench v1.5上实现了纪录级表现:文本编辑距离仅0.035、公式识别CDM达到91.43、表格TEDS为89.76、阅读顺序预测误差仅0.043。

这一系列数据不仅展现了模型在标准评测中的领先实力,也验证了其在复杂文档、手写稿及历史档案等高难度场景下依然保持稳定、精准的识别能力。

但以上这些还都属于是OCR的常规能力,PaddleOCR-VL的识别能力上限在哪里?

准确率极高,才能登顶第一

看完PaddleOCR-VL的技术报告附录中案例后,发现以上这些只是PaddleOCR-VL能力的冰山一角。

PaddleOCR-VL甚至可以「看懂」复杂金融图表,并给出具体数据的估算结果,这个能力确实有点「逆天」了。

以附录中图表为例(btw,这个能力不属于OmniDocBench评测基准)。

PaddleOCR-VL能够准确提取柱状图和线图节点对应的数值与对应的省份进行匹配。

比如广东省对应的GDP数据在30000~35000之间,GDP增速在4%~5%之间,PaddleOCR-VL可以在这种「细粒度」上识别出一个区间比较准确的数值。

这就非常神奇了,人拿着肉眼看也很难对齐,需要搞把尺子才能目测出来~

而PaddleOCR-VL居然可以细节到这个程度。

其他模型都或多或少的存在问题,并且作为对比的Qwen2.5VL-70B和GPT-4o,一个是参数远大于PaddleOCR-VL的开源VL模型,另一个则是经典的闭源多模态模型。

比如Qwen2.5VL-70B模型完全无法从细粒度上识别线图数据,都识别为了4%。

而GPT-4o则是识别错误,有点幻觉了,比如广东省的GDP直接识别成了6.5%。

还有一个案例也比较夸张,比如纯手写的这封信。

MinerU2.5和MonkeyOCR可能因为贴纸的干扰,未能识别到开头部分。

复杂图表提取和理解

除了整体文档识别能力,PaddleOCR-VL还可以针对图表进行识别和内容提取。

类似这种需要从图表中提取表格数据的任务。

PaddleOCR-VL一键即可完成,错误率几乎为零。

多语言支持,可识别109语言

PaddleOCR-VL还是一个「世界语言引擎」,是一个能够覆盖109种语言的超大规模文字识别体系。

能够精准识别中文、英语、法语、日语、俄语、阿拉伯语、西班牙语等。

比如,下列希腊语的现代诗歌的模糊图像,PaddleOCR-VL可分割图像和文本。

法国文豪维克多·雨果的名言警句:

文学家陀思妥耶夫斯基的俄语名言:

德国数学家David Hilbert的墓志铭:

文本类型:手写体、生僻字也无妨

除了识别语言,PaddleOCR-VL在识别各个古籍、手写文本和历史文档也非常厉害。

古籍和各类手写文本的挑战在于,如何让AI以人类视角「看懂」这些文字。

PaddleOCR-VL在识别各种非标准化、非结构化文档后,能够按照「人类阅读习惯」来还原文本正确顺序。

不论是分栏、横/纵向、从左向右or从右向左,PaddleOCR-VL能够精准分辨出哪些是标题、正文、图注,文章应该从左向右阅读,还是从右向左阅读。

以下面的楷书字帖为例。

PaddleOCR-VL(左一)的准确率可以做到几乎100%。

其他模型对于「肩膀」的识别都或多或少出现问题,虽然他们也是OCR领域今年的明星项目。

而对于各种历史类、考古类古籍,一是文本的阅读顺序和现代不同,二是存在大量生僻繁体字和模糊文字。

PaddleOCR-VL:文心4.5最强衍生模型

这次PaddleOCR-VL刷新了全球OCR VL模型性能天花板——

不仅超越GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模态大模型,还超越了MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR领域模型。

在公开基准OmniDocBench v1.0、v1.5和olmOCR-Bench以及内部基准上,PaddleOCR-VL均达到了最先进水平SOTA。

根据自建数据集上的测试,PaddleOCR-VL还具有出色的「跨语言」文本识别能力,在多个测试语种上均取得最佳成绩,对其他的OCR专有模型实现了碾压:

阿拉伯语(0.122)、韩语(0.052)、泰米尔语(0.043)、希腊语(0.135)、泰语(0.081)、泰卢固语(0.114)、天城文(0.097)、西里尔文(0.109)、拉丁文(0.013)和日文(0.086)。

在文本类型指标中,新模型同样表现优异,所有类别均实现了最低错误率:

手写中文(0.089)、手写英文(0.042)、印刷中文(0.035)、印刷英文(0.016)、繁体中文(0.048)、古籍文本(0.198)、自然场景(0.067)、拼音(0.113)、生僻字(0.001)、竖排文本(0.005)、单字符(0.027)、表情符号(0.057)及艺术字体(0.165)。

不仅识别效果与这些主流技术比肩,PaddleOCR-VL具有明显更低的时延和更高的吞吐量!

在推理方面,在单张A100 GPU上,PaddleOCR-VL每秒可处理1881个Token,推理速度较 MinerU2.5提升14.2%,较 dots.ocr 提升253.01%。

但模型的核心组件——视觉语言模型文心语言模型ERNIE-4.5-0.3B,非常小,只有0.9B!

这意味着它能部署在普通服务器、个人电脑,甚至还可以当一个插件安装在浏览器里。

但在OCR能力上,性能却能超越70B-200B这种大体积模型,甚至还能击败GPT-4o、Gemini 2.5等顶尖多模态模型!

PaddleOCR-VL堪称文心4.5最强衍生模型!

这既得益于团队在OCR领域不断的技术积累,更是因为在架构设计和数据构建上的创新。

技术报告地址:https://arxiv.org/pdf/2510.14528

打破文档解析天花板,ERNIE-4.5-0.3B立新功

PaddleOCR-VL由PP-DocLayoutV2、PaddleOCR-VL-0.9B两部分组成。

其中,核心部分是PaddleOCR-VL-0.9B,融合了预训练视觉编码器与动态分辨率预处理器、双层MLP投影器以及预训练大语言模型。

预处理技术采用原生动态高分辨率。视觉编码器,用了NaViT风格编码器,其支持原生分辨率输入。

这一设计让视觉语言模型PaddleOCR-VL-0.9B减少了幻觉、提升了性能。

投影器则高效地将视觉编码器的特征连接到语言模型的嵌入空间中。

在自回归语言模型中,整个序列是通过一次预测一个标记来生成的。这意味着解码器的规模直接影响整体推理延迟,因此更小的模型解码速度会更快。

考虑到这一点,团队选择ERNIE-4.5-0.3B模型。

这是一个开源语言模型,参数数量虽少,但推理效率很强。

可以说ERNIE-4.5-0.3B是PaddleOCR-VL-0.9B的「文本侧大脑」,高效地解读视觉编码器「看到的」内容。

文心ERNIE-4.5-0.3B语言模型+NaViT风格动态分辨率视觉编码器,双管齐下显著提升了PaddleOCR-VL的文档解析性能,同时实现了最低的内存占用和更快的推理速度。

在A100上,不同文档解析模型的端到端推理速度

整体上,相较端到端方案,能够在复杂版面中更稳定、更高效,有效避免多模态模型常见的幻觉与错位问题。

创新架构设计:避免错误与幻觉

如上所述,PaddleOCR-VL由两个核心模块组成:

PP-DocLayoutV2:负责版面分析(layout analysis),定位文档中的语义区域,并预测其阅读顺序(reading order)。

PaddleOCR-VL-0.9B:进一步细粒度识别多种内容(fine-grained recognition)。

在架构上,PP-DocLayoutV2由两个按顺序连接的网络组成。

与其他专用模型相比,PP-DocLayoutV2模型通过将RT-DETR高效扩展为带指针网络的结构,以更少的参数实现了更高的性能。

训练数据:广覆盖 + 自动标注 + 难例挖掘

为构建高质量、且多样化的训练数据集,PaddleOCR-VL团队创新了数据构建方法。

为支撑复杂文档理解,团队构建了广泛、多源、高难度的数据体系:

开源数据集+ 合成数据 +可公开获取的网络数据+内部数据,总数据量超过3000万样本,而「自动化标注+难例挖掘」保证数据高质量Scaling。

特别是,「难例挖掘」流程突破了特定复杂场景下的性能瓶颈。

评测引擎与数据构建:覆盖多类型任务的评测引擎,并人工构建了大规模评测集,包含23类文本、20类表格、4类公式、11类图表;

难例识别:在该评测集上执行推理,并结合对应的专业指标即可精确定位模型表现欠佳的「硬样本」。

难例合成与强化:针对识别出的薄弱点,系统利用丰富的资源与渲染工具,批量合成高质量的新增难例,用于定向训练与性能提升。

高精度轻量的模型,对于OCR行业意味着什么

纵观历史,信息抽象和检索的进步一直推动着人类的发展。

从象形文字到莎草纸,从印刷术到数字化,每一次飞跃都让人类知识变得更容易获取和应用,从而激发新万博体育:创新。

如今,我们正处于下一个重大飞跃的边缘——解锁所有数字化信息的集体智慧。

技术上,OCR任务成为VL大模型竞争关键之一。

价值上,大模型时代,OCR越来越越来越重要——

现实世界的信息以非结构化形态存在,大模型要发挥价值,必须依赖OCR进行信息转化。

OCR地位上升的三大原因:

产业流程自动化:金融、物流、保险等场景需要大规模文档处理。高精度低成本的OCR是唯一可持续路径,成为大模型的高效「信息提取层」。

RAG应用:企业知识多沉淀在扫描件、合同、报告中。OCR质量决定了RAG链路的「输入质量」,影响最终输出。

大模型进化:人类知识需经OCR数字化才能成为大模型训练的养料。

OCR行业的AI新生

全球科技巨头在OCR领域展开激烈竞争,纷纷推出创新模型。

比如,IBM联合HuggingFace推出专用小模型SmolDocling;Mistral AI推出1000页1美元的OCR服务等。

2023年,市场研究与咨询公司Grand View Research预计,到2030年将增长至329亿美元,2024-2030年复合年增长率达14.8%;市场增长主要驱动力,源于生产效率提升及自动内容识别系统普及。

最近,Allied Market Research预计,从2025年到2034年将以15.1%的复合年增长率增长,到2034年将达到506.065亿美元。

而Adobe、ABBYY、亚马逊、微软、IBM、谷歌母公司Alphabet等早已成为市场的主要玩家。

这些公司正通过扩展服务范围、建立战略合作、提升数字可及性、加强客户触达和技术创新等方式巩固市场竞争力。

而PaddleOCR-VL的这次开源,或将进一步冲击市场。

登顶背后:还得是经典

PaddleOCR-VL的冲榜速度确实让人很吃惊。

乍一看,PaddleOCR-VL好像是突然冒出来的一个模型,但其实背后的团队和模型已经打磨好多年了~

PaddleOCR-VL是由百度飞桨PaddleOCR团队出品,PaddleOCR-VL模型是在PaddleOCR基础上迭代而来,而PaddleOCR在OCR领域是很早就出名了。

PaddleOCR自2020年开源以来,累计下载量已经突破900万,被超过6k开源项目直接或间接使用。

该项目也是GitHub社区中唯一一个Star数超过50k的中国OCR项目。

PaddleOCR,这个经典的模型可以说是「久经考验」。

在历经多年打磨后的PaddleOCR VL能够一飞冲天,其实本质上还是厚积薄发,也是很能说得过去了。

OCR行业也可以说是踩中了AI的浪潮,成为「风口上的猪」。

现在AI不论是从需要阅读文档的角度,还是为AI提供训练语料的角度,OCR是最开始也是最重要的环节之一。

未来,随着AI原生应用的加速到来,文档将不再只是信息的容器,而是大模型学习和认知世界的入口。

而PaddleOCR-VL,正成为AI认识世界的一双眼睛。

彩蛋

1989年,Yann LeCun(图灵奖得主)首次将反向传播神经网络应用于手写数字识别。

他让神经网络直接「学」到字符识别的映射,而无需复杂的特征工程。

不管是图像识别还是OCR,这是机器能够看懂「文字」的一个关键节点。

那么25年过去了,现在的OCR技术能不能准确识别这些数字?

用PaddleOCR-VL试了下,能够准确地识别了这些数字。

意外的是,GPT-5 OCR在识别右上角「75216」时,错误的识别成「75316」。(因为数字2上面有个干扰项)

第二行右侧的「23505」也莫名多了一个「5」,变成了「235505」。

谷歌的Gemini 2.5 Pro同样在多处识别错误。

看来还是术业有专攻,在OCR领域,PaddleOCR-VL更胜一筹。

参考资料:

https://arxiv.org/pdf/2510.14528

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

https://aistudio.baidu.com/application/detail/98365

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    两个人看的www视频观看 成人在线视频黑人留宿 www黄视频com 国产成年无码AV片在线韩 www.毛片在线 公公做爱怀孕视频 原神丝柯克失去尊严的小说 啊啊啊黄色视频欧美 久久精品国产亚洲Av网站 免费b站看大片真人电视剧播放 国产一级黄片在线看 色综合,色综合 亚州视频砖区人人在线 差差差很伊人 a4yy无码A片 美女视频一区二区三区 91嫩草在线 超在线视频精品 甘露寺蜜璃开襟乳液狂飙漫画 国漫女神3D同人H动漫网站 国产特黄A片久久久久毛片 www.0531fb.com www.欧美自拍 91爰爰 理论片 电影网 在线观看 亚洲一级av无码毛片不卡麻豆 白鹿ai智能换脸造梦 男插女人陰道毛片黃色AA日片 a片欧美色图 偷窥偷拍免费网 国产操b免费视频 男女性爱视频在线不卡 汤唯被揉到高潮下不了床 免费 成人黄动漫APP2024 人人做天天爱夜夜爽96 在线观看免黄视频 国产吹潮视频在线观看 超碰福利Av第一导航 欧美性交一区二区三区四区 影音先锋偷偷色资源站 国产视频网站 9.1涩漫 在线看不卡毛片A一区二区 羞羞韩漫爆乳裸体 国产精品视频播 你懂免费视频在线播放 国产精品免费久久看 一级黄色免费高清无码视频 人人操日日爱 电影截取片段 aa在线视频 五月综合婷婷久久狠狠 麻豆AV在线免费 一级A片免费视频2021 先锋影音资源站高清 一级大黄片片 prsonopono18中国美女 久草鲁丝五月资源电影 九月婷婷人人澡人人添人人爽 四个高中生一线天 全免费A级毛片免费看视频特黄 一个人在家看的wwe视频 张柏芝47张不挂一丝的 黄片视频进入 操嫖欧美日韩美女视频 午夜激情小说 99草日韩视频 黑人又大又粗的特级黄片 曰本人的黄色视频‘ 国产A片久久久久久免费视频 九九久久精品国产AV片国产成熟 日本成片网站 色色激情导航爱情岛论坛 jjzz中国视频 啊〜好痛〜嗯〜轻一点韩国 三级黄色未满十八岁禁止入内网站 国产高潮流白浆在线视频免费观看 A片久久99久久99久久综合 乱伦美女一家热舞 波多性爱视频 裸体女人和拘做爰 女性左腿叉开腿肚子中间疼 国产亚洲一区二区在线软件 爆乳超乳レズベスト在线播放 XXXXHD16—HD18 十八禁视频在线播放 亚洲激情婷婷五月天 www..久久 www.69seav 97美女国产超碰精品日日 一区二区三区在线婷婷色 国产在线干 国产一区二区三区黑料社团 黄色软件v66 AV 欧美淫荡在线 骇瓜被 黄色a片视频网导航 免费能看黄的网站 一级黄片天天射 美女扒开腿 裸体网站 张婉莹手笔自愈视频免费观看大全 欧美最新福利视频 yeonwoo写真素材 小芙很乖跳舞视频大全集免费观看 亚洲色AV天堂一区二区 国产18禁污精品网站 性国产三级视频 加勒比东京热久久香蕉 欧洲高清内射毛片 国产AV普通话对白国语 gey男男中国✅✅✅k片 青青青国产在线观看网站 又粗又大一级A片视频 成视频在线播放免费人成 艹逼漫画 黑鸡扒插妹妹逼毛 美女姐姐操逼网站 在线不卡AV 亚洲国产Av无码男人的天堂 极品粉嫩摸巨奶乳 欧美男男同性恋网站
    热门网络工具