知乎网友指出，即使横向对比OCR最优秀的几个模型，它也不是最靠前的那个。

在下面两个案例里，3B大小（30亿参数）的DeepSeek OCR在数学公式展开里没有识别出“极坐标”，识别表格结构也是错的。相比之下，仅仅有0.9B（9亿参数）模型尺寸的PaddleOCR-VL（来自百度飞浆开源）却更胜一筹。

DeepSeek OCR也并非足够独创。外界猜测，谷歌Gemini 支持百万Token上下文可能早早使用了视觉压缩Token，同一天清华大学和智谱团队发布的、几乎同样思路「将长文本压缩为视觉Token作为模型输入」的Glyph，后者似乎没引发任何的「延伸解读」。

DeepSeek每一次出手都能虹吸巨大的关注。但仔细想想，也正常。

在中国做大了的互联网巨头，垄断了某个赚钱赛道后还怀揣着人类未来福祉去探索前沿技术的，几乎找不出一个范例。DeepSeek被美国同行形容为「实力深不可测」，其内禀的价值观、组织形态更是中国企业里罕见的异类。

梁文峰掌下的DeepSeek不怎么缺钱，浑身外溢着极致浪漫的技术理想主义。开源最前沿最有价值的模型训练细节，V3和R1引发全球轰动后几乎主动放弃巨大流量，也不去模仿OpenAI构建唾手可得的AI商业帝国...那种不按正常路径去「做大做强」，活在未来而非当下，一行一言去追逐高度不确定的AGI。在一个跟风、内卷、抄袭、金钱至上的中国，能诞生这样的公司，属实是“国运”。

外行看热闹，内行看Paper。言归正传，DeepSeek OCR的深层价值不是什么「真·无限上下文」，或者在各项评测集、各个大模型竞技场刷新了OCR模型的某个记录，而是探索「连续视觉表征压缩」在隐隐指向一个终极追求——「世界模型」。

Karpathy 评价里想说却未明说的：把大模型的前沿焦点从离散的语言Token，「重新转向」了连续视觉表征的视觉Token。

如果把大脑看作一台生物计算机，Ilya说我们终将突破。人类思维最幽暗深微之处，也许出奇地「大道至简」。

Ilya有个信念，「如果你能高效压缩信息，你一定已经得到知识，不然你没法压缩信息。当你实现了信息高效压缩，you got to have some knowledge」。

压缩通过识别模式和规律高效表征信息，这与智能行为密切相关。有相当一部分研究人员认为，压缩可能是通用智能的基础，甚至可能等同于智能，Ilya所坚信的「压缩即智能」。

Ilya可能只说对了一半。相比语言这种一维的离散信息，语言的成功压缩诞生了轰动世界的ChatGPT。而视觉作为更高维的连续信息，端到端的压缩和统一表征提取，却异常困难。

如今强大无比的各类预训练大语言模型，它们在底层原理上高度统一：使用互联网上庞大语料训练出超大规模神经网络，它可以看作一大堆参数，当用户输入时，将激活固定的网络节点参数参与计算，从而「预测最大概率的输出Token」。具体过程中，用户的输入文本会被Tokenization固定划分的词和符号（即分词过程）转化为向量，这些输入向量会在超高维的向量空间去做模式匹配，即以激活的神经网络参数参与计算，计算出最高概率的下一个词。

LLM用大白话解释，就是根据模型参数和上下文去才猜下一个词。回顾大语言模型的发展，通用算法的发现，Transformer架构让Scaling变得真正可行，简单算法、超大数据、GPGPU算力的暴涨三者合力，成功地压缩互联网上几乎所有的文本资料，打造出一台非常智能的「Token预测器」。

LLM的输出是「Token by Token」，自回归方式，意味着每一个Token都要跟前文“交互”一次。输入十万个Token，模型就要进行十万·十万的百亿次“交互”计算。输入越长的上下文，预测下一个词就需要指数级的计算增长。

再大的显存带宽和显存容量，也无法一次吃掉计算过程中天量的中间矩阵，推理延迟会越来越大。LLM近年的创新，比如注意力层计算的稀疏和优化，诞生了MTP、NSA、DSA，还有稠密FFN层的稀疏激活，以及超大规模MoE专家网络的路由激活，本质都是在解决计算层面的问题。

以DeepSeek为例，除了R1以开源模型首次公开了预训练+后训练强化学习方法，复现了O1 推理思维链的效果引发轰动，其它几乎所有的创新都集中在改进注意力机制、激活参数计算和推理解码的高效，以及训练时如何降低硬件开销和提升数据通信可靠性。

DeepSeek OCR表面上是一个OCR模型，实际也是指向计算效率，尝试实现模型输入过长上下文的高效压缩。

DeepSeek OCR的核心是DeepEncoder，一个用vision tokens去Encode输入上下文信息的编码器，它实现了 9–10倍文本压缩下 96%+ 的 OCR 解码精度，10–12倍压缩下约 90%的精度，20倍压缩下仍保持约 60% 的精度。

在压缩比10倍的时候，几乎可以做到无损。这意味着原来输入十万Token的模型上下文，视觉编码仅需一万Token。

而且，DeepSeek论文说我们可以连续调节压缩率，在压缩率和识别精度之间平滑地做出权衡。关键来了，DeepSeek将这种动态的视觉压缩还与人类的记忆遗忘做了类比。

在论文里，DeepSeek 解释 OCR 的工作代表了对视觉-文本压缩边界的初步探索，研究了解码 N 个文本 token 需要多少个视觉 token这一核心问题。初步结果令人鼓舞：

光学上下文压缩不仅是技术可行的，更是生物学合理的。它为长上下文建模提供了全新视角。 DeepSeek相信，这一方向将成为未来 LLM 与 VLM 研究的重要突破口。

DeepSeek-OCR 在约 10× 压缩比下实现了接近无损的 OCR 压缩，在 20× 压缩比下，仍能保持 60% 的准确率，这些发现意味着：在多轮对话中，对超过 k 轮的历史记录进行光学处理，实现 10× 压缩效率；对旧上下文逐步缩小渲染图像，进一步减少 token 消耗；模拟人类记忆的遗忘机制，越久远的内容，压缩率越高，图像越模糊，信息逐渐丢失。

在论文里，DeepSeek强调，光学上下文压缩仍然是一个刚刚起步、充满潜力的研究方向。DeepSeek-OCR 不仅仅是一个常用的优秀OCR工具，本身是一个极具实用价值的模型，具备大规模预训练数据生产能力，可作为 LLM 训练过程中不可或缺的助手。在实际应用中，该模型每天可生成数千万页级别的训练数据，显著提升了多模态数据构建的效率。

人脑若以“生物计算机”视角观察，可以粗略概括为：它以多模态、某种统一表征进行极为高效的信息压缩，实现对现实世界建模和预测。

如果大语言模型能够导向AGI，等同于人类是通过语言理解一切，通过语言就可以建模世界？但这其中有一个明显Bug，人类并没有LLM Tokenization 这种「后天而非先验」的分词器，Karpathy形容Tokenization的过程是丑陋且笨拙。

用户的文本输入变成AI“可读”的内容，是通过一个叫“Tokenizer”（分词器）的东西，把句子切成一个个“词元”（Token），比如“Hello, world!”可能被切成 [Hello]、[,]、[world]、[!]，四个词元。分词的标准并不是统一的，不同的词表和分词器也意味着各家模型不同的Tokenization方法，它对模型的最终性能有一定影响。

LLM文本输入转化为Token的分词过程是不是必不可少的？而DeepSeek-OCR这篇论文无意中提供了一个佐证：它证明了，AI可以只用100个“视觉词元”（Vision Tokens），就高精度地“解压缩”出包含1000个“文本词元”的原文内容。而且不需要文本分词这个过程。

语言深度依赖视觉经验和多模态基础，文字本身是对感知世界的二次抽象。为什么我们的AI系统，要绕过更原始、更丰富的表征层？当模型直接在像素层面理解文字，它看到的不只是语言，而是习得了更加丰富、更加深层的学习机制。

就像前文所说，相比语言这样的一维离散信息，更高维且连续的视觉信息，端到端的信息压缩、统一表征提取和预测，困难且毫无进展。

三句不离世界模型的Yan LeCun，曾在公开访谈中谈及连续视觉信息的处理有多么困难：

“一个典型的大语言模型大约是在200亿到2万亿个Token上训练的。Token差不多就是一个词。通常，一个Token用三个字节表示，200亿到2万亿个Token，总共大约是10的14次方字节，也就是1后面跟着14个零。这几乎是互联网上所有公开文本的总和。

一个人要花几十万年才能读完这些材料，这是海量的信息。现在，我们来比较一下这个数据量：一个四岁的孩子总共清醒了 16000 个小时。每秒大约有 2 M字节信息通过我们的视神经进入我们的视觉皮层。每秒 2 M字节，在四年内，通过视觉输入大约是 10 的 14 次方字节的数据。四岁孩子”看到“的数据量与需要你 40 万年才能阅读的文本一样多。

这表明，仅仅依靠文本训练，我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界，而这非常困难。如果我们不用单词，而是用视频中的帧，将这些帧转换成类似于单词的Token，然后尝试训练系统预测视频中将要发生的事情，这是行不通的。

我们可能无法预测某个特定单词会出现在文本的哪个位置，但我们可以预测所有可能单词的概率分布。对于视频，我们做不到这一点。我们无法表示所有可能的视频帧的概率分布。因此，那些在文本、DNA序列或蛋白质上非常有效的技术，在视频或其他自然信号上却不起作用。”

回过头来看，DeepSeek-OCR这篇论文的真正价值，不在于它提供了一个多好的OCR工具，而在于它充当了一次“概念验证”（Proof-of-Concept）。它用实验数据证明了：AI的主要信息入口，可以从语言转向视觉，不仅效率更高，似乎更符合生物特性。

Vision→Text的任务空间，其实完全包含了Text→Text的任务空间，任何文本都可以无损“渲染”成图像。但反过来从图像到文本就会丢失大量信息。这种不对称暗示了一个激进的方向：把所有输入统一为视觉模态，输出保持文本不变。

这不仅仅是“文本到文本”任务变成了“视觉到文本”任务，这是一个更根本的转变。

如果输入端彻底转向像素，我们实际上构建的，不再是传统意义上的“大语言模型”，而是一个视觉条件下的文本生成系统。模型看到的，不再是固定划分的字符，而是更凌乱、更无序但信息更丰富的原始信号。沿着这条全新的发展道路，似乎远远能够望到世界模型的轮廓。

再看一遍 DeepSeek在OCR论文的总结，「这一范式将为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供全新的思路和广阔的研究空间」，措辞谨慎且谦虚。

新万博体育

精读DeepSeek OCR论文，我远远看到了「世界模型」的轮廓

「统计」Q8X2R7L1T4J5M9B6W3

869.24MB

版本V1.7.89

下载APK 高速下载

下载有好的玩球平台吗安装你想要的应用更方便更快捷发现新万博体育：

50%好评(97118人)

详细信息

软件大小: 80782.85209MB
最后更新: 2025-10-21 03:47:30
最新版本: V1.80035.4
文件格式: apk
应用分类:ios-Android 贝博网页版本
使用语言: 中文
: 需要联网
系统要求: 1.99376以上

应用介绍

一，金沙网站是多少，leyu乐鱼APP安卓
二，国际象棋的游戏真人怎么做，九游会备用网站
三，赌球软件疯狂德州，环球投注登录
四，ballbet贝博登陆备用，电竞平台赌博
五，亚盈体育平台app下载，pg电子是什么游戏
六，伟德投注站官网下载,澳门永利有多少人提款不成，威尼斯人手机版app
七，十大菠菜
【联系我们】
客服热线：134-2881-646

加载新万博体育：

版本更新

V6.8.99

电玩登陆

亲友棋牌跑得快怎么抢庄几率高

bet36亚洲体育

68058.54MB

101好评

im电竞竞彩官网
世界杯投注软件暂投

世界杯滚球网站推荐

88404.52MB

392817好评

艾弗森贝博app官方下载
lol押注网址

乐虎国际注册

13.78MB

318好评

手机电子游戏官方网站
世界杯赌博投注

澳门博弈游戏

53.34MB

278好评

手机购买世界杯彩票
投注世界杯的app

火狐真人投注

71.72MB

705好评

赢钱手机游戏
传奇电子cq9体验试玩

千赢官网首页登陆不了

83.95MB

335好评

线上顶级赌城
AG街机电子能刷水吗

ManBetX万博网址是多少

23.98MB

105好评

最好的百家乐网站
bbin体育官方网站

乐虎国际注册彩金

50.53MB

921好评

lc8乐橙手机版
必发365登录入口

必威客户端下载

83.60MB

563好评

大富翁下载官方网站
澳博体育网址

亚博可靠吗

83.65MB

756好评

澳门世界杯投注网站
博狗在线投注网站大全

老虎机网站

80.97MB

9293好评

必赢可靠吗
太阳集团娱乐全部网址

网上牛牛玩

25.45MB

339好评

优德体育手机登录
九五至尊的网址多少

球琛比分足球即时比分

65.42MB

742好评

博鱼登录入口
金宝博官网备用网址

下载AG娱乐

54.92MB

753好评

亚洲城官网网址
凯时官网开户

爱游戏体育平台app下载

57.15MB

683好评

bob手机版登陆
2026篮球世界杯竞彩网站

彩神彩票大厅

24.69MB

358好评

炸金花上分
BOB注册彩金

金沙银河网官网

13.45MB

313好评

二十一点在线玩
优德体育推荐网址

彩二官网

84.69MB

215好评

澳门新葡萄牙
澳门金沙贵宾会充值

世界杯的球怎么买便宜

45.19MB

738好评

世博体育官网
米乐m6娱乐可靠吗

大型正规买球平台

10.13MB

181好评

葡萄京手机app下载
米乐客服

多宝体育APP

44.94MB

368好评

广东会欢迎您
在线博彩推荐

雨燕体育平台

91.60MB

204好评

必威体育bw1958
365分销平台官网

乐鱼注册

30.86MB

907好评

银河至尊娱乐
在韩国看世界杯网站

ayx手机版

30.51MB

541好评

im体育怎么注册
ManBetX万博电竞

九游会官网ag

29.97MB

125好评

宝典报
黄大仙灵码B

万博manbet登录

70.10MB

459好评

可提现的彩票平台
乐博在线试玩 title="mg的网址是多少" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

918博天棠

皇冠线上登录

详情
谁知道博狗电子网址 title="乐动体育官方登录" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

手机版牛牛

爱博注册彩金

详情
澳门电子pg游戏官网 title="kok手机登录入口" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

新濠会app下载

鸿博平台官网首页

详情