(10分钟轻松上手)黄禁片苹果版v14.11.7.299.64.93.39-2265安卓网_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

精读DeepSeek OCR论文,我远远看到了「世界模型」的轮廓

2025-10-23 09:58:18
来源:

猫眼电影

作者:

隋振江

手机查看

  猫眼电影记者 贾申龙 报道Q8X2R7L1T4J5M9B6W3

文 | X研究媛

DeepSeek OCR是一个不错的OCR小模型,但过誉了。

知乎网友指出,即使横向对比OCR最优秀的几个模型,它也不是最靠前的那个。

在下面两个案例里,3B大小(30亿参数)的DeepSeek OCR在数学公式展开里没有识别出“极坐标”,识别表格结构也是错的。相比之下,仅仅有0.9B(9亿参数)模型尺寸的PaddleOCR-VL(来自百度飞浆开源)却更胜一筹。

DeepSeek OCR也并非足够独创。外界猜测,谷歌Gemini 支持百万Token上下文可能早早使用了视觉压缩Token,同一天清华大学和智谱团队发布的、几乎同样思路「将长文本压缩为视觉Token作为模型输入」的Glyph,后者似乎没引发任何的「延伸解读」。

DeepSeek每一次出手都能虹吸巨大的关注。但仔细想想,也正常。

在中国做大了的互联网巨头,垄断了某个赚钱赛道后还怀揣着人类未来福祉去探索前沿技术的,几乎找不出一个范例。DeepSeek被美国同行形容为「实力深不可测」,其内禀的价值观、组织形态更是中国企业里罕见的异类。

梁文峰掌下的DeepSeek不怎么缺钱,浑身外溢着极致浪漫的技术理想主义。开源最前沿最有价值的模型训练细节,V3和R1引发全球轰动后几乎主动放弃巨大流量,也不去模仿OpenAI构建唾手可得的AI商业帝国...那种不按正常路径去「做大做强」,活在未来而非当下,一行一言去追逐高度不确定的AGI。在一个跟风、内卷、抄袭、金钱至上的中国,能诞生这样的公司,属实是“国运”。

外行看热闹,内行看Paper。言归正传,DeepSeek OCR的深层价值不是什么「真·无限上下文」,或者在各项评测集、各个大模型竞技场刷新了OCR模型的某个记录,而是探索「连续视觉表征压缩」在隐隐指向一个终极追求——「世界模型」。

Karpathy 评价里想说却未明说的:把大模型的前沿焦点从离散的语言Token,「重新转向」了连续视觉表征的视觉Token。

压缩即智能

如果把大脑看作一台生物计算机,Ilya说我们终将突破。人类思维最幽暗深微之处,也许出奇地「大道至简」。

Ilya有个信念,「如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。当你实现了信息高效压缩,you got to have some knowledge」。

压缩通过识别模式和规律高效表征信息,这与智能行为密切相关。有相当一部分研究人员认为,压缩可能是通用智能的基础,甚至可能等同于智能,Ilya所坚信的「压缩即智能」。

Ilya可能只说对了一半。相比语言这种一维的离散信息,语言的成功压缩诞生了轰动世界的ChatGPT。而视觉作为更高维的连续信息,端到端的压缩和统一表征提取,却异常困难。

如今强大无比的各类预训练大语言模型,它们在底层原理上高度统一:使用互联网上庞大语料训练出超大规模神经网络,它可以看作一大堆参数,当用户输入时,将激活固定的网络节点参数参与计算,从而「预测最大概率的输出Token」。具体过程中,用户的输入文本会被Tokenization固定划分的词和符号(即分词过程)转化为向量,这些输入向量会在超高维的向量空间去做模式匹配,即以激活的神经网络参数参与计算,计算出最高概率的下一个词。

LLM用大白话解释,就是根据模型参数和上下文去才猜下一个词。回顾大语言模型的发展,通用算法的发现,Transformer架构让Scaling变得真正可行,简单算法、超大数据、GPGPU算力的暴涨三者合力,成功地压缩互联网上几乎所有的文本资料,打造出一台非常智能的「Token预测器」。

LLM的输出是「Token by Token」,自回归方式,意味着每一个Token都要跟前文“交互”一次。输入十万个Token,模型就要进行十万·十万的百亿次“交互”计算。输入越长的上下文,预测下一个词就需要指数级的计算增长。

再大的显存带宽和显存容量,也无法一次吃掉计算过程中天量的中间矩阵,推理延迟会越来越大。LLM近年的创新,比如注意力层计算的稀疏和优化,诞生了MTP、NSA、DSA,还有稠密FFN层的稀疏激活,以及超大规模MoE专家网络的路由激活,本质都是在解决计算层面的问题。

以DeepSeek为例,除了R1以开源模型首次公开了预训练+后训练强化学习方法,复现了O1 推理思维链的效果引发轰动,其它几乎所有的创新都集中在改进注意力机制、激活参数计算和推理解码的高效,以及训练时如何降低硬件开销和提升数据通信可靠性。

DeepSeek OCR表面上是一个OCR模型,实际也是指向计算效率,尝试实现模型输入过长上下文的高效压缩。

DeepSeek OCR的核心是DeepEncoder,一个用vision tokens去Encode输入上下文信息的编码器,它实现了 9–10倍 文本压缩下 96%+ 的 OCR 解码精度,10–12倍压缩下约 90%的精度,20倍压缩下仍保持约 60% 的精度。

在压缩比10倍的时候,几乎可以做到无损。这意味着原来输入十万Token的模型上下文,视觉编码仅需一万Token。

而且,DeepSeek论文说我们可以连续调节压缩率,在压缩率和识别精度之间平滑地做出权衡。关键来了,DeepSeek将这种动态的视觉压缩还与人类的记忆遗忘做了类比。

DeepSeek提出一种类生物遗忘机制的压缩策略:

- 近期上下文:保持高分辨率,token 消耗高,信息清晰;

- 远期上下文:逐步降低分辨率,token 减少,信息模糊;

- 这种机制模拟人类记忆的自然衰减:

时间越久,记忆越模糊;

距离越远,视觉感知越弱;

两者都表现出渐进式信息丢失的模式(如图所示)

在论文里,DeepSeek 解释 OCR 的工作代表了对视觉-文本压缩边界的初步探索,研究了解码 N 个文本 token 需要多少个视觉 token这一核心问题。初步结果令人鼓舞:

光学上下文压缩不仅是技术可行的,更是生物学合理的。它为长上下文建模提供了全新视角。 DeepSeek相信,这一方向将成为未来 LLM 与 VLM 研究的重要突破口。

DeepSeek-OCR 在 约 10× 压缩比 下实现了接近无损的 OCR 压缩,在 20× 压缩比下,仍能保持 60% 的准确率,这些发现意味着:在多轮对话中,对超过 k 轮的历史记录进行光学处理,实现 10× 压缩效率;对旧上下文逐步缩小渲染图像,进一步减少 token 消耗; 模拟人类记忆的遗忘机制,越久远的内容,压缩率越高,图像越模糊,信息逐渐丢失。

在论文里,DeepSeek强调,光学上下文压缩仍然是一个刚刚起步、充满潜力的研究方向。DeepSeek-OCR 不仅仅是一个常用的优秀OCR工具,本身是一个极具实用价值的模型,具备大规模预训练数据生产能力,可作为 LLM 训练过程中不可或缺的助手。在实际应用中,该模型每天可生成数千万页级别的训练数据,显著提升了多模态数据构建的效率。

世界模型的「轮廓」

人脑若以“生物计算机”视角观察,可以粗略概括为:它以多模态、某种统一表征进行极为高效的信息压缩,实现对现实世界建模和预测。

LLM则是“通过语言单一模态对现实世界建模和预测”。

如果大语言模型能够导向AGI,等同于人类是通过语言理解一切,通过语言就可以建模世界?但这其中有一个明显Bug,人类并没有LLM Tokenization 这种「后天而非先验」的分词器,Karpathy形容Tokenization的过程是丑陋且笨拙。

用户的文本输入变成AI“可读”的内容,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token),比如“Hello, world!”可能被切成 [Hello]、[,]、[world]、[!],四个词元。分词的标准并不是统一的,不同的词表和分词器也意味着各家模型不同的Tokenization方法,它对模型的最终性能有一定影响。

LLM文本输入转化为Token的分词过程是不是必不可少的? 而DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以只用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原文内容。而且不需要文本分词这个过程。

语言深度依赖视觉经验和多模态基础,文字本身是对感知世界的二次抽象。为什么我们的AI系统,要绕过更原始、更丰富的表征层?当模型直接在像素层面理解文字,它看到的不只是语言,而是习得了更加丰富、更加深层的学习机制。

就像前文所说,相比语言这样的一维离散信息,更高维且连续的视觉信息,端到端的信息压缩、统一表征提取和预测,困难且毫无进展。

三句不离世界模型的Yan LeCun,曾在公开访谈中谈及连续视觉信息的处理有多么困难:

“一个典型的大语言模型大约是在200亿到2万亿个Token上训练的。Token差不多就是一个词。通常,一个Token用三个字节表示,200亿到2万亿个Token,总共大约是10的14次方字节,也就是1后面跟着14个零。这几乎是互联网上所有公开文本的总和。

一个人要花几十万年才能读完这些材料,这是海量的信息。现在,我们来比较一下这个数据量:一个四岁的孩子总共清醒了 16000 个小时。每秒大约有 2 M字节信息通过我们的视神经进入我们的视觉皮层。每秒 2 M字节,在四年内,通过视觉输入大约是 10 的 14 次方字节的数据。四岁孩子”看到“的数据量与需要你 40 万年才能阅读的文本一样多。

这表明,仅仅依靠文本训练,我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界,而这非常困难。如果我们不用单词,而是用视频中的帧,将这些帧转换成类似于单词的Token,然后尝试训练系统预测视频中将要发生的事情,这是行不通的。

我们可能无法预测某个特定单词会出现在文本的哪个位置,但我们可以预测所有可能单词的概率分布。对于视频,我们做不到这一点。我们无法表示所有可能的视频帧的概率分布。因此,那些在文本、DNA序列或蛋白质上非常有效的技术,在视频或其他自然信号上却不起作用。”

回过头来看,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多好的OCR工具,而在于它充当了一次“概念验证”(Proof-of-Concept)。它用实验数据证明了:AI的主要信息入口,可以从语言转向视觉,不仅效率更高,似乎更符合生物特性。

Karpathy还给出了一个关键洞察:

Vision→Text的任务空间,其实完全包含了Text→Text的任务空间,任何文本都可以无损“渲染”成图像。但反过来从图像到文本就会丢失大量信息。这种不对称暗示了一个激进的方向:把所有输入统一为视觉模态,输出保持文本不变。

这不仅仅是“文本到文本”任务变成了“视觉到文本”任务,这是一个更根本的转变。

如果输入端彻底转向像素,我们实际上构建的,不再是传统意义上的“大语言模型”,而是一个视觉条件下的文本生成系统。模型看到的,不再是固定划分的字符,而是更凌乱、更无序但信息更丰富的原始信号。沿着这条全新的发展道路,似乎远远能够望到世界模型的轮廓。

再看一遍 DeepSeek在OCR论文的总结,「这一范式将为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供全新的思路和广阔的研究空间」,措辞谨慎且谦虚。

DeepSeek值得尊敬。

??时事1:日韩全网无码视频

??10月23日,全加华人联会举行年会 强调维护华社权益 续推华埠复兴,

  “噗”的一声,一颗人头飞起,雨蒙直接就被斩了,死在了西疆,消息传回皇都,引发震动,这是抽雨族的脸啊。

,动漫《于是我就被叔叔拯救了》。

??10月23日,上海推进国际金融中心建设:将丰富金融领域“上海价格”“上海指数”指标体系,

  “跟在我的后面,你们一定要活下来。”一位宿老对所有弟子叮嘱,而后一声大吼,他已经开路,杀了出去。

,国产免费精,日逼网站,爆乳女教师のおっぱい的来源。

??时事2:粉嫩无码毛片免费看

??10月23日,看雄关、学面塑 巴基斯坦留学生畅游大境门,

  小不点坐在一旁看着他们,即将远行,心有不舍,紫云、大鹏、小青依偎在旁,非常不愿,执意要跟随,但是他没有答应。

,一级黄色视频一级黄色视频一级黄色视频,亚洲图片 欧美图片 日本AV,天天日天天操天天。

??10月23日,纪念杨沫诞辰110周年活动在京举办 音乐剧《青春之歌》发布,

  小不点瞪圆大眼,嘴巴张成了“O”型,这不足一寸高的洁白小塔来头这么大?未免太惊人了!

,四川BBB搡BBB搡多人刮,向日葵视频在线观看入口未满十八在线观看网址,色色资源站新网址。

??时事3:拨萝卜不该盖被子视频在线欢看

??10月23日,广东发展“年菜经济” 背后为何藏着一个“深”字?,

  每个种族都是有尊严的,诋毁,谩骂的话不应数落在他们身上,友好的待遇不应被剥夺。白人妇女的无礼行为表明种族歧视思想在她脑海里已像毒雾挥之不去,平等从来不属于一个令人讨厌的人,尤其是黑人,即使他很善良。而机长和空服员的表现让乘客明白,上帝的儿女都是平等的,公平的待遇从不缺失。

,www.国产原创,森日向子aⅴ免费播放,汉服女装露整只奶。

??10月23日,2024株洲马拉松鸣枪开跑 1.5万名中外跑者畅跑“制造名城”,

  一群人心中都是一凛,敢这样一个人出动,带着孩子在大荒中远行,并进行残酷的磨砺,怎么看都是高手的风范。

,污视频操,国产精品无码大片在线观看,中国免费婬色男女乱婬视频。

??时事4:一级a做一级a做片

??10月23日,黄埔一期曹渊孙女:祖父牺牲后周恩来叶挺照顾遗孤,

  在雾霭中,他的身影很模糊,只有一双眸子很璀璨,如两盏灯火一般,穿透云雾,映照出来,慑人心魄。相距足够遥远,他俯视石村,轻语道:“就是这头祭灵斩杀了我族诸多高手吗?”

,91久久国产综合精品女同国语,妓女影院视频国产,大肉榛征服的麻麻2。

??10月23日,国务院任免香港特别行政区政府主要官员,

  1、重视信息工作,服务领导决策。信息是决策的基础和重要依据,信息工作做得好不好,提供的信息及时不及时、准确不准确、全面不全面,将直接影响党委的决策和对全局工作的领导。做好信息工作,一要求实,认真做好信息的收集、核实、整理工作,坚持实事求是,拓宽信息渠道,努力为领导提供客观全面的信息,做到喜忧兼报,坚决克服报喜不报忧的倾向,尤其要严格紧急信息报送制度,确保不迟报、不漏报、不瞒报;二要求特,根据党委各个时期关注的重大问题,紧贴决策,突出重点,精心提炼,体现特色,努力挖掘一些有事实、有分析、有观点,针对性和适用性都很强的信息;三要求简,善于从大量的信息中发现带有规律性、普遍性、倾向性的问题,开发出大主题、深层次、高质量的信息,力求写出精品,为经济建设和社会发展服务。

,www日本黄页网址大全,久久99精品久久久久久无毒不卡,性爱视频小说。

责编:严丰若

审核:豪佳香

责编:徐久法

相关推荐 换一换