2025-10-19 11:52:24 2,180次浏览

智东西作者 陈骏达编辑 云鹏

在大语言模型不断拉长上下文窗口的竞争中,DeepSeek刚刚提出了一条与众不同的技术路径。

智东西10月20日报道,今天上午,DeepSeek开源了DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。

这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。

当把等量的文本token转化为视觉token(图像)后,DeepSeek-OCR能用更少的token数表达相近的文本内容,这为解决大语言模型在长文本处理中的高算力开销提供了新的思路。

除此之外,DeepSeek-OCR还表现出很高的实际应用价值。在OmniDocBench上,它只使用100个视觉token就超越了GOT-OCR2.0(每页256个token),并且在使用少于800个视觉tokens的情况下,性能超过了MinerU2.0(平均每页近7000个token)。

在生产环境中,DeepSeek-OCR可以每天在单个A100-40G GPU上生成20万页以上的训练数据,为大规模文档理解和多模态模型训练提供支持。

目前,这一模型已在Hugging Face上开源,而介绍DeepSeek-OCR模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR团队称,他们此番开源的模型是对一种潜在解决方案的初步探索,即利用视觉模态作为文本信息的高效压缩媒介。

值得一提的是,与DeepSeek过往新模型动辄数十人的作者团队不同,这篇论文的作者仅有3人,分别为Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR论文的第一作者Haoran Wei也是GOT-OCR2.0论文的第一作者,GOT-OCR2.0是阶跃星辰去年9月发布的一款OCR模型。

开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

论文链接:

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

一、光学压缩可实现高压缩比,解码到底需要多少视觉token?

过去几年,AI模型的上下文能力不断被拉长——从4K到128K,再到上百万token,但代价是成倍增加的算力与显存消耗。

但文本其实是一种冗余的信息形式。DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”

目前,业内已经在VLM视觉编码器和端到端OCR模型上有一定探索。基于此前的研究,DeepSeek-OCR团队发现了目前尚未解决的一个关键研究问题:对于包含1000个单词的文档,解码至少需要多少视觉token?这一问题对于研究“一图胜千言”的原则具有重要意义。

围绕这一问题,DeepSeek打造了一个验证系统——DeepSeek-OCR。该模型通过将文本“光学化”,把原本数千个文字token压缩成几百个视觉token,再由语言模型解码回原文。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。

DeepEncoder:显著压缩vision token数量

DeepEncoder采用SAM + CLIP的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解,并用一个双层的16×卷积压缩模块显著减少vision token数量。

举个例子,当输入1024×1024的文档图片时,传统视觉模型会生成4096个token,DeepEncoder能将其压缩至仅256个token,让激活内存的数量更可控。

此外,它支持多种“分辨率模式”。从轻量的Tiny(64 token)到高保真的Gundam(795 token),模型可根据任务复杂度自动选择压缩等级。

论文展示了不同分辨率的压缩效果。对肉眼而言,Tiny模式下图片中的文字略显模糊,但基本能看清;而在高保真的Gundam模式下,图中文字的阅读体验基本和原文件的阅读体验没有差别。

▲实际阅读效果需参照原论文中的图片

在实际使用中,一页普通论文或幻灯片仅需100个视觉token即可精准识别;而密集文本的报纸或科学论文,则可通过Gundam模式实现高精度还原。

DeepSeek3B-MoE:激活参数仅5.7亿

在解码端,DeepSeek采用自研DeepSeek3B-MoE架构,推理时仅激活6个专家模块,总激活参数量约5.7亿。

这种“按需激活”的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档OCR、图文生成等场景。

数据引擎:从文档到图表、化学式、几何图

DeepSeek还搭建了一个庞大的数据数据集,包含四大数据类型:

(1)OCR 1.0数据:3000万页多语言文档与自然场景文字等;

(2)OCR 2.0数据:图表、化学公式、几何图形解析等;

(3)通用视觉数据:为模型注入基础图像理解能力;

(4)纯文本数据:维持语言流畅度与上下文建模。

得益于这一体系,DeepSeek-OCR不仅能识字、断句,还能看懂图表、解读化学式、识别几何图形,处理常见的图文交错文档。

二、10倍压缩效果几乎无损,数百token表示效果超7000 token

DeepSeek-OCR的训练流程整体上相对简洁,主要分为两个阶段:独立训练DeepEncoder和训练完整的 DeepSeek-OCR模型。

此外,所谓的“Gundam-master模式(超高分辨率)”是在预训练好的DeepSeek-OCR模型基础上,继续使用600万条采样数据进行微调得到的。由于其训练协议与其他模式相同,DeepSeek-OCR团队省略了详细描述。

DeepEncoder的训练遵循Vary的做法,使用一个轻量级语言模型,并基于下一token预测框架进行训练。在此阶段,模型使用了前述的OCR 1.0与OCR 2.0数据,以及从LAION 数据集中采样的1亿条通用图像数据。

当DeepEncoder训练完成后,DeepSeek-OCR团队使用多模态数据和纯文本数据,采用流水线并行策略来训练完整的模型。

为验证DeepSeek-OCR在文本密集型文档中的压缩与解压能力,研究团队选取了Fox基准进行实验。实验结果显示,在10×压缩率下,DeepSeek-OCR的解码精度可达约97%。这表明未来有望实现近乎无损的10×文本压缩。

当压缩率超过10×时,性能有所下降,主要原因包括文档版式复杂度的提升,以及长文本在512×512或640×640分辨率下出现模糊。前者可通过将文本渲染为统一版面解决,而后者则可能成为未来“遗忘机制”的研究特征。

即便在近20×压缩时,模型仍能保持约60%的精度。这些结果充分说明,光学上下文压缩是一条前景广阔的研究方向,且无需额外计算开销,因为多模态系统本身已具备视觉编码器结构。

除实验验证外,DeepSeek-OCR在实际场景中同样表现出不错的能力,可为LLM/VLM的预训练构建高质量数据。在OmniDocBench上,DeepSeek-OCR仅使用100个视觉toke(640×640 分辨率)的情况下,超越使用256个token的GOT-OCR 2.0。而在少于800个tokens(Gundam 模式)的条件下,DeepSeek-OCR甚至超越了需约7000个视觉token的MinerU 2.0。

进一步分析显示,不同类型文档对token数量的需求存在差异:幻灯片类文档仅需约64个视觉token即可获得良好效果;书籍与报告在100个视觉token下即可实现稳定性能;报纸类文档由于文本量庞大,需采用Gundam或Gundam-master模式才能实现可接受的效果。

三、从金融图表到化学表达式,各类文档均可深度解析

DeepSeek-OCR团队在论文中展示了DeepSeek-OCR在具体场景的能力。DeepSeek-OCR具备版面识别与OCR 2.0能力,可通过二次模型调用实现文档图像的进一步解析。DeepSeek将这一功能称为“深度解析(Deep Parsing)”。模型可在图像中识别不同类型的内容,包括图表、几何图形、化学结构式及自然图像等。

在金融研究报告中,DeepSeek-OCR能自动提取文档中图表的结构化信息,这一功能对金融与科学领域尤为重要。

在书籍与论文场景中,深度解析模式能够生成密集的图像描述,实现自动化的图文内容识别与转写。

对于化学文献,模型不仅可识别化学结构式,还能将其转化为SMILES格式,展现出在STEM(科学、技术、工程与数学)领域的潜在应用价值。

此外,DeepSeek-OCR还能解析平面几何图形的结构,尽管当前任务仍具有较高难度,但模型已显示出对几何要素与空间关系的初步理解能力。

互联网上的PDF数据涵盖多种语言,包括中文、英文以及大量多语种内容,这对训练具备全球通用性的大语言模型至关重要。DeepSeek-OCR已具备处理近百种语言的OCR能力,支持带版面与非版面两种输出格式。

在多语言测试中,DeepSeek-OCR对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。该能力确保DeepSeek-OCR能在多语言环境下稳定运行,为多语种文档解析与跨语言知识提取奠定基础。

除专注于文档解析外,DeepSeek-OCR还保留了一定的通用视觉理解能力,包括图像描述、物体检测、目标定位(grounding)等任务。在提供相应提示词后,模型能够详细描述图像内容、定位特定对象,甚至在包含文本的图像中执行OCR识别任务。

此外,由于训练中融入了大量纯文本数据,DeepSeek-OCR也保留了较强的语言理解与生成能力。需要指出的是,DeepSeek-OCR尚未经过监督微调(SFT)阶段,因此并非对话模型,部分功能需通过特定提示词激活。

结语:高效信息表示或成大模型潜在优化方向

“上下文光学压缩”验证了视觉模态在文本压缩中的有效性,为大语言模型处理超长上下文提供了新的解决路径。DeepSeek-OCR团队计划在后续研究中进一步探索数字与光学混合的文本预训练方式,并通过更细粒度的“needle-in-a-haystack”测试评估光学压缩在真实长文本环境下的表现。

从行业视角看,DeepSeek-OCR展示了另一种提高模型效率的可能路径——优化信息表达方式。通过视觉压缩减少token数量,模型可以在相同算力下处理更长的上下文内容。这一思路为未来在VLM视觉token优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。

DeepSeek团队在论文最后写道:“光学上下文压缩仍有广阔的研究空间,它代表了一个新的方向。”这项从OCR任务出发的研究,或许已经超越了文字识别本身。

超碰制服,探索无限精彩,畅享不一样的世界,让生活更有趣_新万博体育

新万博体育

图片 刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破
刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破

刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破

「统计」Q8X2R7L1T4J5M9B6W3

992.13MB
版本V1.6.48
下载欧美黄色网站免费安装你想要的应用 更方便 更快捷 发现新万博体育:
喜欢 65%好评(85014人)
评论 47
刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破截图0 刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破截图1 刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破截图2 刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破截图3 刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破截图4
详细信息
  • 软件大小: 74642.30919MB
  • 最后更新: 2025-10-19 11:52:24
  • 最新版本: V9.58945.3
  • 文件格式: apk
  • 应用分类:ios-Android 欧美精品激情在线一区白视频
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 4.12992以上
应用介绍
一,国产精品h片在线观看网站,1024手机黄色电影
二,三亚在线观看免费高清软件,国产精品亚洲日韩欧美第一页
三,jizzjizzjizzjizz,国产乱子论在线一区二区视频
四,欧美大牌操逼,三级中文字幕无码视频
五,美女9117c,欧美丰满熟妇多毛XXXXX
六,iGao视频入口,欧洲熟妇色XXXX欧美熟妇,小小宝藏库
七,全部免费毛片在线看眀
【联系我们】
客服热线:134-2881-646
加载新万博体育:
版本更新
V3.6.15
黄频网站国产
  • 欧美性爱一级特黄天堂电影网站

    欧美色欲综合一区二区

    杨颖被操

    45076.71MB
    105好评

    最真实国产高潮露脸在线观看

  • 男生的鸡鸡插进女生的屁股里

    大鸡吧操逼

    张婉莹手笔自愈视频大全在线观看

    30364.63MB
    462309好评

    在线播放真实国产乱子伦

  • 伊人精品影院

    欧美性爱区午夜福利

    女人18毛片A级毛片免费视频

    13.40MB
    319好评

    国产A级黄色

  • 特黄一级高潮黄色视频

    在线精品国精品国产尤物

    免费在线不卡av

    53.33MB
    279好评

    亚洲色熟女图激情另类图区

  • 曰韩黄色网

    久色网站

    国产真实破苞在线播放开裆

    71.59MB
    704好评

    久操手机在线网站播放

  • 1024人妻一区二区三区

    免費aA级

    114毛片视频

    83.96MB
    331好评

    无码黄色在线视频

  • 国产AV福利久久精品涩爱

    黄色网站天天操

    黑土本子!

    23.62MB
    102好评

    久久精品视频六

  • 五月丁香婷婷综合

    黑人Gay大雕TUBE

    免费黄色网站在线啊

    50.13MB
    923好评

    美国一级婬片A片免费播放视频

  • 激情视频在线网址

    欧美在线一级A级在线视频短视频

    扒开双腿调教玩弄的视频

    83.15MB
    561好评

    宁荣荣 乳喷自慰爽软件

  • 国产毛片无码不卡在线看

    美女露奶头%100无遮挡

    男能GAY无套 猛男

    83.52MB
    757好评

    100部黄片

  • 欧美性爱视频二区

    十八成年禁用网站入口

    草草影院欧美精品第一页

    20.32MB
    4055好评

    综合亚洲图片

  • 欧美视频一区二区精品

    https://www.erolabs.games/en

    亚洲福利专区

    97.19MB
    608好评

    艾玛沃特森果照图片高清

  • 午夜福利视频97

    免费看18禁止观看黄网

    又色又猛又黄的视频

    65.62MB
    744好评

    A级毛片免费无码真人久久

  • FreeJAVHDOnline

    2024海角最新回家路线

    杨幂自慰

    54.92MB
    753好评

    人人操人人亚洲

  • 日本色请视频在线播放

    国产精品最新自拍91

    沉沦之夜夏婉最后跟谁在一起了

    57.26MB
    681好评

    人人插人人操人人

  • 激情福利视频

    欧美在线A片视频免费看

    抖阴APP下载污

    24.77MB
    355好评

    A片欧美激情潮喷

  • 国漫ai巨乳泳装

    3D黄漫 18禁触手怪

    涩涩碰视频

    13.51MB
    315好评

    人人摸日操

  • 欧产国产韩产

    无码A级毛片无码中文字幕

    www.zachiew.com

    84.15MB
    217好评

    8050一级AAA毛片

  • 欧美精品大片免费在线观看

    国产奸乱奸免费视频

    馃崙馃崙馃崒馃崒馃崋馃崋

    45.86MB
    736好评

    杨思敏1—5集无删减大胸

  • 永久免费看A片无码不卡网站

    手抓巨型 欧派

    直接现看黄网站免费视频直接

    10.67MB
    188好评

    在线国产第一页

  • 黄色三aaa

    一级啊片

    日本特一级

    44.19MB
    369好评

    玉足疯狂 喷水自慰爽日语

  • 欧美色婬站

    大片a免费观看在线视频

    我要看狼友黄色视频

    91.62MB
    208好评

    爱爱永久网站

  • 影音先锋Av每日资源

    国产精品福利小视频

    男生把女生困困的视频

    30.14MB
    907好评

    性爱视频又大又爽

  • 欧美一级夜夜爽香瓜视频

    聚友客栈2408登录入口

    91自拍最新地址

    30.68MB
    545好评

    免费人成A片在线观看不卡

  • 微拍伦理网站在线观看

    国产三级片视频在线

    久性爱视频

    29.35MB
    127好评

    男女高潮羞羞的免费网站

  • 动漫美女大胸秘 视频网站大

    亚洲性交片国产99在线一级毛片

    日韩视频,欧美视频,亚洲视频,偷拍视频

    70.76MB
    458好评

    AV欧亚一区二区三区网站

  • a片在线观看视频网址偷拍老熟女 title="色色色网址免费" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    馃惢馃悿

    在线性爱

  • 国产精品午夜一级毛片密呀91精品三级 title="Chinese男男GayFuCK激情酒店" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    欧美熟妇乱

    91黄片视频免费下载

  • 黄色99XXⅩ网站欧美黄片一级 一区 title="av 福利网站" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    熟女口

    中文字幕老熟女一区二区

@古月方源: 完堕ち×寝取られ家族 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 免费看1100部啪啪视频的网站 1天前
    禁欲软件网站
  • 久久亚洲欧美国产精品软件 5天前
    AAAAAAAAC无码专区
  • 激情com 9天前
    露巨奶视频91
  • 久久国产日韩 6天前
    artist:tometartist:tomet
  • 免费A级毛片无码A∨高潮 4天前
    一多收费视频在线观看
  • 工本口子库漫画版下拉式免费观看 8天前
    本子网站 免费入口
  • 为十八岁禁看的黄色网站 6天前
    国产激情一二区
  • 久久性爱视频网免费视频 6天前
    exo妈妈mv视频大片
  • 欧美特级黄色视频播放 9天前
    www.96cao.cim
  • 91囯产自拍 1天前
    亚洲日韩A∨无码男男