(6分钟快速说明)开博体育官网首页鸿蒙版v47.32.85.3.70.62.85-2265安卓网_新万博体育
开博体育官网首页 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件樊振东退出WTT中国大满贯 → 开博体育官网首页 v9.56.294.848872 安卓最新版

开博体育官网首页

开博体育官网首页

  • 电脑版下载
猜你喜欢
标签: 开博体育官网首页 888国际真人娱乐网站
详情
介绍
猜你喜欢
相关版本

内容详情

开博体育官网首页

智东西作者 陈骏达编辑 云鹏

在大语言模型不断拉长上下文窗口的竞争中,DeepSeek刚刚提出了一条与众不同的技术路径。

智东西10月20日报道,今天上午,DeepSeek开源了DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。

这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。

当把等量的文本token转化为视觉token(图像)后,DeepSeek-OCR能用更少的token数表达相近的文本内容,这为解决大语言模型在长文本处理中的高算力开销提供了新的思路。

除此之外,DeepSeek-OCR还表现出很高的实际应用价值。在OmniDocBench上,它只使用100个视觉token就超越了GOT-OCR2.0(每页256个token),并且在使用少于800个视觉tokens的情况下,性能超过了MinerU2.0(平均每页近7000个token)。

在生产环境中,DeepSeek-OCR可以每天在单个A100-40G GPU上生成20万页以上的训练数据,为大规模文档理解和多模态模型训练提供支持。

目前,这一模型已在Hugging Face上开源,而介绍DeepSeek-OCR模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR团队称,他们此番开源的模型是对一种潜在解决方案的初步探索,即利用视觉模态作为文本信息的高效压缩媒介。

值得一提的是,与DeepSeek过往新模型动辄数十人的作者团队不同,这篇论文的作者仅有3人,分别为Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR论文的第一作者Haoran Wei也是GOT-OCR2.0论文的第一作者,GOT-OCR2.0是阶跃星辰去年9月发布的一款OCR模型。

开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

论文链接:

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

一、光学压缩可实现高压缩比,解码到底需要多少视觉token?

过去几年,AI模型的上下文能力不断被拉长——从4K到128K,再到上百万token,但代价是成倍增加的算力与显存消耗。

但文本其实是一种冗余的信息形式。DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”

目前,业内已经在VLM视觉编码器和端到端OCR模型上有一定探索。基于此前的研究,DeepSeek-OCR团队发现了目前尚未解决的一个关键研究问题:对于包含1000个单词的文档,解码至少需要多少视觉token?这一问题对于研究“一图胜千言”的原则具有重要意义。

围绕这一问题,DeepSeek打造了一个验证系统——DeepSeek-OCR。该模型通过将文本“光学化”,把原本数千个文字token压缩成几百个视觉token,再由语言模型解码回原文。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。

DeepEncoder:显著压缩vision token数量

DeepEncoder采用SAM + CLIP的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解,并用一个双层的16×卷积压缩模块显著减少vision token数量。

举个例子,当输入1024×1024的文档图片时,传统视觉模型会生成4096个token,DeepEncoder能将其压缩至仅256个token,让激活内存的数量更可控。

此外,它支持多种“分辨率模式”。从轻量的Tiny(64 token)到高保真的Gundam(795 token),模型可根据任务复杂度自动选择压缩等级。

论文展示了不同分辨率的压缩效果。对肉眼而言,Tiny模式下图片中的文字略显模糊,但基本能看清;而在高保真的Gundam模式下,图中文字的阅读体验基本和原文件的阅读体验没有差别。

▲实际阅读效果需参照原论文中的图片

在实际使用中,一页普通论文或幻灯片仅需100个视觉token即可精准识别;而密集文本的报纸或科学论文,则可通过Gundam模式实现高精度还原。

DeepSeek3B-MoE:激活参数仅5.7亿

在解码端,DeepSeek采用自研DeepSeek3B-MoE架构,推理时仅激活6个专家模块,总激活参数量约5.7亿。

这种“按需激活”的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档OCR、图文生成等场景。

数据引擎:从文档到图表、化学式、几何图

DeepSeek还搭建了一个庞大的数据数据集,包含四大数据类型:

(1)OCR 1.0数据:3000万页多语言文档与自然场景文字等;

(2)OCR 2.0数据:图表、化学公式、几何图形解析等;

(3)通用视觉数据:为模型注入基础图像理解能力;

(4)纯文本数据:维持语言流畅度与上下文建模。

得益于这一体系,DeepSeek-OCR不仅能识字、断句,还能看懂图表、解读化学式、识别几何图形,处理常见的图文交错文档。

二、10倍压缩效果几乎无损,数百token表示效果超7000 token

DeepSeek-OCR的训练流程整体上相对简洁,主要分为两个阶段:独立训练DeepEncoder和训练完整的 DeepSeek-OCR模型。

此外,所谓的“Gundam-master模式(超高分辨率)”是在预训练好的DeepSeek-OCR模型基础上,继续使用600万条采样数据进行微调得到的。由于其训练协议与其他模式相同,DeepSeek-OCR团队省略了详细描述。

DeepEncoder的训练遵循Vary的做法,使用一个轻量级语言模型,并基于下一token预测框架进行训练。在此阶段,模型使用了前述的OCR 1.0与OCR 2.0数据,以及从LAION 数据集中采样的1亿条通用图像数据。

当DeepEncoder训练完成后,DeepSeek-OCR团队使用多模态数据和纯文本数据,采用流水线并行策略来训练完整的模型。

为验证DeepSeek-OCR在文本密集型文档中的压缩与解压能力,研究团队选取了Fox基准进行实验。实验结果显示,在10×压缩率下,DeepSeek-OCR的解码精度可达约97%。这表明未来有望实现近乎无损的10×文本压缩。

当压缩率超过10×时,性能有所下降,主要原因包括文档版式复杂度的提升,以及长文本在512×512或640×640分辨率下出现模糊。前者可通过将文本渲染为统一版面解决,而后者则可能成为未来“遗忘机制”的研究特征。

即便在近20×压缩时,模型仍能保持约60%的精度。这些结果充分说明,光学上下文压缩是一条前景广阔的研究方向,且无需额外计算开销,因为多模态系统本身已具备视觉编码器结构。

除实验验证外,DeepSeek-OCR在实际场景中同样表现出不错的能力,可为LLM/VLM的预训练构建高质量数据。在OmniDocBench上,DeepSeek-OCR仅使用100个视觉toke(640×640 分辨率)的情况下,超越使用256个token的GOT-OCR 2.0。而在少于800个tokens(Gundam 模式)的条件下,DeepSeek-OCR甚至超越了需约7000个视觉token的MinerU 2.0。

进一步分析显示,不同类型文档对token数量的需求存在差异:幻灯片类文档仅需约64个视觉token即可获得良好效果;书籍与报告在100个视觉token下即可实现稳定性能;报纸类文档由于文本量庞大,需采用Gundam或Gundam-master模式才能实现可接受的效果。

三、从金融图表到化学表达式,各类文档均可深度解析

DeepSeek-OCR团队在论文中展示了DeepSeek-OCR在具体场景的能力。DeepSeek-OCR具备版面识别与OCR 2.0能力,可通过二次模型调用实现文档图像的进一步解析。DeepSeek将这一功能称为“深度解析(Deep Parsing)”。模型可在图像中识别不同类型的内容,包括图表、几何图形、化学结构式及自然图像等。

在金融研究报告中,DeepSeek-OCR能自动提取文档中图表的结构化信息,这一功能对金融与科学领域尤为重要。

在书籍与论文场景中,深度解析模式能够生成密集的图像描述,实现自动化的图文内容识别与转写。

对于化学文献,模型不仅可识别化学结构式,还能将其转化为SMILES格式,展现出在STEM(科学、技术、工程与数学)领域的潜在应用价值。

此外,DeepSeek-OCR还能解析平面几何图形的结构,尽管当前任务仍具有较高难度,但模型已显示出对几何要素与空间关系的初步理解能力。

互联网上的PDF数据涵盖多种语言,包括中文、英文以及大量多语种内容,这对训练具备全球通用性的大语言模型至关重要。DeepSeek-OCR已具备处理近百种语言的OCR能力,支持带版面与非版面两种输出格式。

在多语言测试中,DeepSeek-OCR对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。该能力确保DeepSeek-OCR能在多语言环境下稳定运行,为多语种文档解析与跨语言知识提取奠定基础。

除专注于文档解析外,DeepSeek-OCR还保留了一定的通用视觉理解能力,包括图像描述、物体检测、目标定位(grounding)等任务。在提供相应提示词后,模型能够详细描述图像内容、定位特定对象,甚至在包含文本的图像中执行OCR识别任务。

此外,由于训练中融入了大量纯文本数据,DeepSeek-OCR也保留了较强的语言理解与生成能力。需要指出的是,DeepSeek-OCR尚未经过监督微调(SFT)阶段,因此并非对话模型,部分功能需通过特定提示词激活。

结语:高效信息表示或成大模型潜在优化方向

“上下文光学压缩”验证了视觉模态在文本压缩中的有效性,为大语言模型处理超长上下文提供了新的解决路径。DeepSeek-OCR团队计划在后续研究中进一步探索数字与光学混合的文本预训练方式,并通过更细粒度的“needle-in-a-haystack”测试评估光学压缩在真实长文本环境下的表现。

从行业视角看,DeepSeek-OCR展示了另一种提高模型效率的可能路径——优化信息表达方式。通过视觉压缩减少token数量,模型可以在相同算力下处理更长的上下文内容。这一思路为未来在VLM视觉token优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。

DeepSeek团队在论文最后写道:“光学上下文压缩仍有广阔的研究空间,它代表了一个新的方向。”这项从OCR任务出发的研究,或许已经超越了文字识别本身。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    天辰娱乐登录 游戏平台网址大全 雷速体育软件下载 巴黎人在线排名 老虎机网页游戏 188体育在线滚球 世界杯专属买球app 天机报 飞火游戏平台 体育官方客户端下载 爱博网址 线上德州平台app ayx体育官网线下活动 线上真人国际娱乐 贝博体育app下载地址在哪 澳门永利wynnmacau 凯发娱乐手机官网登录网 教你两个平台对打 2020年欧洲杯比分 真人AG娱乐在哪下载 好玩的棋牌软件 在哪儿赌欧洲杯 澳门电子游戏网址排行 世界杯在体育开户 凯时官方网址 美高梅app官方 b0b体育平台提现 网上世博会 宝马会最新版APP 利来国际的最新网址 大发app下载 必赢亚洲体验官方下载 完美体育靠谱吗 188宝金博官网 四肖八码 亿博体育官网网址 太阳app苹果版 雷竞技在线官网进入 线上必胜博 明星看世界杯视频网站 捕鱼达人千炮版官方专区 葡京体育线路检测 环球在线官网 狗万体育的网址是多少 天天捕鱼 AG亚游集团注册 kb体育是真的吗 真人游戏真人游戏 现金真钱在线 世界杯赌球网站· 世界杯足球投注网站 新濠真人国际 视讯真人游戏赌场网站 凤凰彩票平台登陆网址 开云体育官网入口网址 天博app官网入口网址 世界杯买球艳曳ga68 me m6米乐娱乐入口 威尼斯人官网网站登录 manxbetx万博官网 另版输尽光 博鱼官网入口 注册领白菜体验金 千赢国际网止是多少 千赢国际网页手机登录 爱游戏app官网信誉好01 888游戏网 乐投游戏 聚星平台官网注册开户 必博体育官网app 新宝6首页 bet36体育在线登录 永利官网误乐域app 尊龙网站官方直营网 6688体育网 伟德网上正规 AOA快速注册 优德网投平台 葡京体育沙巴官网 皇冠手机管理端登录 葡京体育快速登陆 葡京轮盘官方网官网入口 乐动体育网页版注册 BET登录 博天堂手机版注册 m88体育平台 线上美高梅app 斗地主赢钱苹果版 热门棋牌游戏大厅 万里报 波克城市捕鱼官方版 宝马线上娱乐官网网址 世界杯买球矾bs18*me艾 凯时注册 365BET亚洲体育下载 火狐体育足球官网 ag捕鱼王下载平台 bob手机版登陆综合 彩票官方app下载 平台送体验金 雪缘足球比分 凯时登录不上去 大富翁8秘籍 澳门网上真人游戏平台 AG真人注册彩金 365bet体育电脑版 188bet赛事分析 w88网站 ob体育官网下载ios 求欢乐斗牛老版本 yabo 188bet金宝搏在线官网 千赢国际账号注册 海立方809官网 乐鱼全站登陆 环球国际在线登陆 伟德体育开户网址 万达彩票平台 sunbet官网登入 九州酷游体育
    热门网络工具