九游会ag娱乐官网登录,界面清爽、功能强大,专为极致体验而生_新万博体育
九游会ag娱乐官网登录 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件深圳一小区暴力强拆?街道回应 → 九游会ag娱乐官网登录 v2.712.1152.874295 安卓最新版

九游会ag娱乐官网登录

九游会ag娱乐官网登录

  • 电脑版下载
猜你喜欢
标签: 九游会ag娱乐官网登录 6319开元棋
详情
介绍
猜你喜欢
相关版本

内容详情

九游会ag娱乐官网登录

文 | X研究媛

DeepSeek OCR是一个不错的OCR小模型,但过誉了。

知乎网友指出,即使横向对比OCR最优秀的几个模型,它也不是最靠前的那个。

在下面两个案例里,3B大小(30亿参数)的DeepSeek OCR在数学公式展开里没有识别出“极坐标”,识别表格结构也是错的。相比之下,仅仅有0.9B(9亿参数)模型尺寸的PaddleOCR-VL(来自百度飞浆开源)却更胜一筹。

DeepSeek OCR也并非足够独创。外界猜测,谷歌Gemini 支持百万Token上下文可能早早使用了视觉压缩Token,同一天清华大学和智谱团队发布的、几乎同样思路「将长文本压缩为视觉Token作为模型输入」的Glyph,后者似乎没引发任何的「延伸解读」。

DeepSeek每一次出手都能虹吸巨大的关注。但仔细想想,也正常。

在中国做大了的互联网巨头,垄断了某个赚钱赛道后还怀揣着人类未来福祉去探索前沿技术的,几乎找不出一个范例。DeepSeek被美国同行形容为「实力深不可测」,其内禀的价值观、组织形态更是中国企业里罕见的异类。

梁文峰掌下的DeepSeek不怎么缺钱,浑身外溢着极致浪漫的技术理想主义。开源最前沿最有价值的模型训练细节,V3和R1引发全球轰动后几乎主动放弃巨大流量,也不去模仿OpenAI构建唾手可得的AI商业帝国...那种不按正常路径去「做大做强」,活在未来而非当下,一行一言去追逐高度不确定的AGI。在一个跟风、内卷、抄袭、金钱至上的中国,能诞生这样的公司,属实是“国运”。

外行看热闹,内行看Paper。言归正传,DeepSeek OCR的深层价值不是什么「真·无限上下文」,或者在各项评测集、各个大模型竞技场刷新了OCR模型的某个记录,而是探索「连续视觉表征压缩」在隐隐指向一个终极追求——「世界模型」。

Karpathy 评价里想说却未明说的:把大模型的前沿焦点从离散的语言Token,「重新转向」了连续视觉表征的视觉Token。

压缩即智能

如果把大脑看作一台生物计算机,Ilya说我们终将突破。人类思维最幽暗深微之处,也许出奇地「大道至简」。

Ilya有个信念,「如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。当你实现了信息高效压缩,you got to have some knowledge」。

压缩通过识别模式和规律高效表征信息,这与智能行为密切相关。有相当一部分研究人员认为,压缩可能是通用智能的基础,甚至可能等同于智能,Ilya所坚信的「压缩即智能」。

Ilya可能只说对了一半。相比语言这种一维的离散信息,语言的成功压缩诞生了轰动世界的ChatGPT。而视觉作为更高维的连续信息,端到端的压缩和统一表征提取,却异常困难。

如今强大无比的各类预训练大语言模型,它们在底层原理上高度统一:使用互联网上庞大语料训练出超大规模神经网络,它可以看作一大堆参数,当用户输入时,将激活固定的网络节点参数参与计算,从而「预测最大概率的输出Token」。具体过程中,用户的输入文本会被Tokenization固定划分的词和符号(即分词过程)转化为向量,这些输入向量会在超高维的向量空间去做模式匹配,即以激活的神经网络参数参与计算,计算出最高概率的下一个词。

LLM用大白话解释,就是根据模型参数和上下文去才猜下一个词。回顾大语言模型的发展,通用算法的发现,Transformer架构让Scaling变得真正可行,简单算法、超大数据、GPGPU算力的暴涨三者合力,成功地压缩互联网上几乎所有的文本资料,打造出一台非常智能的「Token预测器」。

LLM的输出是「Token by Token」,自回归方式,意味着每一个Token都要跟前文“交互”一次。输入十万个Token,模型就要进行十万·十万的百亿次“交互”计算。输入越长的上下文,预测下一个词就需要指数级的计算增长。

再大的显存带宽和显存容量,也无法一次吃掉计算过程中天量的中间矩阵,推理延迟会越来越大。LLM近年的创新,比如注意力层计算的稀疏和优化,诞生了MTP、NSA、DSA,还有稠密FFN层的稀疏激活,以及超大规模MoE专家网络的路由激活,本质都是在解决计算层面的问题。

以DeepSeek为例,除了R1以开源模型首次公开了预训练+后训练强化学习方法,复现了O1 推理思维链的效果引发轰动,其它几乎所有的创新都集中在改进注意力机制、激活参数计算和推理解码的高效,以及训练时如何降低硬件开销和提升数据通信可靠性。

DeepSeek OCR表面上是一个OCR模型,实际也是指向计算效率,尝试实现模型输入过长上下文的高效压缩。

DeepSeek OCR的核心是DeepEncoder,一个用vision tokens去Encode输入上下文信息的编码器,它实现了 9–10倍 文本压缩下 96%+ 的 OCR 解码精度,10–12倍压缩下约 90%的精度,20倍压缩下仍保持约 60% 的精度。

在压缩比10倍的时候,几乎可以做到无损。这意味着原来输入十万Token的模型上下文,视觉编码仅需一万Token。

而且,DeepSeek论文说我们可以连续调节压缩率,在压缩率和识别精度之间平滑地做出权衡。关键来了,DeepSeek将这种动态的视觉压缩还与人类的记忆遗忘做了类比。

DeepSeek提出一种类生物遗忘机制的压缩策略:

- 近期上下文:保持高分辨率,token 消耗高,信息清晰;

- 远期上下文:逐步降低分辨率,token 减少,信息模糊;

- 这种机制模拟人类记忆的自然衰减:

时间越久,记忆越模糊;

距离越远,视觉感知越弱;

两者都表现出渐进式信息丢失的模式(如图所示)

在论文里,DeepSeek 解释 OCR 的工作代表了对视觉-文本压缩边界的初步探索,研究了解码 N 个文本 token 需要多少个视觉 token这一核心问题。初步结果令人鼓舞:

光学上下文压缩不仅是技术可行的,更是生物学合理的。它为长上下文建模提供了全新视角。 DeepSeek相信,这一方向将成为未来 LLM 与 VLM 研究的重要突破口。

DeepSeek-OCR 在 约 10× 压缩比 下实现了接近无损的 OCR 压缩,在 20× 压缩比下,仍能保持 60% 的准确率,这些发现意味着:在多轮对话中,对超过 k 轮的历史记录进行光学处理,实现 10× 压缩效率;对旧上下文逐步缩小渲染图像,进一步减少 token 消耗; 模拟人类记忆的遗忘机制,越久远的内容,压缩率越高,图像越模糊,信息逐渐丢失。

在论文里,DeepSeek强调,光学上下文压缩仍然是一个刚刚起步、充满潜力的研究方向。DeepSeek-OCR 不仅仅是一个常用的优秀OCR工具,本身是一个极具实用价值的模型,具备大规模预训练数据生产能力,可作为 LLM 训练过程中不可或缺的助手。在实际应用中,该模型每天可生成数千万页级别的训练数据,显著提升了多模态数据构建的效率。

世界模型的「轮廓」

人脑若以“生物计算机”视角观察,可以粗略概括为:它以多模态、某种统一表征进行极为高效的信息压缩,实现对现实世界建模和预测。

LLM则是“通过语言单一模态对现实世界建模和预测”。

如果大语言模型能够导向AGI,等同于人类是通过语言理解一切,通过语言就可以建模世界?但这其中有一个明显Bug,人类并没有LLM Tokenization 这种「后天而非先验」的分词器,Karpathy形容Tokenization的过程是丑陋且笨拙。

用户的文本输入变成AI“可读”的内容,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token),比如“Hello, world!”可能被切成 [Hello]、[,]、[world]、[!],四个词元。分词的标准并不是统一的,不同的词表和分词器也意味着各家模型不同的Tokenization方法,它对模型的最终性能有一定影响。

LLM文本输入转化为Token的分词过程是不是必不可少的? 而DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以只用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原文内容。而且不需要文本分词这个过程。

语言深度依赖视觉经验和多模态基础,文字本身是对感知世界的二次抽象。为什么我们的AI系统,要绕过更原始、更丰富的表征层?当模型直接在像素层面理解文字,它看到的不只是语言,而是习得了更加丰富、更加深层的学习机制。

就像前文所说,相比语言这样的一维离散信息,更高维且连续的视觉信息,端到端的信息压缩、统一表征提取和预测,困难且毫无进展。

三句不离世界模型的Yan LeCun,曾在公开访谈中谈及连续视觉信息的处理有多么困难:

“一个典型的大语言模型大约是在200亿到2万亿个Token上训练的。Token差不多就是一个词。通常,一个Token用三个字节表示,200亿到2万亿个Token,总共大约是10的14次方字节,也就是1后面跟着14个零。这几乎是互联网上所有公开文本的总和。

一个人要花几十万年才能读完这些材料,这是海量的信息。现在,我们来比较一下这个数据量:一个四岁的孩子总共清醒了 16000 个小时。每秒大约有 2 M字节信息通过我们的视神经进入我们的视觉皮层。每秒 2 M字节,在四年内,通过视觉输入大约是 10 的 14 次方字节的数据。四岁孩子”看到“的数据量与需要你 40 万年才能阅读的文本一样多。

这表明,仅仅依靠文本训练,我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界,而这非常困难。如果我们不用单词,而是用视频中的帧,将这些帧转换成类似于单词的Token,然后尝试训练系统预测视频中将要发生的事情,这是行不通的。

我们可能无法预测某个特定单词会出现在文本的哪个位置,但我们可以预测所有可能单词的概率分布。对于视频,我们做不到这一点。我们无法表示所有可能的视频帧的概率分布。因此,那些在文本、DNA序列或蛋白质上非常有效的技术,在视频或其他自然信号上却不起作用。”

回过头来看,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多好的OCR工具,而在于它充当了一次“概念验证”(Proof-of-Concept)。它用实验数据证明了:AI的主要信息入口,可以从语言转向视觉,不仅效率更高,似乎更符合生物特性。

Karpathy还给出了一个关键洞察:

Vision→Text的任务空间,其实完全包含了Text→Text的任务空间,任何文本都可以无损“渲染”成图像。但反过来从图像到文本就会丢失大量信息。这种不对称暗示了一个激进的方向:把所有输入统一为视觉模态,输出保持文本不变。

这不仅仅是“文本到文本”任务变成了“视觉到文本”任务,这是一个更根本的转变。

如果输入端彻底转向像素,我们实际上构建的,不再是传统意义上的“大语言模型”,而是一个视觉条件下的文本生成系统。模型看到的,不再是固定划分的字符,而是更凌乱、更无序但信息更丰富的原始信号。沿着这条全新的发展道路,似乎远远能够望到世界模型的轮廓。

再看一遍 DeepSeek在OCR论文的总结,「这一范式将为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供全新的思路和广阔的研究空间」,措辞谨慎且谦虚。

DeepSeek值得尊敬。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    1682022世界杯 90体育足球比分 BET9 快银百人斗牛 世界杯在体育开户 365体育中文注册登录 九游会官网真人游戏第一品牌 爱游戏体育注册链接 新宝3测速 2020年欧洲杯时间表 缅甸新锦江 体育在线首页 欢斗地主下载免费下载 爱博足球 滚球bet356体育在线 沙巴体育网址到344k.com 熊猫体育平台下载 世界杯热门投注定c77,tv 云顶集团的登录网址 米乐m6怎么没有了 美高梅快速登陆 365bet正网注册 亚星官网手机版 美狮贵宾会 hth华体会怎么开户 完美国际泡泡真人图片 千赢国际官网买球 凯时首页登录 世界杯线上投注 世界杯足彩购买网站 可以面对面玩的斗地主 疯狂捕鱼无限注册版 金博宝188 金沙电子登入 千赢国际在线注册 世界杯买球app软件 博盈娱乐 威尼斯人官网网站登录 ManBetXapp下载 开云登陆 宝博体育网址登录 尊龙直播视讯 博乐体育app下载苹果 火狐手机app 途游棋牌 大发在哪玩 澳门银银河网 立博app下载 荣耀棋牌客户端口 ag正规网站 必发网投 澳门十三第娱乐场网址首页 188体育投注网站 乐动体育网页端 天博官网 博发娱乐城 edf138开户 万人二八杠棋牌游戏 新濠天地平台首页 澳门新葡萄娱乐官网 沙巴体育下载首页 注册可以试玩cq9游戏的网站 申博苹果版 18luck客服 威尼斯人老品牌 杏耀官方网站下载 国际棋牌备用网址 万博manbext网站登录入口 ylg官网 纬来体育hd怎样下载 kaiyun登录入口登录2024 永利网站平台 打鱼正规平台 国际线上体育 凯时手机娱乐app 伟德官方网站 酷游官网登录入口ku111 现金直营娱乐 万博最新官方网站 欧宝体育网址在哪 英雄联盟外围在哪儿买? 万博官网手机网页版 购买世界杯彩票的软件 365BET亚洲体育下载 云顶在线官网 168在线买球 手机凯发娱乐登陆 世界杯买球在哪个网站 申搏sunbet官网开户 菲律宾亚星国际开户 ag娱乐官网官方网站 澳门皇冠线上 必博入口登录 梦幻国际 真人 必赢平台网站多少 比万博还大的平台 AG网络 亚游娱乐382223 金皇冠足球软件联系方式 E世博app链接 宝博体育外围 御匾会平台 世界杯竞猜开户 ope体育电竞游戏 ag有正规平台吗 购买世界杯彩票维护 澳门皇冠真人在 188金宝搏beat体育官网 万博mantex是什么 hth华体会手机版注册 体育真人 美高梅手机app 江南娱乐jn平台下载 PG电子游戏注册彩金 2026世界杯正规买球app 手机彩票网站有哪些 澳门百利宫线上娱乐 澳门百乐门开户 通化大嘴棋牌 世界杯买球教程
    热门网络工具