(6秒带你发现更多)我要看狼友视频安卓版v0.05.62.14.96.9.38-2265安卓网_新万博体育
我要看狼友视频 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件台湾下雪了 → 我要看狼友视频 v9.38.8439.248593 最新版

我要看狼友视频

我要看狼友视频

  • 电脑版下载
猜你喜欢
标签: 我要看狼友视频 欧美日韩在在线视频
详情
介绍
猜你喜欢
相关版本

内容详情

我要看狼友视频

文 | X研究媛

DeepSeek OCR是一个不错的OCR小模型,但过誉了。

知乎网友指出,即使横向对比OCR最优秀的几个模型,它也不是最靠前的那个。

在下面两个案例里,3B大小(30亿参数)的DeepSeek OCR在数学公式展开里没有识别出“极坐标”,识别表格结构也是错的。相比之下,仅仅有0.9B(9亿参数)模型尺寸的PaddleOCR-VL(来自百度飞浆开源)却更胜一筹。

DeepSeek OCR也并非足够独创。外界猜测,谷歌Gemini 支持百万Token上下文可能早早使用了视觉压缩Token,同一天清华大学和智谱团队发布的、几乎同样思路「将长文本压缩为视觉Token作为模型输入」的Glyph,后者似乎没引发任何的「延伸解读」。

DeepSeek每一次出手都能虹吸巨大的关注。但仔细想想,也正常。

在中国做大了的互联网巨头,垄断了某个赚钱赛道后还怀揣着人类未来福祉去探索前沿技术的,几乎找不出一个范例。DeepSeek被美国同行形容为「实力深不可测」,其内禀的价值观、组织形态更是中国企业里罕见的异类。

梁文峰掌下的DeepSeek不怎么缺钱,浑身外溢着极致浪漫的技术理想主义。开源最前沿最有价值的模型训练细节,V3和R1引发全球轰动后几乎主动放弃巨大流量,也不去模仿OpenAI构建唾手可得的AI商业帝国...那种不按正常路径去「做大做强」,活在未来而非当下,一行一言去追逐高度不确定的AGI。在一个跟风、内卷、抄袭、金钱至上的中国,能诞生这样的公司,属实是“国运”。

外行看热闹,内行看Paper。言归正传,DeepSeek OCR的深层价值不是什么「真·无限上下文」,或者在各项评测集、各个大模型竞技场刷新了OCR模型的某个记录,而是探索「连续视觉表征压缩」在隐隐指向一个终极追求——「世界模型」。

Karpathy 评价里想说却未明说的:把大模型的前沿焦点从离散的语言Token,「重新转向」了连续视觉表征的视觉Token。

压缩即智能

如果把大脑看作一台生物计算机,Ilya说我们终将突破。人类思维最幽暗深微之处,也许出奇地「大道至简」。

Ilya有个信念,「如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。当你实现了信息高效压缩,you got to have some knowledge」。

压缩通过识别模式和规律高效表征信息,这与智能行为密切相关。有相当一部分研究人员认为,压缩可能是通用智能的基础,甚至可能等同于智能,Ilya所坚信的「压缩即智能」。

Ilya可能只说对了一半。相比语言这种一维的离散信息,语言的成功压缩诞生了轰动世界的ChatGPT。而视觉作为更高维的连续信息,端到端的压缩和统一表征提取,却异常困难。

如今强大无比的各类预训练大语言模型,它们在底层原理上高度统一:使用互联网上庞大语料训练出超大规模神经网络,它可以看作一大堆参数,当用户输入时,将激活固定的网络节点参数参与计算,从而「预测最大概率的输出Token」。具体过程中,用户的输入文本会被Tokenization固定划分的词和符号(即分词过程)转化为向量,这些输入向量会在超高维的向量空间去做模式匹配,即以激活的神经网络参数参与计算,计算出最高概率的下一个词。

LLM用大白话解释,就是根据模型参数和上下文去才猜下一个词。回顾大语言模型的发展,通用算法的发现,Transformer架构让Scaling变得真正可行,简单算法、超大数据、GPGPU算力的暴涨三者合力,成功地压缩互联网上几乎所有的文本资料,打造出一台非常智能的「Token预测器」。

LLM的输出是「Token by Token」,自回归方式,意味着每一个Token都要跟前文“交互”一次。输入十万个Token,模型就要进行十万·十万的百亿次“交互”计算。输入越长的上下文,预测下一个词就需要指数级的计算增长。

再大的显存带宽和显存容量,也无法一次吃掉计算过程中天量的中间矩阵,推理延迟会越来越大。LLM近年的创新,比如注意力层计算的稀疏和优化,诞生了MTP、NSA、DSA,还有稠密FFN层的稀疏激活,以及超大规模MoE专家网络的路由激活,本质都是在解决计算层面的问题。

以DeepSeek为例,除了R1以开源模型首次公开了预训练+后训练强化学习方法,复现了O1 推理思维链的效果引发轰动,其它几乎所有的创新都集中在改进注意力机制、激活参数计算和推理解码的高效,以及训练时如何降低硬件开销和提升数据通信可靠性。

DeepSeek OCR表面上是一个OCR模型,实际也是指向计算效率,尝试实现模型输入过长上下文的高效压缩。

DeepSeek OCR的核心是DeepEncoder,一个用vision tokens去Encode输入上下文信息的编码器,它实现了 9–10倍 文本压缩下 96%+ 的 OCR 解码精度,10–12倍压缩下约 90%的精度,20倍压缩下仍保持约 60% 的精度。

在压缩比10倍的时候,几乎可以做到无损。这意味着原来输入十万Token的模型上下文,视觉编码仅需一万Token。

而且,DeepSeek论文说我们可以连续调节压缩率,在压缩率和识别精度之间平滑地做出权衡。关键来了,DeepSeek将这种动态的视觉压缩还与人类的记忆遗忘做了类比。

DeepSeek提出一种类生物遗忘机制的压缩策略:

- 近期上下文:保持高分辨率,token 消耗高,信息清晰;

- 远期上下文:逐步降低分辨率,token 减少,信息模糊;

- 这种机制模拟人类记忆的自然衰减:

时间越久,记忆越模糊;

距离越远,视觉感知越弱;

两者都表现出渐进式信息丢失的模式(如图所示)

在论文里,DeepSeek 解释 OCR 的工作代表了对视觉-文本压缩边界的初步探索,研究了解码 N 个文本 token 需要多少个视觉 token这一核心问题。初步结果令人鼓舞:

光学上下文压缩不仅是技术可行的,更是生物学合理的。它为长上下文建模提供了全新视角。 DeepSeek相信,这一方向将成为未来 LLM 与 VLM 研究的重要突破口。

DeepSeek-OCR 在 约 10× 压缩比 下实现了接近无损的 OCR 压缩,在 20× 压缩比下,仍能保持 60% 的准确率,这些发现意味着:在多轮对话中,对超过 k 轮的历史记录进行光学处理,实现 10× 压缩效率;对旧上下文逐步缩小渲染图像,进一步减少 token 消耗; 模拟人类记忆的遗忘机制,越久远的内容,压缩率越高,图像越模糊,信息逐渐丢失。

在论文里,DeepSeek强调,光学上下文压缩仍然是一个刚刚起步、充满潜力的研究方向。DeepSeek-OCR 不仅仅是一个常用的优秀OCR工具,本身是一个极具实用价值的模型,具备大规模预训练数据生产能力,可作为 LLM 训练过程中不可或缺的助手。在实际应用中,该模型每天可生成数千万页级别的训练数据,显著提升了多模态数据构建的效率。

世界模型的「轮廓」

人脑若以“生物计算机”视角观察,可以粗略概括为:它以多模态、某种统一表征进行极为高效的信息压缩,实现对现实世界建模和预测。

LLM则是“通过语言单一模态对现实世界建模和预测”。

如果大语言模型能够导向AGI,等同于人类是通过语言理解一切,通过语言就可以建模世界?但这其中有一个明显Bug,人类并没有LLM Tokenization 这种「后天而非先验」的分词器,Karpathy形容Tokenization的过程是丑陋且笨拙。

用户的文本输入变成AI“可读”的内容,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token),比如“Hello, world!”可能被切成 [Hello]、[,]、[world]、[!],四个词元。分词的标准并不是统一的,不同的词表和分词器也意味着各家模型不同的Tokenization方法,它对模型的最终性能有一定影响。

LLM文本输入转化为Token的分词过程是不是必不可少的? 而DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以只用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原文内容。而且不需要文本分词这个过程。

语言深度依赖视觉经验和多模态基础,文字本身是对感知世界的二次抽象。为什么我们的AI系统,要绕过更原始、更丰富的表征层?当模型直接在像素层面理解文字,它看到的不只是语言,而是习得了更加丰富、更加深层的学习机制。

就像前文所说,相比语言这样的一维离散信息,更高维且连续的视觉信息,端到端的信息压缩、统一表征提取和预测,困难且毫无进展。

三句不离世界模型的Yan LeCun,曾在公开访谈中谈及连续视觉信息的处理有多么困难:

“一个典型的大语言模型大约是在200亿到2万亿个Token上训练的。Token差不多就是一个词。通常,一个Token用三个字节表示,200亿到2万亿个Token,总共大约是10的14次方字节,也就是1后面跟着14个零。这几乎是互联网上所有公开文本的总和。

一个人要花几十万年才能读完这些材料,这是海量的信息。现在,我们来比较一下这个数据量:一个四岁的孩子总共清醒了 16000 个小时。每秒大约有 2 M字节信息通过我们的视神经进入我们的视觉皮层。每秒 2 M字节,在四年内,通过视觉输入大约是 10 的 14 次方字节的数据。四岁孩子”看到“的数据量与需要你 40 万年才能阅读的文本一样多。

这表明,仅仅依靠文本训练,我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界,而这非常困难。如果我们不用单词,而是用视频中的帧,将这些帧转换成类似于单词的Token,然后尝试训练系统预测视频中将要发生的事情,这是行不通的。

我们可能无法预测某个特定单词会出现在文本的哪个位置,但我们可以预测所有可能单词的概率分布。对于视频,我们做不到这一点。我们无法表示所有可能的视频帧的概率分布。因此,那些在文本、DNA序列或蛋白质上非常有效的技术,在视频或其他自然信号上却不起作用。”

回过头来看,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多好的OCR工具,而在于它充当了一次“概念验证”(Proof-of-Concept)。它用实验数据证明了:AI的主要信息入口,可以从语言转向视觉,不仅效率更高,似乎更符合生物特性。

Karpathy还给出了一个关键洞察:

Vision→Text的任务空间,其实完全包含了Text→Text的任务空间,任何文本都可以无损“渲染”成图像。但反过来从图像到文本就会丢失大量信息。这种不对称暗示了一个激进的方向:把所有输入统一为视觉模态,输出保持文本不变。

这不仅仅是“文本到文本”任务变成了“视觉到文本”任务,这是一个更根本的转变。

如果输入端彻底转向像素,我们实际上构建的,不再是传统意义上的“大语言模型”,而是一个视觉条件下的文本生成系统。模型看到的,不再是固定划分的字符,而是更凌乱、更无序但信息更丰富的原始信号。沿着这条全新的发展道路,似乎远远能够望到世界模型的轮廓。

再看一遍 DeepSeek在OCR论文的总结,「这一范式将为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供全新的思路和广阔的研究空间」,措辞谨慎且谦虚。

DeepSeek值得尊敬。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    福建兄妹60g资源在免费线观看 黄色A片视频网站免费看 7177午夜理论电影网 成人免费视频 国产免费 综合久久婷婷丁香开心播播网 www在线黄色视频劲爆 国产美女大战黑大长吊 手机看黄色视频啪啪 黄片软件 乱仑小说 一级精品久久久久 稀缺资源网禁美女 最新5566色在线视频高速 国产可以看的激情网站 在线观看中文字幕网站 AAAAAAA级毛片高清免费视频 欧美一级做一级A片视频大鸡巴破处 在线无码小电影 美女 露胸 露屁屁 无遮挡 超碰人人人人人 亚洲精品笫一页国产精品 日本欧美一儿二区 男女差差差差差差差很痛在线观看 午夜视频在线观看95 又粗又爽的视频免费 亚洲,天堂,日本在线观看 在线观看黄页网战视频 精品一区二区三区美女 小舞 到爽 流斗罗大陆 武汉萝莉被学生会长群交 少萝被 脱脱内内做运 蝌蚪窝色久 欧美一及 giantess外网growth官网入口 🎆黄🎆色🎆视🎆频周 18 成人免费观看网站下载 男女免费视频一区 成年人网站在线观看视频 白白发布免费观看 av无码系列专区野草 超碰97在线免费人妻 隐私偷拍偷窥AV合集 美女插屄视频 精品黄色A片在线观看 同性男片在线观看播放 亚洲Av片久久综合网 欧美毛片少妇 蓝色情挑 久久久激情视 色多多色一区不卡视频在线观看 欧美色色色色图 看精品黄色视频的网站 亚洲色图综合网站 亚洲二级片 揉奶头嗯…啊…出奶了A片 国模私拍精品一区二区 中国老女人日屄视频 欧美性色爱图 99riAⅤ视频 日日干日日操日日爽 九色地址 亚洲有码一区二区三区四区 亚洲色图3 在线视频欧美激情二区 9999草在线视频免费观看 全网国产黄色视频 人人色人人干人人 能看的免费黄色网站 黄A片亚午夜 性爱黄色片无码 亚洲精品国产拍 姨母的诱惑3免费看 欧美成在线视频 亚洲欧洲美洲无码精品Va水蜜桃 图片区小说区偷拍区日韩 美女扒开内 给男生玩乳头软件 欧美一级婬人妻欧美大片 免费日韩A级片 幫他擼雞巴爽到噴濃精 小欣奈少司缘 91真人毛片一级在线播放 亚洲GAY片男同网站HD - 不限制尺度资源 - 在线看永久会员版-老男人 久久思思婷婷 毛片在线播放官网 欧美一级特黄A片免费看是日本牲 www.中文字慕.com www.一级黄色网站一区二区三区 Jk萝莉被猛操91麻豆免费在线观看视频 宋雨琦被❌吸乳羞羞视频 初中少女巨乳凸起图片 十八岁以下禁止观看的网站 禁十八岁观看的黄色视频; A片网站aaaaa 人人人人人人操人人操 91五月天 一区二区不卡视频免费观看 丁香五月综合激情婷婷 欧美性爱 视频一区 加勒比在线国产精品 日本片子免费观看网址 色人视频 免费一级毛片在线视频短片 黑人一级av黄片 亚洲图片欧美色图网站 日韩视频免费观看 另类免费高清视频 日本熟妇乱交 白丝喷水自慰 极品美軳人体GOGO 精品久久黄色视频 少女18污黄禁 啪啪网站黄色免费 超碰人妻久久 99rav在线 女人网 九九黄在线视频精品播放 欧美日韩在线网站免费观看 红猫大本营在线观看免费播放电视剧 在线看看欧美 A片黄片视频在线免费观看 欧AⅤ性交 国产人人人人操人人干
    热门网络工具