DeepSeek发布V3.2-Exp：引入DSA、价格腰斩，为V4、R2铺路

DeepSeek发布V3.2-Exp：引入DSA、价格腰斩，为V4、R2铺路

作者｜周一笑邮箱｜ zhouyixiao@pingwest.com

AI圈，不同的公司似乎都有着自己独特的发布节奏，比如OpenAI和Google喜欢相互“狙击”，在国内被津津乐道的，可能要属DeepSeek的“节前上新”。

一张流传颇广的Hugging Face留言截图，就精准吐槽了DeepSeek这种总是在法定节假日前几天发布新产品的习惯。这次，DeepSeek同样遵循这个规律，在国庆前夕带来了最新的模型DeepSeek-V3.2-Exp。

新模型的后缀“Exp”代表实验性（Experimental）的定位，核心是引入了一项名为DeepSeek Sparse Attention（DSA）的新架构。DSA首次实现了细粒度稀疏注意力机制，几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。DeepSeek也同步大幅下调了其API服务的价格，在新的价格政策下，开发者调用DeepSeek API的成本将降低50%以上。

DSA：通向下一代模型的阶梯？

根据DeepSeek的官方描述，V3.2-Exp并非一个全新的模型系列，而是其迈向下一代架构的一个“中间步骤”。它以前代模型V3.1-Terminus为基础，通过“持续训练”（continued training）的方式，核心目的在于引入并验证其最新的DeepSeek稀疏注意力（DSA）机制。官方将其定位为一次针对长文本训练与推理效率的“探索性优化和验证”。

为了更好的理解这次更新，需要从DSA入手。在Transformer架构中，传统的注意力机制是“稠密的”，处理长文本时成本会呈指数级增长。DSA则提供了一种更高效的“稀疏”方案，让模型学会在处理每个字时，只关注那些与它最相关的少数关键信息，从而在理论上大幅提升效率。

要实现这种高效的“稀疏”，DeepSeek做了一些工程选择，例如新架构用一个更精简的128维FP8精度Lightning Indexer（闪电索引器），替代了过去相对臃肿的注意力机制。这个索引器本身不携带复杂信息，只作为快速查找工具。查找过程用的是低成本的FP8精度，而进行核心计算的重要信息，则依然保持完整的FP16全精度处理。这种在不影响最终质量的地方“极致压缩成本”的思路，是能够将注意力成本降低近9倍的关键。

DeepSeek投入资源研发DSA，最直接的原因可能是提升效率、降低成本。此外，根据一位行业从业者在与硅星人交流中的观点，这背后有更深层的技术考量。随着上下文窗口越来越长，传统注意力机制可能会遭遇性能上的“注意力悬崖”（attention cliff），即在某个长度节点之后，模型处理信息的能力会突然大幅下降。因此，DSA的真正目标，是为未来更长的上下文场景，探索一种能从根本上避免这个问题的架构解决方案。这次发布，也是对这个解决方案的一次大规模公开验证。

一项提升效率的技术，必须考虑是否以牺牲性能为代价。DeepSeek公布了详尽的基准测试数据。数据显示，在与前代模型V3.1-Terminus的严格对齐比较中，V3.2-Exp在各项核心能力上都保持了基本持平的水准。例如，在代码生成（HumanEval）、数学推理（GSM8K）和通用知识（MMLU）等多个公开评测集上，二者的得分都非常接近，差距基本在1%以内。至少在基准测试上，DSA的应用在很大程度上实现了一次“效率换挡，性能不减”的优化。

对新架构的信心，也体现在其市场策略上。在发布V3.2-Exp的同时，DeepSeek对其API服务进行了一次大幅降价，涵盖了从V2到V3.1等多个主力模型。该大模型行业人士对此评论，DeepSeek更像是一种“以价换量”的策略，不只是用户量，更是对新架构的海量“验证量”。通过一个极具吸引力的价格体系，鼓励海量开发者在真实场景中调用其服务，这也为正在进行公开测试的V3.2-Exp提供了压力测试数据和环境。

DeepSeek的这次发布，也在Reddit、Hacker News等技术社区引发了讨论。

最普遍的感受是惊喜。一些用户在测试中取得了不错的效果，一位Reddit网友的评论“创新速度如光速，佩服得五体投地”。新万博体育：讨论则聚焦于其极致的性价比，有用户证实V3.2的推理成本显著降低，但“性能各方面却非常相似”。这种“性能不降，费用降低”的组合拳，被普遍认为是模型服务走向普惠的一步。

当然，讨论也并非全是赞誉。有用户反馈，在自己的某些特定测试上，新版本的表现反而不如旧版。同时，新万博体育：DSA稀疏注意力机制是否会牺牲部分上下文性能的技术辩论，也在社区持续进行。此外，也有评论对DeepSeek的低价策略能否持续表示观望。

国产AI生态联动

DeepSeek此次发布还让一个相对小众的国产编程语言获得了关注。

为了方便开发者更好地利用其新架构，DeepSeek开源了DSA中部分关键组件的CUDA算子。而在其技术文档中，一个名为TileLang的工具被提及。这是一种由北大团队研发的新型编程语言，专为简化高难度的GPU算子开发而设计。根据相关资料，对于一些复杂的算子，原本需要500行左右的CUDA代码，使用TileLang可能只需50行就能实现，极大地降低了底层优化的门槛和研发成本。

TileLang此前已被微软等国际厂商在其AI框架中采用。但DeepSeek的这次“引流”，让新万博体育：人看到了其在另一层面的价值，对国产硬件生态的适配。目前，TileLang不仅支持英伟达的CUDA，也已支持华为昇腾等国产芯片。

DeepSeek V3.2-Exp模型发布后，华为昇腾和寒武纪均第一时间宣布完成了适配工作。也就是说以DeepSeek为代表的国内大模型公司，在进行算法和架构创新的同时，也在客观上推动和验证了国产AI软硬件生态的协同发展。包括上层的模型架构，到中间层的编译语言，再到底层的计算芯片。

DeepSeek公开的“实验”

不久前，Google也发布了其最新轻量级模型Gemini 2.5 Flash-Lite。与V3.2-Exp类似，它同样追求极致的性价比。但二者实现路径有所不同。Gemini的更新更侧重于通过模型蒸馏等方式进行参数和性能的优化，而DeepSeek则选择了从更底层的注意力机制入手，进行架构层面的革新。路径有区别，但目标一致，都在致力于提供更普惠的高性能AI。解决“效率”和“成本”这两个基础问题，已经成为全球顶尖玩家的共识，这与单纯的“价格战”有着本质区别。

这种由底层架构创新带来的成本结构变化，对行业的长期影响可能更为深远。它让新万博体育：开发者和中小企业能够以更低成本使用到顶尖水平的大模型，也势必会影响闭源模型的利润空间和策略。这也证明了由算法和架构创新驱动的AI“摩尔定律”继续。当价格不再是阻碍时，真正的应用创新才可能发生。

通过DSA这项技术实验，DeepSeek传递出其仍在智能前沿进行持续探索的信号，也很可能让我们提前看到了V4架构的雏形，这是一个清晰的、正在进行中的过程。而这个进程的速度，将决定我们何时能看到DeepSeek V4和R2。

点个“爱心”，再走吧

相关推荐：亚太真人国际贵宾会百老汇安卓应用下载皇都真人国际平台

分享： 2025-09-28 06:36:35 共81款