AI与新技术

DeepSeek 的 DSA 机制

一、什么是 DSA（DeepSeek Sparse Attention）机制

通俗版
DSA 是 DeepSeek 在其模型 V3.2-Exp 中引入的一种稀疏注意力机制。它目的在于减少处理长文本时的计算量和内存消耗，同时尽量保持原模型的性能。也就是说，不再对所有 token 间做全连接（dense attention），而是“挑重点”算注意力。

例子版
假设你输入一篇非常长的文章，里面有些句子、关键名词或转折点比其他地方重要得多。DSA 会先用一种轻量的“索引器”（indexer）判断哪些位置比较关键，然后在这些关键位置之间做注意力计算。对于不太重要的部分，则跳过或降采样。

下面是基于 DeepSeek 官方与社区的公开资料整理的 DSA 特性与机制细节。

特性	描述
稀疏注意力	DSA 执行的是细粒度的稀疏注意力（fine-grained sparse），不是粗粒度块状稀疏。(Hugging Face)
保持性能	DeepSeek 声称在各种公开基准上，V3.2-Exp 与前一版 V3.1-Terminus 在性能上基本持平。(Hugging Face)
效率提升	在长文本场景下，DSA 可带来速度提升 2~3 倍、内存使用下降 30%~40% 这样的改善。(Analytics Vidhya)
“Lightning Indexer”组件	多篇分析认为 DSA 的关键在于一个快速索引器，用它来选出最可能重要的 token，以此决定稀疏注意力的连接结构。(Analytics Vidhya)
复杂度下降	传统 Transformer 的全连接注意力复杂度是 (O(n^2))，DSA 可能将复杂度降低到 (O(nk)) （k ≪ n），即只对每个 token 与部分关键 token 做交互。(Analytics Vidhya)
代码 / 推理支持	在 GitHub 社区、SGLang、Hugging Face 等处已有对 V3.2-Exp（含 DSA）的支持（如推理示例、算子支持等）(Hugging Face)
架构基础延续	V3.2-Exp 在很多方面沿用了 V3.1-Terminus 的训练配置和模型结构，只在注意力模块中插入 DSA 机制以做效率优化。(Hugging Face)

效率 vs 成本优势明显：公开宣传中，DeepSeek 将其 API 成本削减超过 50%，这意味着 DSA 在性价比方面有相当大的潜力。(pandaily.com)
长文本应用增强：对于长文档、全文本搜索、法律文档、学术论文这种跨越很多上下文的输入，稀疏注意力更有意义。
技术路线契合趋势：当前 Transformer 体系中，稀疏注意力、局部注意力、混合注意力路线都被多个团队当成重要突破方向。DSA 是其中一种尝试。

细节未公开：目前 DeepSeek 官方没有（或尚未公开）完整的学术论文来详细说明 DSA 的数学推导、掩码策略、选择机制。公开资料多为模型说明或博客性质。(Hugging Face)
性能退化风险：在某些极端任务（跨越非常远距离的依赖、复杂推理链条）中，稀疏机制可能错过重要连接，从而造成性能下降。这种风险在很多稀疏或剪枝方法中都有。
硬件、兼容性挑战：稀疏注意力通常需要专门的算子支持、内核优化。若硬件或框架不支持，可能落回普通 dense attention 或失去效率优势。社区已有反馈 DSA 在 SGLang、TileLang 等环境中支持。(GitHub)
缺乏公开对比基线：虽然 DeepSeek 宣称在多个基准上和旧版差别不大，但完整的 ablation（消融实验）结果、任务细节、注意力掩码选择规则等仍不透明。

如果觉得文章对你有用，请随意赞赏

AI RAG

DeepSeek 的 DSA 机制

Ethan Wilkins

2025-09-30

2025-09-30

CC BY 4.0