关于DeepSeek的几点思考

VIP免费

3.0 2025-07-28 999+ 99+ 374.4KB 3 页 1智慧点

侵权投诉

关于这几天很火的 DeepSeek，我们（Archerman Capital）做了一些研究和思考，和大家分享，

enjoy！灰色部分是技术细节，不感兴趣的可略过。

几个事实

1）DeepSeek 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的，但 DeepSeek

不是。

2）核心架构还是基于 Transformer，deepseek 在架构、工程设计上进行了创新和工艺提升，实现效

率优化。架构上，采用了混合专家模型 (MoE)、多头潜注意力 (MLA) 、多令牌预测（MTP）、长链式

推理（CoT）、 DualPipe 算法等设计，并进行了依赖强化学习（RL）而不加入监督微调（SFT）的训

练尝试。工程上，在数据精度（FP8 混合精度）、底层通信等方面进行了优化。这些方法在学术界都

已经有了，Deepseek 没有过于追求新技术，而是花了心思把这些方法都用上，解决了一些技术的应

用难点，在理论应用和工程上找到平衡，具体如下：

• MoE：Mixture of Experts。将模型划分多个专家模块来进行分工。训练中将不同专家模块分配

到不同计算设备训练，提升训练效率。推理时，仅动态激活部分专家（37B 参数），而非全模

型参数（671B 参数），减少计算负担。但是 MoE 经常会面临某些专家承担所有工作，其他专

家不被使用的问题，业内会通过一如辅助损失来对此调控、平衡各个专家模块的工作量，而

deepseek 通过无辅助损失的自然负载均衡（引入一个无形的手而不是人为调控）、共享专家

机制来解决该问题。

• MLA：Multi-Head Latent Attention。扩展了传统的多头注意力机制，引入潜向量（latent

variables），可以动态调整注意力机制，捕捉任务中不同的隐含语义。在训练中减少内存和计

算开销，在推理中降低 KV 缓存占用空间。

• MTP：Multi-Token Prediction。一般 LLM 一次生成 1个token，采用单步预测。deepseek 在

特定场景下能同时预测多个 token，来提高信号密度。一方面能够减少上下文漂移、逻辑更连

贯，也能减少一些重复中间步骤，在数学、代码和文本摘要场景能提升效率。

• Cot：Chain of thought。一种训练和推理方法，将复杂的问题拆分成小步的中间逻辑，细分逻

辑链条。在训练阶段，Deepseek 用标注的 Long CoT 数据微调模型，让模型生成更清晰的推

理步骤，在强化学习中用 CoT 设计奖励优化，增强长链推理能力，并且在此过程中观察到了

模型的反思（回溯推理路径）、多路径推理（能给出多个解）、aha 时刻（通过策略突破瓶颈）

等自发行为。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

1 智慧点 99+人已下载

立即下载 VIP免费下载

摘要：

关于这几天很火的DeepSeek，我们（ArchermanCapital）做了一些研究和思考，和大家分享，enjoy！灰色部分是技术细节，不感兴趣的可略过。几个事实1）DeepSeek不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的，但DeepSeek不是。2）核心架构还是基于Transformer，deepseek在架构、工程设计上进行了创新和工艺提升，实现效率优化。架构上，采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测（MTP）、长链式推理（CoT）、DualPipe算法等设计，并进行了依赖强化学习（RL）而不加入监督微调（SFT）的训练尝试。工程上，在数据...

展开>> 收起<<

关于DeepSeek的几点思考.pdf

共3页,预览1页

还剩页未读，继续阅读

关于DeepSeek的几点思考

相关推荐

开通VIP享超值会员特权

相关内容

热门标签

举报选择: