关于DeepSeek的几点思考

VIP免费
3.0 2025-07-28 999+ 99+ 374.4KB 3 页 1智慧点
侵权投诉
关于这几天很火的 DeepSeek,我们(Archerman Capital)做了一些研究和思考,和大家分享,
enjoy!灰色部分是技术细节,不感兴趣的可略过。
几个事实
1DeepSeek 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的,但 DeepSeek
不是。
2核心架构还是基于 Transformerdeepseek 在架构、工程设计上进行了创新和工艺提升,实现效
率优化。架构上,采用了混合专家模型 (MoE)、多头潜注意力 (MLA) 、多令牌预测(MTP、长链式
推理(CoT)、 DualPipe 算法等设计,并进行了依赖强化学习(RL)而不加入监督微调(SFT)的训
练尝试。工程上,在数据精度(FP8 混合精度)、底层通信等方面进行了优化。这些方法在学术界都
已经有了,Deepseek 没有过于追求新技术,而是花了心思把这些方法都用上,解决了一些技术的应
用难点,在理论应用和工程上找到平衡,具体如下:
MoEMixture of Experts。将模型划分多个专家模块来进行分工。训练中将不同专家模块分配
到不同计算设备训练,提升训练效率。推理时,仅动态激活部分专家(37B 参数),而非全模
型参数(671B 参数),减少计算负担。但是 MoE 经常会面临某些专家承担所有工作,其他专
家不被使用的问题,业内会通过一如辅助损失来对此调控、平衡各个专家模块的工作量,而
deepseek 通过无辅助损失的自然负载均衡(引入一个无形的手而不是人为调控)、共享专家
机制来解决该问题。
MLAMulti-Head Latent Attention。扩展了传统的多头注意力机制,引入潜向量(latent
variables,可以动态调整注意力机制,捕捉任务中不同的隐含语义。在训练中减少内存和计
算开销,在推理中降低 KV 缓存占用空间。
MTPMulti-Token Prediction。一般 LLM 一次生成 1token,采用单步预测。deepseek
特定场景下能同时预测多个 token,来提高信号密度。一方面能够减少上下文漂移、逻辑更连
贯,也能减少一些重复中间步骤,在数学、代码和文本摘要场景能提升效率。
CotChain of thought。一种训练和推理方法,将复杂的问题拆分成小步的中间逻辑,细分逻
辑链条。在训练阶段,Deepseek 用标注的 Long CoT 数据微调模型,让模型生成更清晰的推
理步骤,在强化学习中用 CoT 设计奖励优化,增强长链推理能力,并且在此过程中观察到了
模型的反思(回溯推理路径)、多路径推理(能给出多个解)aha 时刻(通过策略突破瓶颈)
等自发行为。
摘要:

关于这几天很火的DeepSeek,我们(ArchermanCapital)做了一些研究和思考,和大家分享,enjoy!灰色部分是技术细节,不感兴趣的可略过。几个事实1)DeepSeek不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的,但DeepSeek不是。2)核心架构还是基于Transformer,deepseek在架构、工程设计上进行了创新和工艺提升,实现效率优化。架构上,采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)、DualPipe算法等设计,并进行了依赖强化学习(RL)而不加入监督微调(SFT)的训练尝试。工程上,在数据...

展开>> 收起<<
关于DeepSeek的几点思考.pdf

共3页,预览1页

还剩页未读, 继续阅读

分类:热门知识 价格:1智慧点 属性:3 页 大小:374.4KB 格式:PDF 时间:2025-07-28

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注