梯度 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

环境状态选择一个可能的策略路径。 ➢STaR 中，通过计算目标函数，模型对整个数据集的预测结果进行评估，并且只根据预测正确的样本更新模型。 ➢STaR 在同一批数据上进行多次梯度更新，这类似于某些策略梯度算法中的策略，即通过多次调整同一批数据来稳定学习过程。 [1] STaR: Bootstrapping Reasoning With Reasoning 36 技术对比讨论：强推理路径

10 积分 | 76 页 | 8.39 MB | 1 年前
3
华为昇腾DeepSeek解决方案

Distribution 关键发现 ① 细粒度的计算通信并行 • 将 PP stage 拆分为更细的模块，提升模块交替编排的灵活度 • 参考 ZeroBubble ，反向传递中的权重更新和梯度传递独立操作 • 经过细粒度的拆分和编排之后，计算流和通信流的 barrier 刚好可以重叠 ② 双向管道调度减少 PP 中的气泡 • 1F1B 中每个 batch 拆分为 1 个 forward

0 积分 | 32 页 | 2.52 MB | 1 年前
3

共 2 条前往

页

2025 DeepSeek R1Kimi 1.5 及类推理模型推理模型开发解读报告华为解决方案解决方案