2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告环境状态选择一个可能的策略路径。 ➢STaR 中,通过计算目标函数,模型对整个数据集的预测结果进行评估,并且只根据预测正确的样 本更新模型。 ➢STaR 在同一批数据上进行多次梯度更新,这类似于某些策略梯度算法中的策略,即通过多次调整 同一批数据来稳定学习过程。 [1] STaR: Bootstrapping Reasoning With Reasoning 36 技术对比讨论:强推理路径10 积分 | 76 页 | 8.39 MB | 10 月前3
华为昇腾DeepSeek解决方案Distribution 关键 发现 ① 细粒度的计算通信并行 • 将 PP stage 拆分为更细的模块 ,提升模块交替编排的灵活度 • 参考 ZeroBubble ,反向传递中的权重更新和梯度传递独立操作 • 经过细粒度的拆分和编排之后 ,计算流和通信流的 barrier 刚好可以重叠 ② 双向管道调度减少 PP 中的气泡 • 1F1B 中每个 batch 拆分为 1 个 forward0 积分 | 32 页 | 2.52 MB | 10 月前3
共 2 条
- 1
