2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告能够被Verifiers 准确评价,从而防止泛化出 一些reward hacking 和 superficial patterns 的行为 ➢ Long-CoT SFT ➢ 用Prompt Engineering 造了一个高质量LongCoT warmup dataset ➢ 包含了准确的 verified reasoning paths for both image and text inputs ➢ 涵盖了 Deep Thinking https://arxiv.org/abs/2501.04519 42 技术对比讨论:MCTS & PRM ➢ 关键的Takeaways: ➢ 相比于利用MCTS造数据,直接将MCTS 应用于模型的训练 可能会限制模型的思考过程? ➢ MCTS 是一种 Structure, A* 也是 Structure, 人为加入 Inductive Bias 强求LLM按照人为的结构化先验进行思10 积分 | 76 页 | 8.39 MB | 9 月前3
共 1 条
- 1
