2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告的奖励优化,赋能长思维链安全的验证 44 技术对比讨论:Over-Thinking ➢ 强推理模型存在Overthinking的行为 ➢ 过多的语气词,例如 Wait 等 ➢ 一些模型经常会不分场合使用一些高 端词汇,典型的如量子纠缠(会用在 各个领域) ➢ 对于一些简单的数学问题例如 2+3 =? 也会过多思考 ➢ 看似有反思范式,重复Pattern多,可能会 导致更好的表现,但是会带来training10 积分 | 76 页 | 8.39 MB | 10 月前3
共 1 条
- 1
