2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告理论上发现:当对齐模型受到扰动时,模型对于预 训练数据集𝐷1的压缩率变化显著小于对齐数据集𝐷2, 且两者之比与 |𝑫𝟐| /|𝑫𝟏| 同阶; 从直觉上考虑: 在一个有大都市和郊区村落的地区,为了最大化 整个地区的经济生产力,我们会倾向于将资源优 先配置给大都市,以发挥大都市的规模效应和集 聚效应,而村落由于对于整个地区的经济贡献较 少,往往不会优先获得资源; pre-training和post-training阶段,模型因为弹性抗拒对齐10 积分 | 76 页 | 8.39 MB | 9 月前3
共 1 条
- 1
