华为昇腾DeepSeek解决方案★ 硅基流动作为昇腾软件伙伴 致力于打造规模化、标准化、高效能 AI Infra 平台, 提 供高效能、低成本的多品类 AI 模型服务,助力开 发者 和企业聚焦产品创新。 DeepSeek 上线 1 周,服务用户数 据 硅基云服务平台上线0 积分 | 32 页 | 2.52 MB | 5 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告训练不仅能提升数学任务的性能,还能对其他领域和语言产生正向影响,展现了其 广泛的适用性。此外,该方法具有良好的泛化性和鲁棒性,在通用基础任务和对齐评估中取得了相当或更优的表现。 ➢ 强化学习的规模化提升了效率:离线强化学习算法(DPO)和在线强化学习算法(PPO)均能有效增强模型性能。 ➢ Long-COT 强化多模态模型:将 Long-COT 方法应用于多模态大语言模型(MLLMs)可以显著提升其性能,说明慢思考10 积分 | 76 页 | 8.39 MB | 6 月前3
共 2 条
- 1
