规律 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

可以进一步将这种思路扩展到思考过程是搜索过程的特例，比如 rStar-Math, SoS 都可以用类似的思路来理解。 ➢ 本质上，STaR一类的方法是希望模型能够学习到MetaCoT, 即问题到答案映射过程背后的深入规律 ➢ 但是对于问题的结构要求性高，对于复杂数学推理任务可能难以自我迭代 ➢ 难以融入 Rule-Based Reward for RL训练 ➢ PureRL加持下，业界的技术实践更多Focus on 直接利用SFT蒸馏可以学习到数据中的推理范式，虽然在推理分数上的表现有所提升，但是更多是去拟合数据中的Pattern, 很难学习到数据背后的数学规律和MetaCoT ➢ 强化学习则是通过试错和尝试，鼓励模型在最大化奖励过程中学习到推理背后的规律，获得的泛化性和推理表现上界更高 ➢ SFT 主要负责记忆而很难进行OOD泛化，基于ORM的RL泛化能力较好 [1] ➢ SFT规范模型输出格式，使得后续的RL可以获得更高的收益单智能体系统下的安全，并不保证多智能体系统安全 \AI系统伪装已被“安全对齐”，行为欺骗监管 ➢ 随着 VLA \ Agent 等模型下游和赋能应用兴起，确保模型AI系统准确应对不确定性，考虑物理规律下的人类价值观对齐至关重要 ➢ 在复杂动态环境中不仅要短期安全，还要确保长期行为的安全性，例如对操作环境造成影响。 ➢ 通过形式化验证和RL，提升AI系统的可靠性与处理复杂推理问题的能力。通过构建形式化数学数据库，

10 积分 | 76 页 | 8.39 MB | 9 月前
3
浙江大学-DeepSeek模型优势：算力、成本角度解读2025

240 GB/s 较好无 12 万英伟达 H800 1000T=1015 80GB 900 GB/s 好有 25 万人工智能计算平台成本估计算力存力运力 ■ 大模型扩展规律 ( 资本非常喜欢确定性故事 ) ■ 算力：算力越大 (X 轴 ), 模型效果越好 (Test Loss 小 ) ■ 数据集：数据集越大 (x 轴 ), 模型效果越好 ■ 模型参数：参数越多

10 积分 | 23 页 | 7.53 MB | 9 月前
3
DeepSeek大模型赋能高校教学和科研2025

大模型的概念训练数据量大计算资源需求高参数数量庞大大模型的设计和训练旨在提供更强大、更准确的模型性能，以应对更复杂、更庞大的数据集或任务。大模型通常能够学习到更细微的模式和规律，具有更强的泛化能力和表达能力学习能力强大模型可以从大量的数据中学习，并利用学到的知识和模式来提供更精准的答案和预测。这使得它们在解决复杂问题和应对新的场通用大模型 L0 是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法，在大规模无标注数据上进行训练，以寻找特征并发现规律，进而形成可“举一反三” 的强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于 AI 完成了“通识教育” 行业大模型 L1 是指那些针对特定行业或领域的大的绘图软件（如 R 语言、 Python 等）的绘图代码。无论是趋势图、热力图，还是散点图， DeepSeek 都能在复杂数据中提炼出关键信息，支持科研人员更快速地识别研究规律 DeepSeek 能够快速根据关键词检索相关文献，并按照相关性、引用次数等指标对结果进行排序。其独特的语义检索功能，能更精确地理解用户需求，提供高质量的文献结果，减少传统文献检

10 积分 | 123 页 | 15.88 MB | 9 月前
3

共 3 条前往

页

2025 DeepSeek R1Kimi 1.5 及类推理模型推理模型开发解读报告浙江大学浙江大学优势算力成本角度赋能高校教学科研

分类

语言

格式

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

浙江大学-DeepSeek模型优势：算力、成本角度解读2025

DeepSeek大模型赋能高校教学和科研2025