开创 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

主要研究方向：大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 及 R1 技术剖析 ➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及强推理下的安全：形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment ➢ 补充拓展：DeepSeek-V3 解读 3 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式：后训练扩展律 Post-Training Scaling Law ➢ DS-R1 用人类专家标注的监督微调（SFT）； ➢ 随着训练步骤增加，模型逐渐展现出长文本推理及长链推理能力； ➢ 随着推理路径增长，模型表现出自我修复和启发式搜索的能力； 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强大的推理能力与长文本思考能力，DeepSeek R1在复杂任务上表现卓越，成为开源领域的又一里程碑，标志着开源社区在与闭源大模型（如 OpenAI

10 积分 | 76 页 | 8.39 MB | 1 年前
3
DeepSeek大模型赋能高校教学和科研2025

DeepSeek-V3 的性能均超越了其他开源模型，甚至与顶尖的闭源大模型 GPT-4o 不相上下，尤其在数学推理上， DeepSeek-V3 更是遥遥领先。 DeepSeek-V3 以多项开创性技术，大幅提升了模型的性能和训练效率。 DeepSeek-V3 在性能比肩 GPT- 4o 的同时，研发却只花了 558 万美元，训练成本不到后者的二十分之一。因为表现太过优越

10 积分 | 123 页 | 15.88 MB | 1 年前
3

共 2 条前往

页

2025 DeepSeek R1Kimi 1.5 及类推理模型推理模型开发解读报告赋能高校教学科研

分类

语言

格式

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

DeepSeek大模型赋能高校教学和科研2025