北大:DeepSeek-R1及类强推理模型开发解读主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 RL series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal Verification 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? 得益于纯大规模强化学习 , DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(10 积分 | 76 页 | 6.72 MB | 5 月前3
北京大学-DeepSeek原理和落地应用2025程 问题和科学研究;在思路清晰度要求高的场景具有明显优势,比 如采访大纲、方案梳理。 用户交互体 验 提供流畅的实时对话体验,支持多种输入模态;用户 界面友好,适合大众使用。 可自主链式思考,不需要太多的过程指令,整体交互节奏较慢。 D e e p S e e k R 1 PART 02 DeepSeek公司 2025年1月20日推出DeepSeek-R1推理模型 作为由知名 重点是为了搞定复杂的推理情况,比如 深度的逻辑分析和解决问题 性能展现 在数学题、多语言任务还有编码任务 里表现不错,像Cmath能得90.7分, Human Eval编码任务通过率是65.2% 在需要逻辑思考的测试里很棒,比如 DROP任务F1分数能达到92.2%,AIME 2024的通过率是79.8% 应用的范围 适合大规模的自然语言处理工作,像 对话式AI、多语言翻译还有内容生成 等等,能给企业提供高效的AI方案, 劣势 n 语言理解和生成能力 n 世界知识能力 n 一定的推理能力 n 幻觉(生成错误答案) n 知识库有限 n 上下文窗口限制 推理模型(DeepSeek-R1)工作原理 让模型进行慢思考 思维链 (Chain of Thought) 在不损失能力的情况下缩小模型 蒸馏 (Distillation) 让模型自我探索和训练 强化学习 (Reinforcement Learning)10 积分 | 57 页 | 9.65 MB | 5 月前3
2025年DeepSeek手册:DeepSeek给我们带来的创业机会推理能力难以泛化,成本高昂 全面超越人类的人工智能在逻辑上不成立 政企、创业者必读 15 DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 大模型厂商都在探索慢思考、思维链技术 政企、创业者必读 DeepSeek出现之前的十大预判 之三 模型越做越专 除了少数科技巨头,大多数公司都专注于做专业大模型 智能体推动大模型快速落地 能够调用各种工具,具有行动能力 调用企业专业知识,更懂企业 将日常重复性业务流程形成Playbook,实现流程自动化 通过目标拆解,多次调用大模型以及专家模型协同,形成 慢思考能力 传统软件是辅助人的工具,Agent是能够自主工作的数字员工,是新的生产力 政企、创业者必读 22 DeepSeek出现之前的十大预判 之九 开源效果追赶上闭源 技术开放,吸引广大开发人员和用户使用 预训练算力前提下,大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26 政企、创业者必读 预训练模型如GPT——疯狂读书,积 累知识,Scaling law撞墙 预训练模型思考深度不够 算力见顶,变成少数巨头游戏 预训练大模型 推理大模型 预训练大模型难以通往AGI之路 推理模型如R1——通过逻辑链条推导答案, 分解规划,自我反思 预训练范式像是记忆和模仿,强化学习范10 积分 | 76 页 | 5.02 MB | 5 月前3
2025年自动化人工智能报告人工智能的泛化。如今, 广泛的可访问和 始终存在的AI将驱动新的 全过程的自主水平 该业务,演变能力 通过科技、数据及 人工智能。它将带来近乎无限的 创新的可能性 并且增长,但也挑战 企业对系统的信心 他们思考信任的方式。 我们之前见过这种情况。1997年,加里·卡斯帕罗夫在 与IBM的深蓝(Deep Blue)的六盘棋比赛中失利。 1 这 是第一次计算机击败国际象棋大师,经过数十年的测试 ,人类与机器在此游戏中对抗。这场胜利引发了一场关 一个全面的骨干架构是将AI实验转化为企业级解决方案的关键。它将智能扩展到整个组织以及 现有的工作流程中,并实现可重复性,因此解决方案可以一次性制作并重复使用。 模型: 大型生成式AI模型以及经典机器学习和深度学习模型执行批判性思考和推理功能,以将数 据转化为可行的成果。 代理商: 设计为问题解决者,以最小的人为干预处理任务,并在时间推移中学习和成长,人工智 能代理将规划、反思和适应性融入其中。 一个人可以利用这种力量做什么?一家企业如何在 变革与颠覆,请参阅我们的研究成果。 重构以数字化核心为基石 我们处于众多可能路径的起点。 向前。实现全部潜力的关键。 因为它的 是 受影响。首先——企业需要意识到,随着 他们在技术系统中的自主性日益增长,他们需要以不同 的方式思考他们对这些系统的信任程度,以及他们可能 需要施加哪些约束。Sakana AI,一家AI研究公司,通过 测试他们名为“AI科学家”的新系统,完美地展示了这一点 。 14 该系统自主使用大型语言模型进行科学研究,在实10 积分 | 66 页 | 5.50 MB | 5 月前3
2025年五大趋势报告:人智共创未来 点燃创新纪元点燃创新纪元 2 事实上,领导者没有时间审查每一项创新。随着智能体 AI 在组织中发挥的作用不断增强,领导 者需要下放更多决策权,才能真正加快步伐。他们仍然需要制定目标并明确前进规则,但必须 赋权团队重新思考工作流程,并用新的方式部署 AI 智能体,从而大幅度提高绩效。 在这种环境下,领导者相当于在敏捷性和安全性之间走钢丝,尽力维持韧性与风险之间的平衡。 这绝非易事。为了解领导者如何实现这一目标,IBM 员与特定领域的 AI 智能体结合,以提高绩效 表现。事实上,87% 的受访高管预计人类工 作会被生成式 AI 增强,而不是被取代。 3 这 意味着,比起学习新的技能或工具,员工必 须彻底重新思考如何开展工作,以便充分释 放生成式 AI 的潜力。 全球每年大约有 5% 的劳动力需要持续进行再培训, 而 AI 的快速发展让这一比例急剧攀升。 全球范围内的受访 CEO 估计,2024 年 在这两者之间取得适当的平衡变得日益困 难。展望未来,60% 的政府领导者认为冲击 的发生频率可能会增加,70% 的受访者认为 冲击的强度和影响将会增加。 18 这迫使企业 领导者评估其组织的数据存放地点,并重新 思考组织的运营方式及地理位置。2024 年, 86% 的受访高管表示其选址战略受到了地缘 政治的干扰,预计在 2026 年这一比例将上 升到 93%。 确定企业关键资源和技术所在的选址战略也 受到了10 积分 | 28 页 | 2.66 MB | 5 月前3
2024年中国人工智能产业研究报告5系列模型,进一步加大模型参数,主要通过无监督训练提升了模型通用能力,在模型准确 率及幻觉率方面达成显著优化。但Altman同样表示这将是最后一代“非思维链”模型,后面GPT 5将采取融合技术路径,纳入推理侧思考。 • 以OpenAI为例,在GPT 4o模型中将视觉理解模型GPT4V、视觉生成模型Sora、声音模型Whisper等模型模态融合,通过GPT 4o模型在文本、语音、图像等多维度实现高效交互, DeepSeek开源R1系列推理思考模型,将思维链过程开放公开,极大推动 全产业推理思考模型的技术进步,也让人们对AI能力有了更深刻感知。 系统一 直觉和本能 系统二 理性 • 快思考:快速、自动、 直觉性、无意识 • 原本GPT系列思考形 态更类似于系统一 • 慢思考:缓慢、需要努力、 逻辑性、有意识 • 推理模型加强推理思考能力, 思考形态往系统二倾斜 95% 5% 自大模型发布以来,Scaling 人类反馈数据训练 奖励模型,评估输出质量;以及强化学习(RL),利用奖励模型反馈优化模型,最终生成更符合人类偏好的输出等。由于代码、数学等领 域更适配模型评估与奖励反馈环节,推理模型在这些领域的深度思考能力更强,而在文学、医药、科研等领域,因存在大量实验数据和非 唯一最优解等影响,后训练的效果提升相对有限。从落地质效来看,DeepSeek通过创新的模型结构和训练任务优化,如多令牌预测 (MTP)、0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告5系列模型,进一步加大模型参数,主要通过无监督训练提升了模型通用能力,在模型准确 率及幻觉率方面达成显著优化。但Altman同样表示这将是最后一代“非思维链”模型,后面GPT 5将采取融合技术路径,纳入推理侧思考。 • 以OpenAI为例,在GPT 4o模型中将视觉理解模型GPT4V、视觉生成模型Sora、声音模型Whisper等模型模态融合,通过GPT 4o模型在文本、语音、图像等多维度实现高效交互, DeepSeek开源R1系列推理思考模型,将思维链过程开放公开,极大推动 全产业推理思考模型的技术进步,也让人们对AI能力有了更深刻感知。 系统一 直觉和本能 系统二 理性 • 快思考:快速、自动、 直觉性、无意识 • 原本GPT系列思考形 态更类似于系统一 • 慢思考:缓慢、需要努力、 逻辑性、有意识 • 推理模型加强推理思考能力, 思考形态往系统二倾斜 95% 5% 自大模型发布以来,Scaling 人类反馈数据训练 奖励模型,评估输出质量;以及强化学习(RL),利用奖励模型反馈优化模型,最终生成更符合人类偏好的输出等。由于代码、数学等领 域更适配模型评估与奖励反馈环节,推理模型在这些领域的深度思考能力更强,而在文学、医药、科研等领域,因存在大量实验数据和非 唯一最优解等影响,后训练的效果提升相对有限。从落地质效来看,DeepSeek通过创新的模型结构和训练任务优化,如多令牌预测 (MTP)、10 积分 | 51 页 | 3.35 MB | 6 月前3
解码DeepSeek构建医药行业新质生产力从海量数据中提炼⾼价值信息,提升模 型 学习 效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模 型 GRPO( 群体相对策略优 化 ) • ⼤道⾄简,⽤强化学习跳出题海和⼩ 测 让模型⾃⼰学会 思考 DeepSeek 的创新突破 效果体验惊艳,成本极致压缩 8 成本优势 技术震撼 开源引爆 垂直适配 • 550 万美元预训练成 本达到 GPT-4 级别性 能, 打破“算⼒军备 数据价值在⼤模型背景下进⼀步被凸显 Ds 推理思考能⼒以及医保控费压⼒ 15 主动权 →⼤模型成为患者信息来源 • “ 数字健康”和⽣态“破壁跨圈”,⽐如可穿戴设备与 AI 分 析相结合 →⼤模型汇聚和分析数据 • 个性化诊疗和健康管理 为药物研发和精准医学提供⽀持 ⼤模型语义理解加速医学数据治理和流通 • 医院数据开放和流通→数据要素商业化变 数据价值在⼤模型背景下进⼀步被凸显 • 精细化运营管理( DRG/DIP ) DS 推理思考能⼒以及医保控费压⼒(需求⾼,难度⼤) → 药品定价策略 • PR 先⾏, 但过去“纸⾯数据、 ⾮标数据”等困境能得到极⼤ 缓解, 医院数据的应⽤价值 可 以得到释放 医学数据结构化提取、标准化0 积分 | 32 页 | 3.98 MB | 5 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告FPBn混合精度训练 • 从海量数据中提炼⾼价值信息,提升模型 学习效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模型 数据蒸馏技术 • ⼤道⾄简,⽤强化学习跳出题海和⼩测 让模型⾃⼰学会思考 GRPO(群体相对策略优化) 效果体验惊艳,成本极致压缩 8 为什么⼈⼈都爱DeepSeek? 成本优势 • 550万美元预训练成 本达到GPT-4级别性 能,打破“算⼒军备 竞赛”魔咒 个性化诊疗和健康管理 患者 • 电⼦病历和数据管理⾰新 ⼤模型语义理解加速医学数据治理和流通 • 医院数据开放和流通 数据价值在⼤模型背景下进⼀步被凸显 • 精细化运营管理(DRG/DIP) Ds推理思考能⼒以及医保控费压⼒ 医院 • 学习/培训模式发⽣改变 • 医⽣临床决策影响模式发⽣改变 • 科研与学术⽅式和效率 医⽣ • 数据驱动的精细化监管:⽐如药占⽐/集采 vs&药品经济学 为药物研发和精准医学提供⽀持 ⼤模型语义理解加速医学数据治理和流通 • 医院数据开放和流通→数据要素商业化变 数据价值在⼤模型背景下进⼀步被凸显 • 精细化运营管理(DRG/DIP) DS推理思考能⼒以及医保控费压⼒(需求⾼,难度⼤) →药品定价策略 医院 • PR先⾏,但过去“纸⾯数据、 ⾮标数据”等困境能得到极⼤ 缓解,医院数据的应⽤价值可 以得到释放 医学数据结构化提取、标准化10 积分 | 32 页 | 14.20 MB | 5 月前3
火山引擎&IDC:2024年中国企业多云战略白皮书展格局。IDC预测,到����年,已经建立数字业务平台的组织将拥有比竞争 对手高出��%的数字化市场份额,并拥有更强的追踪投资回报率和执行数字 收入举措的能力。 一系列的变革将给企业的云战略演进带来强劲冲击。企业应努力思考如何构 建与业务协同发展、适度超前的IT架构,基于技术优势带动业务创新和商业 模式创新,推进企业整体发展目标的达成。以云为核心的IT基础设施规划与 企业业务规划密切相关,在业务发展的每一个阶段都应起到核心推动作用。 快速增长期 巩固期+ 新一轮探索期 试点建设,小规模部署和应用 灵活扩展支持业务增长 资源持续整合优化+ 面向未来的布局和规划 �� 在经历初创期的IT系统快速交付后,企业需要不断思考IT系统的灵活扩展、整合 优化以及面向未来的统筹规划问题。大多数企业在业务与数字化的协同发展中, 都普遍经历了以下典型阶段: 初步探索期:业务发展伊始,企业往往采用试点验证的思路,小幅投入IT资 新的业务发展挑战,企业需要不断依托先进的、面向未来的云能力。 �� 因此,企业有必要深入思考上云需求的变化,这些变化可能源自于新业务的拓 展、已有云服务缺陷的改进以及新的云技术、人工智能技术发展需求等;这些因 素将促使企业寻求更加灵活多样的云服务和IT系统组合。事实上,很多企业已经 采用多云战略或正在思考规划下一朵云的必要性,通过新的云基础设施和云服 务,实现多云统筹下的成本优化、技术能力提升和IT可靠性增强,从而在竞争激0 积分 | 56 页 | 1.97 MB | 5 月前3
共 23 条
- 1
- 2
- 3
