2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告\ Kimi 1.5 及 类强推理模型开发解读 北大对齐小组 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 及 R1 技术剖析 ➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 ➢ RL 算法的创新:GRPO及其技术细节 ➢ DeepSeek-R1 背后的Insights & Takeaways:RL加持下的长度泛化 \ 推理范式的涌现 ➢ DeepSeek-R1 社会及经济效益 ➢ 技术对比探讨 ➢ STaR-based Methods vs. RL-based \ o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking 过度思考等 ➢ 未来方向分析探讨 ➢ 模态穿透赋能推理边界拓展:Align-DS-V ➢ 合成数据及Test-Time Scaling: 突破数据再生产陷阱 ➢ 强推理下的安全:形式化验证10 积分 | 76 页 | 8.39 MB | 6 月前3
山东大学:DeepSeek 应用与部署Deepseek 十类提示 词 • 1. 内容生成类 :文本生成、代码生成、创 意生成和数据模拟。 • 2. 信息处理类 :文本摘要、信息抽取、 情感分析和多语言翻译。 • 3. 对话交互类 :角色扮演、多轮对话、 反问引导。 • 4. 技能应用类 :数学计算、代码解释、 逻辑推理。 • 5. 个性化定制类 :风格迁移、知识库绑 :风格迁移、知识库绑 定、偏好记忆。 • 6. 系统操作类:模式切换、资源优化、 记 忆管理。 • 7. 知识查询类:事实核查、概念解释、 溯 源检索。 • 8. 教育与研究类:题目生成、论文润色、 实验设计。 • 9. 多模态处理类: 图文互译、表格解析、 视频脚本。 • 10. 伦理与安全类: 内容审核、价值观对 齐、风险预警。 DeepSeek 部署方 案 Deepseek 本地部署蒸馏小模型 第三方 UI 客户管接入服务 云端网站接入服 务 Deepseek 模型及蒸馏模 型 Chatbox API 及网络调 用 Chatbox API 及网络调 用 API 及蒸馏模 型 API 及蒸馏模 型 本地网络调用 API 接 入 DeepseeK 替代部署方案 • 本地部署蒸馏小模型: 可通过 o llama 平台、10 积分 | 79 页 | 6.52 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025,通过一些装 置(如 键盘)向被测试者随意提 问。进行 多次测试后 ,如果被测 试者机器让 平均每个测试者做出 超过 30% 的误 判 ,那么这台机器 就通过了测试 , 并被认为具有人 类智能 1.1 图灵测试 人工智能的诞生可以追溯到 20 世纪 50 年代。 当时 ,计算机科学刚刚起步 ,人们开始尝试通过计算机程序来模拟人类的思维 和 行为。 在这个背景下 , 一些 深度学习模型 预训练模型 文心一言 ChatGPT 语言大模型 是 指 在 自 然 语 言 处 理 ( Nat u ral La ng uage Processing , NLP )领域中的一类大 模型, 通常 用于处理文本数据和理解自然语言 。 这类大模型 的主要特点是它们在大规模语料库上 进行了训练, 以学习自然语言的各种语法 、语义和语境规则 。 代表性产品包括 GPT 目标检测 、 图像分割 、姿态估计 、人脸识别等 。代表性产品 包括 VIT 系列 ( Google ) 、文心 UFO 、华为盘古 CV 、 INTERN (商汤)等 3.4 大模型的分 类 通用大模型 L0 是指可以在多个领域和任务上通用 的大模型 。 它们利用大算力、使 用 海量的开放数据与具有巨量参 数的 深度学习算法,在大规模无 标注数 据上进行训练, 以寻找特 征并发现10 积分 | 123 页 | 15.88 MB | 6 月前3
华为昇腾DeepSeek解决方案把握 DeepSeek 时刻,携手同 行 华为昇腾 AI 解决方案汇报 2025 年 2 月 DeepSeek 洞察及昇腾适配进展 华为昇腾 AI 基础软硬件介绍 CO NT E NTS 目 录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 Restricted Distribution 下一代 AI 技术 Mamba 、空间智能 等 算力 x 数据 x 思 考 模 型 效 果 低成本完美对标 OpenAI O1 ,突破精确语义理解及复杂推理任务 DeepSeek-V3 是一款 MoE 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14 模型容量提升 3 倍 计算量减少 70% DeepSeek 通过从模型结构到训推全流程的优化,带来大模型新 范式 DeepSeekV3/R1 ,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛 降低学习复杂度 简化强化学习流程 降低后训练复杂度 推理优化 单次推理效率倍级提升 一次预测多个 token 推理倍级提升 FP16/BF16 1 前 1 后单流水 需要裁判模型评估0 积分 | 32 页 | 2.52 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版自动化代码编写与优化:AI 编程助手利用深度学习 算法和大量代码数据训练模型,通过分析代码的结构 和模式,并根据开发者的需求,自动生成函数、类、 模块等代码,甚至优化现有代码,从而帮助开发者加 速代码生成,减少错误。 • 优化产品结构与应用模拟:通过形态识别技术,将 产品外形及特征转化为数据,辅助设计师不断优化 迭代。利用收集到数据构建数字孪生产品模型,模 拟产品的各种实际应用场景,如正常操作、极限性 设备上的温度、压力、振动等各种传感器给出的监测 数据进行处理分析,实时监控设备运行状态,并可通 过模式识别算法检测数据中的异常,预测可能出现的 故障或发现故障甚至给出修复建议,便于运维人员及 时实施预测性维护或故障修复,减少停机时间,提高 设备的可靠性和生产效率。 • 质量管理:产品缺陷检测是质量管理的重要一环,尤 其是对于金属等高反光产品、薄膜产品的划痕、裂 纹、凹坑、气孔、污染等非常难检出的外观缺陷,利 生产参数,并合理地分配人力、设备、物料等生产资 源,提高资源利用率,确保生产线始终保持在最佳工 作状态,提高生产效率。 在生产过程监控和优化方面,AI 算法通过分析生产 线上的各种运行状态反馈数据和工艺参数,能够预 测及发现潜在问题,并自动调整参数,优化产线运 行状态。 • 生产安全管理:通过智能视频分析技术分析从生产现 场采集的视频,进行行为识别与违规监测,如自动识 别生产线上的工人是否穿了防护服、佩戴安全帽,是0 积分 | 82 页 | 5.13 MB | 5 月前3
从智慧教育到智慧课堂:理论、规范与实践息时代的教育新形态、教育的“新常态”,是信息化元素充分 融入教育以后,在“时代催化剂”的作用下教育发生的“化学反 应”。 信息化 教育 时代催化剂 智慧教育” 智慧教育体系 智慧教师 智慧管理 智慧学习者及智慧学习 智慧课程 智慧教学 智慧教育资源 智慧评价(教、学) 智慧服务 智慧教室 智慧校园 智慧平台 智慧教育方式 10 信息技术 与学科教 65” 互动电视 65” 互动电视 65” 互动电视 分组 桌椅 3 分组 桌椅 5 分组 桌椅 1 分组 桌椅 2 分组 桌椅 4 投影机 充电柜 OPS box 网络孔及电源 无障碍 坡道 分 离 式 冷 气 分 离 式 冷 气 讲桌 160” 触控电子白 板 退缩 空间 退缩 空间 退缩 空间 投影机 案例一:多功能教室整体设备配置图 案例二:合作探究学习情境10 积分 | 74 页 | 10.39 MB | 6 月前3
AI跃迁派:2025年DeepSeek零基础完全指南竞品监控:自动生成友商产品功能对比表 ⚫ 风险预警:识别企业年报中的 34 种财务异常信号 ⚫ 生活助手:比价全网购物平台,推荐性价比最高商品 3.技术普惠:让 AI 像水电一样触手可及 DeepSeek 通过两大革新打破技术壁垒: 1.白菜价训练:用 2000 块国产昇腾芯片就能训练专业模型,大学生也能参与 AI 开发 2.手机端运行:1.5B 压缩版模型在千元机上流畅运行,山区医生可用10 积分 | 21 页 | 1.01 MB | 6 月前3
共 7 条
- 1
