北大:DeepSeek-R1及类强推理模型开发解读DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学 2022 级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 及其技术细节 DeepSeek-R1 背后的 Insights & Takeaways : RL 加持下的长度泛化 \ 推理范式的涌现 DeepSeek-R1 社会及经济效益 技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment Outline10 积分 | 76 页 | 6.72 MB | 9 月前3
中国推理算力市场追踪报告,2025H1-沙利文1 中国推理算力 市场追踪报告,2025年H1 头豹研究院 弗若斯特沙利文咨询(中国) 2025年8月 2 关键发现 算力需求重心从训练转向推理,算力基础设施持续扩展与升级 AI算力消耗已从集中式训练转向大规模推理,带来前所未有的增量需 求。2025年被认为是算力爆发的元年,推理算力的需求将迎来井喷式 增长。推理算力的需求将在未来几年内远超训练算力。 01 2025年H1中国推理算力服务市场中,天翼云以【21 2025年H1中国推理算力服务市场中,天翼云以【21.4%】的市场份 额领先 中国日均Tokens消耗量从2024年初的1000亿增长到截至今年6月底,日 均Token消耗量突破30万亿,1年半时间增长了300多倍,这反映了中国 人工智能应用规模快速增长。天翼云息壤一体化智算服务平台率先完 成国产算力与DeepSeek-R1/V3系列大模型的深度适配优化,成为国内 首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云平台。 02 未来推理算力长序列与超大模型推理优化成为关键,国产软硬件 协同与生态成熟推动推理普及 03 中国算力正朝着“训推一体”融合架构快速发展,以支撑大规模 模型与多模态应用的高效低延迟推理。国产AI芯片与推理框架不 断优化,结合模型压缩、量化、动态推理等技术,进一步提升能 效比和部署灵活性。 3 沙利文市场研读 | 2025/08 2 研究框架 中国推理算力市场综述 • 关键发现10 积分 | 12 页 | 1.12 MB | 3 月前3
英特尔公有云和互联网创新实践37 CONTENT 目录 Large Language Model (LLM) 大语言模型 3 4 阿里云引入第五代至强® 可扩展处理器,实现 ECS g8i 算力再升级,为大模型 AI 推理加速添 新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。 • 使用处理器内置的 AI 加速引擎 -- 英特尔® AMX 和英特尔® AVX-512,提升并行计算和浮点运算能力; 参数级别的大语言模型分布式推理 文生图 创意辅助工具 AI 生成代码 虚拟助手 1.2.3 数据来源于阿里云未公开的内部测试,如欲了解更多详情,请联系阿里云:https://www.aliyun.com 英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。 算力需求激增:视频、数据库 等场景算力需求激增 智能化应用普及:大模型推理 需求爆炸式增长 数据安全挑战:数据隐私及安 数据安全挑战:数据隐私及安 全需求增强 85% 整机性能提升高达 1 7 倍 AI 推理性能提升高达 2 50% 中小参数模型起建成本降低 3 4 白皮书 | 用友采用第五代英特尔® 至强® 可扩展处理器加速自然语言处理 (NLP) 应用 助力企业服务数智化转型 图 3. 第五代英特尔® 至强® 可扩展处理器具备强大性能 为 AI 加速而生的处理器 以针对工作负载优化的性能实现业务增长和飞跃10 积分 | 38 页 | 12.52 MB | 9 月前3
北京大学-DeepSeek原理和落地应用2025…… l 行业模型(垂直模型、垂类模型) Ø 教育、医疗、金融等 大模型的前世今生 •人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能) •运算推理:规则核心;自动化 •知识工程:知识核心;知识库+推理机 •机器学习:学习核心;数据智能(统计学习方法,数据建模) •常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,….. •人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样 ref:中文大模型基准测评2024年度报告(2025.01.08) 推理模型 生成模型与推理大模型的对比 比较项 OpenAI GPT-4o(生成模型) OpenAI o1(推理模型) 模型定位 专注于通用自然语言处理和多模态能力,适合日常对 话、内容生成、翻译以及图文、音频、视频等信息处 理、生成、对话等。 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任 务,适合高难度问题求解和专业领域应用。一般是在生成模型的 务,适合高难度问题求解和专业领域应用。一般是在生成模型的 基础上通过RL方法强化CoT能力而来 推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如 数学题求解)上准确率较低。 在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。 多模态支持 支持文本、图像、音频乃至视频输入,可处理多种模 态信息。 当前主要支持文本输入,不具备图像处理等多模态能力。 应用场景 适合广泛通用任务,如对话、内容生成、多模态信息 处理以10 积分 | 57 页 | 9.65 MB | 9 月前3
中国移动:云智算技术白皮书(2025)4 异构混训 .............................. 15 2.5.3 推理框架 .....................................16 2.5.3.1 推理并行效能优化 ...................... 16 4 2.5.3.2 推理网关优化 .......................... 16 2.5.3.3 融合算子监控 超现有资源池化的调度能力;在网络层面,AI 训练中 TB 级参数同步对时延极为 敏感,传统网络架构难以满足低时延、高吞吐的传输要求;在服务形态上,单一 的 IaaS/PaaS 服务无法全面覆盖数据处理、模型训练、推理部署等 AI 开发全链 路的需求,迫切需要构建适应智能时代的云计算新范式。 1.2 云智算的内涵 云智算是通过算网基础设施与人工智能核心技术深度融合,提供一体化算网 资源、全栈式开发环境、一 IaaS、PaaS、SaaS 三层拓展为 AI IaaS、AI PaaS、MaaS、AI SaaS 四层。一是 AI IaaS,即算网一 体化供给的基础设施服务,通过泛在网络推动东中西、云边端、通智超量、训练 推理等多类型算力“联算成网”,依托算网统一编排的算网大脑,实现算力的灵 活调度、即取即用。二是 AI PaaS,即面向各类 AI 开发者的工具平台服务,提 供覆盖 AI 研发、运营、测试等全环节的工具链和开发环境,显著提升全社会0 积分 | 30 页 | 716.31 KB | 8 月前3
2024年中国人工智能产业研究报告业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期:2024年中国AI产业规模为2697亿元,增速26 主要原因为大模型在实际业务场景的表现未完全满足客户需求,且建设成本较高,较多项目仍 处于探索阶段。 2)算力需求结构性转变:2024年部分地区智算中心出现闲置,但这主要是供需错配导致。随 着DeepSeek等开源模型推动推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望 逐步提高。 3) 工具生态日益完善:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬 件优势,加速了大模型的训练与部署,有效支撑了产业侧大模型的应用建设。 2)可行逻辑-原本小模型在某些场景能 力无法达到,大模型具备可行性 3)创新逻辑-大模型发 掘了客户需求,在需求侧未提出要求情况下创造新场景 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 算法和硬件协同优化可能成为重要突破口。0 积分 | 51 页 | 3.35 MB | 9 月前3
2024年中国人工智能产业研究报告业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期:2024年中国AI产业规模为2697亿元,增速26 主要原因为大模型在实际业务场景的表现未完全满足客户需求,且建设成本较高,较多项目仍 处于探索阶段。 2)算力需求结构性转变:2024年部分地区智算中心出现闲置,但这主要是供需错配导致。随 着DeepSeek等开源模型推动推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望 逐步提高。 3) 工具生态日益完善:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬 件优势,加速了大模型的训练与部署,有效支撑了产业侧大模型的应用建设。 2)可行逻辑-原本小模型在某些场景能 力无法达到,大模型具备可行性 3)创新逻辑-大模型发 掘了客户需求,在需求侧未提出要求情况下创造新场景 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 算法和硬件协同优化可能成为重要突破口。10 积分 | 51 页 | 3.35 MB | 9 月前3
DeepSeek银行部署加速,AI金融应用迎来跃迁(25页 PPT)等。 n 风险提示 : AI 技术落地不及预期、竞争加剧、信息更新不及时等。 2 n DeepSeek 开源使金融机构能够轻松获得前沿模型能力,且大幅降低部署成本。其通过对训练方式、算法架构和推理方 法的工程化优化大幅降低了部署成本。近期采用大规模 RL 训练方法的阿里 QwQ-32B 等模型也在缩小规模的同时达到 了 DeepSeek R1 671B 的应用效果,有望进一步催生银行落地应用。 阶段大规模应用了强化学习方法。 R1 使用了冷启动 + 大规模强化学习方法, R1-Zero 版 本模 型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和 long-CoT 能力涌现等) 。 性能:后训练阶段大规模应用强化学习,表现推理能力扩展 资料来源: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Attention , MLA )进行优化;在后训练阶段采用冷启动 + 大规模强化学习 方 式,不再使用传统 SFT 做大规模监督微调, 甚至绕过了一些 CUDA ,采用 PTX 汇编来提升能力;在推理场景下通过 大规模跨节点专家并行( Expert Parallelism , EP )来优化通信开销,尽可能实现负载均衡。 图表: DeepSeek R1 架构图10 积分 | 25 页 | 1.44 MB | 1 月前3
从英伟达GTC看AI工厂的投资机会-华泰证券公司推出针对大模型优化过的新训练芯片 H100 NVL,和过去的 A100 相比, 训练速度提高 10 倍,成本降低一个数量级。目前,AI 推理上,一般采用 2018 年发布的 T4 芯片,这次公司发布出面向视频生成和图像生成的新推理芯片 L4 和 L40,其中 L40 推理性能是 T4 的 10 倍。受美国出口管制限制,中国 目前只能采购实测性能比 A100 低 1/3 的 A800,因此训练同一个体量的模 型,Picasso 是一项视觉语言模型制作服务,BioNeMo 提供用于药物研发的生成式 AI 模型。 我们认为,ChatGPT 等应用引发对 AI 算力的需求,加速计算和生成式 AI 推理将带动训练 /推理芯片需求的爆发。 图表5: 英伟达 NVIDIA DGX Cloud 图表6: 英伟达 NVIDIA AI Foundations 资料来源:英伟达 GTC2023,华泰研究 DGX H100 服务器,配有 8 个 H100 GPU 模组, 配有 Transfofmer 引擎以支持处理类似 ChatGPT 的生成式训练模型,FP8 精度在大型语言模型相较上一代 A00 的训练和推理能力分别提升 9/30 倍。8 个 H100 模组通过 NVLINK Switch 相连,确保 GPU 之间的合作和通信。目前 DGX 100 已全面投产,后期有望面向全球企业。 图表9: DGX0 积分 | 16 页 | 1.37 MB | 8 月前3
智能金融:AI驱动的金融变革(45页 PPT)Grok-3 20 万张卡 思维链推理 上下文对话 语料学习 ChatGPT BART Encoder-Decoder QWQ-32B 两阶段强化学习 BERT Only Encoder GPT Only Decoder RoBERTa Only Encoder GPT Only Decoder Gemma-3 多模态推理融合 思维链推理 DeepSeek-R1 高探索自由度 = 推理能力自我觉醒 (更长的思维链、 更深层次的 推理路径) 低可控:生成文本可 读性差、语言混乱 拒绝采样: 筛选高质量样本 20 万条 通用数据 在探索自 由度、学 习效率、 行为可控 性 找到动 态平衡 第一阶段训练:增强推理能力,生成高质量推理数据 推理导向强化学习 (准确率奖励 + 可读性奖励) 第二阶段训练:增强通用能力,避免灾难性遗忘 推理导向强化学习 (准确率奖励 + 格式奖励) DeepSeek-R1 (强推理模型) 671B DeepSeek-R1-Zero (强推理模型) DeepSeek-V3 (基础模型) 面向全场景的强化学习 (规则奖励 + 奖励模型) 纯强化学习训练 多阶段增强训练 R1-Zero 生成的 长思维链数据 综合性能 更强20 积分 | 45 页 | 4.10 MB | 3 月前3
共 182 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19
