北大:DeepSeek-R1及类强推理模型开发解读2 OpenAIo1 开启后训练 Post-Training 时代下的 RL 新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念,并且效果还好到受到了 OpenAI 的认可 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量 C 、 模 型参数量 N 和数据大小 D 之间的关系 回顾: Pre-Training Scaling Law 5 Post-Training 阶段,随着训练时计算量(来自 RL 的 Training10 积分 | 76 页 | 6.72 MB | 5 月前3
2024年中国人工智能产业研究报告着DeepSeek等开源模型推动推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望 逐步提高。 3) 工具生态日益完善:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬 件优势,加速了大模型的训练与部署,有效支撑了产业侧大模型的应用建设。 4)商业化以项目制与订阅制为主流:政企侧客户以项目制为主,C端产品多采用“免费+订阅 制”的模式。新兴商业模式为按应用效果或功能点收费,创新的模式可在降低客户采购决策成 络结构,目前 CNN 、RNN 不断演进成熟, 以“小模型”架构被广泛应用。 • 2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构Transformer架 构,奠定大模型预训练算法架构的基础; • 2018年,OpenAI发布了GPT-1大模型;Google发布BERT大模型; • 之后GPT模型持续演进,2022年11月,GPT3.5的ChatGPT面世,引爆互联网,大 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 算法和硬件协同优化可能成为重要突破口。 扩散模型在视觉效果和多样性上表现优异,但计算成本较 高;GAN可能存在训练不稳定和模式崩溃的问题,但在一 些任务中能实现较快的生成速度。已有研究在尝试融合两0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告着DeepSeek等开源模型推动推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望 逐步提高。 3) 工具生态日益完善:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬 件优势,加速了大模型的训练与部署,有效支撑了产业侧大模型的应用建设。 4)商业化以项目制与订阅制为主流:政企侧客户以项目制为主,C端产品多采用“免费+订阅 制”的模式。新兴商业模式为按应用效果或功能点收费,创新的模式可在降低客户采购决策成 络结构,目前 CNN 、RNN 不断演进成熟, 以“小模型”架构被广泛应用。 • 2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构Transformer架 构,奠定大模型预训练算法架构的基础; • 2018年,OpenAI发布了GPT-1大模型;Google发布BERT大模型; • 之后GPT模型持续演进,2022年11月,GPT3.5的ChatGPT面世,引爆互联网,大 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 算法和硬件协同优化可能成为重要突破口。 扩散模型在视觉效果和多样性上表现优异,但计算成本较 高;GAN可能存在训练不稳定和模式崩溃的问题,但在一 些任务中能实现较快的生成速度。已有研究在尝试融合两10 积分 | 51 页 | 3.35 MB | 6 月前3
2025具身机器人行业未来展望报告电源管理、通信网关控制、执 行器控制器状态管理等 机器人各传感器,执行器,线束,网 关 人脑结构与机器人大脑对应关系 01 8 资料来源:浙商证券产业研究院 人脑的小脑在机器人中对应的主要是动作学习模仿训练以及复杂动作的控制。而在机器人行业中,目前通常被称为机器人“大脑”,这主要 是因为相对于工业机器人,具有“大脑”的人形机器人对复杂运动的学习掌握能力明显增强,比如近期宇树、众擎、波士顿动力等公司在视 资料来源:量子位智库、浙商证券产业研究院 具身智能的算法方案分为分层决策模型和端到端模型两种路线。 分层决策模型 端到端模型 以「Figure 01」为代表,将任务分解成不同层级,以多个神经网 络训练,再以流程管线的方式组合。Figure 01顶层接入OpenAI的 多模态大模型,提供视觉推理和语言理解;中间层神经网络策略 作为小脑进行运动控制并生成动作指令;底层机器人本体接受神 经网络策 入到行为指令输出的全过程。首先在大规模互联网数据预训练视 觉语言模型,然后在机器人任务上微调,结合机器人动作数据, 推出视觉语言动作模型。RT-2不仅负责最上层的感知与规划,还 参与中下层的控制与执行,打通了端到端的链路。端到端模型的 缺点是:训练数据海量、消耗资源巨大、机器人执行实时性差。 训练方案技术路线 03 14 资料来源:量子位智库、浙商证券产业研究院 具身智能的训练方法可分为模仿学习和强化学习两种路线。0 积分 | 31 页 | 3.33 MB | 5 月前3
中国算力中心行业白皮书塑着各行各业的发展蓝图。在此背景下,算力资源已成为支撑AI技术持续进步不可或缺的基石,而算力中心,作为算力资源的核心承载平台,正迎来 崭新的发展机遇。其中,定制批发业务凭借其高效整合算力资源的能力,为大模型训练提供了稳定、可靠的算力支持,成为推动AI技术革新与应用拓 展的关键力量。 • 鉴于此,本报告将聚焦于算力中心行业定制批发业务的研究,特别是在中国不同地域市场供需关系的深度剖析上,力求提供更为详尽的数据支持与深 限制,这些地区的算力中心服务资源或将率先面临供不应求的局面。算 力中心定制批发业务在不同地理区域的供需格局存在一定差异,为行业参与者带来了多元化的市场机遇与挑战。 ➢ 以环京地区为典型,得益于AI训练需求的持续增长,行业下游需求迅速扩张。在各地区中,环京地区有望率先步入供不应求阶段。预计到2025年, 环京地区将率先迎来区域性价格拐点,为算力中心行业的高质量发展注入新动力。 资料来源:灼识咨询 主要由算力设备、 存储设备、网络设备及管理运维系统四大核心要素构成。 • 算力资源的部署与利用离不开算力中心的支撑。核心使命是提供强 大的算力支持,以应对各类复杂的计算挑战,如数据处理、AI模型 训练等。 • 算力中心通过高速网络连接形成计算集群,提供高性能、高可靠性 和高可扩展性的计算能力,支持数据分析、模拟计算和人工智能等 复杂任务。 类型 设备种类 设备名称 IT设备 连接器 光纤10 积分 | 54 页 | 6.96 MB | 5 月前3
2025年DeepSeek手册:DeepSeek给我们带来的创业机会政企、创业者必读 8 AI不仅是技术革新,更是思维方式和社会结构的变革 国家 产业 个人 企业 政企、创业者必读 人工智能发展历程(一) 从早期基于规则的专家系统,走向基于学习训练的感知型AI 从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 从擅长理解的认知型AI,发展到擅长文字生成的生成式AI 从语言生成式AI,发展到可理解和生成声音、图片、视频的多模态AI 需要寻找新方向 Scaling Law边际效应递减 人类训练数据接近枯竭 合成数据无法创造新知识 推理能力难以泛化,成本高昂 全面超越人类的人工智能在逻辑上不成立 政企、创业者必读 15 DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 大模型厂商都在探索慢思考、思维链技术 政企、创业者必读 技术开放,吸引广大开发人员和用户使用 很多公司参与开源,帮助改进产品,众人拾柴火焰高, 反哺开源产品,形成正循环 政企、创业者必读 DeepSeek出现之前的十大预判 之十 中美差距快速缩小 美国预训练堆算力的路线不可持续,有待发现新范式“换道超车” 软件和算法差距并不大,主要差距在工程、硬件等方面 23 政企、创业者必读 DeepSeek的出现验证了我们的预判 而DeepSeek的创新更具颠覆性10 积分 | 76 页 | 5.02 MB | 5 月前3
与非网:2024年中国智算产业全景调研:技术重构与演进报告reproduce or distribute. 1. 智算产业现状总览 核心点: 驱动力 | AI训练与推理需求激增,驱动算力基础设施快速迭代 技术体系全景 | 覆盖芯片器件层(CPU/GPU/TPU)、硬件设施层(AI服务器/液冷)、平台调度 层(弹性调度/绿色节能)、应用场景层(AI训练/边缘智能) 规模与增长 | 2024年中国智能算力规模达725.3EFLOPS,同比增速74.1%,市场规模190亿美 Confidential & Proprietary. Do not reproduce or distribute. 1. 智算产业现状总览 智算中心技术体系全景图 应用场景层 | • AI训练 • 实时推理 • 边缘智能 • 科学仿真 算力资源层 | • 基础算力 • 智能算力GPU集群 • HPC • 边缘算力 平台调度层 | • 液冷机柜 芯片器件层 | • CPU/GPU/NPU/TPU • HBM • DPU • 供电/散热模组 算法理论层 | • 深度学习框架 • 分布式训练 • 模型压缩 • 联邦学习 • 能效优化 来源:与非研究院 5 Supplyframe, Inc. Confidential & Proprietary. Do not20 积分 | 41 页 | 17.39 MB | 4 月前3
解码DeepSeek构建医药行业新质生产力R1 在展现卓越推理能⼒同时, 训练和推理成本极低 GPT 为内容创造和自动推理开辟可能性 “大数据、大算力、通用模式” BERT BERT 在文本分类、命名实体识别等 语言理解任务表现出色。也是医疗 AI 小模型年代主要技术路线 “ 大数据、小算力、专用决策” DeepSeek-R1 基于 DS-v3 构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI 技术演变 Chatbot : ⽂本交互式应⽤ Gpt3 : 预训练⼤模型 6 DeepSeek 是“深度求索”开发的⼀系列⼈⼯智能模型。 DeepSeek 通过持续的技术 创新和市场拓展,在⾃然语⾔处理和⼤型语⾔模型⽅⾯取得了显著进展,在国际 市 场上获得了⼴泛认可。其中: • DeepSeek-V3 是在 14.8 万亿⾼质量 token 上完成预训练的⼀个强⼤的混合 专 家 (MoE) 语⾔模型,拥有 6710 亿参数(激活参数 370 亿)。作为通⽤⼤ 语⾔模 型,其在在知识类任务(知识问答、内容⽣成等)领域表现出⾊ • DeepSeek-R1 是基于 DeepSeek-V3-Base 训练⽣成的强化推理能⼒模型, 在 数学、代码⽣成和逻辑推断等复杂推理任务上表现优异 更低的研发成本 * 更⾼效资源利⽤ $5.5M vs. OpenAI’s $100M+0 积分 | 32 页 | 3.98 MB | 5 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告解成更⼩、更易处理的步骤;⽽DeepSeek R1在展现卓越推理能⼒同时,训练和推理成本极低 BERT BERT在文本分类、命名实体识别等 语言理解任务表现出色。也是医疗AI 小模型年代主要技术路线 “大数据、小算力、专用决策” GPT 为内容创造和自动推理开辟可能性 “大数据、大算力、通用模式” 基于DS-v3构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI技术演变路线 5 理解Chatgpt 理解Chatgpt,J⼀个AI领域的“⼯程奇迹” Chatbot: ⽂本交互式应⽤ Gpt3: 预训练⼤模型 Prompt engineering 提⽰词⼯程 RLHF 强化学习 Nvidia A100(A800) ⾼性能卡 SFT 监督微调 RDMA 解决数据处理的延迟 顶尖的AI⼈才 数⼗TB⾼质量数据 数万对⾼质量prompt 增长:破圈,两个⽉到⼀亿⽤户的速度 “创新落后”的机会成本被不断放⼤ 场上获得了⼴泛认可。其中: • DeepSeek-V3 是在14.8万亿⾼质量 token 上完成预训练的⼀个强⼤的混合专 家 (MoE) 语⾔模型,拥有6710亿参数(激活参数370亿)。作为通⽤⼤语⾔模 型,其在在知识类任务(知识问答、内容⽣成等)领域表现出⾊ • DeepSeek-R1 是基于 DeepSeek-V3-Base 训练⽣成的强化推理能⼒模型,在 数学、代码⽣成和逻辑推断等复杂推理任务上表现优异 更低的研发成本*10 积分 | 32 页 | 14.20 MB | 5 月前3
国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代, 边际效应随着智驾能力的提升呈现几何式骤减。与基于 规则的传统自动驾驶算法结构相比,端到端算法基于数 据驱动,可以实现信息的无损传递。同时,端到端架构 将感知、预测和规划结合为一个可以共同训练的单一模 型,整个系统都针对最终任务进行优化,并且共享的骨 干网络大幅提高了计算效率,使智驾方案具备更高的迭 代效率,有效降低了维护成本。 请务必阅读正文之后的免责条款部分 图2:端到端技术演进 尝试,标志着自动驾驶从模块化向一体化迈进的起点。 2017年:Wayve.AI成立并发布“Learning to Drive in a Day”。Wayve.AI采用强化学习结合深度学习的方法,仅用 一天时间训练即可应对复杂城市驾驶场景,展示了端到端技 术在快速学习和适应能力上的潜力。 2017 年 : Comma.ai 推 出 OpenPilot 。 Comma.ai 发 布 了 OpenPilot软件,最初为L2级辅助驾驶系统,后逐步转向端 MontionFormer Planner OccFormer 请务必阅读正文之后的免责条款部分 强化学习(RL) 策略蒸馏 多模态/先进结构 合成数据 模仿学习(IL) 条件模仿学习 泛化 可解释性 策略预训练 模块化端到端 图4:端到端发展历程 资料来源:Chen L, Wu P, Chitta K,et al,End-to-end Autonomous Driving: Challenges and10 积分 | 95 页 | 6.54 MB | 5 月前3
共 34 条
- 1
- 2
- 3
- 4
