2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking 过度思考等 ➢ 未来方向分析探讨 ➢ 模态穿透赋能推理边界拓展:Align-DS-V ➢ 合成数据及Test-Time Scaling: 突破数据再生产陷阱 ➢ 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment ➢ 补充拓展:DeepSeek-V3 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 具备强大推理 事实性推断任务 Simple-QA上表现突出 5 回顾:Pre-Training Scaling Law ➢ Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量C、模 型参数量N和数据大小D之间的关系 6 回顾:Post-Training Scaling Law ➢ Post-Training 阶段,随着训练时计算量(来自RL的Training阶段)和10 积分 | 76 页 | 8.39 MB | 7 月前3
金融-DeepSeek银行部署加速,AI金融应用迎来跃迁性能:蒸馏小型模型展现 Test-time Scaling ,可支持多项基础业务场 景 资料来源: s1: Simple test-time scaling ,中泰证券研究所 9 模型展现出随推理时间增加准确度增加的 Test time Scaling S1 仅使用 1000 个微调示例就达到了类似 r1 的准 确度 资料来源: s1: Simple test-time scaling ,中泰证券研究 所 图表:各模型微调示例数与准确度对比 图表:各模型微调示例数与准确度对比 图表: s1 表现出的 Test time Scaling n DeepSeek 可以通过 API 接口或者数据中台架构,实现与传统银行技术系统的数据交互,从而实现各类业务高效高质的无 缝对接,有望释放海量私域数据价值。 Post-Train 阶段大规模强化学习的训练方法使模型拥有了更强的自主推理能力, 不 再依赖传统提示工程。根据 DeepSeek 的官方使用指南, 多模态理解和视觉生成表现 资料来源: Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling ,中泰证券研究所 11 多模态: Janus-Pro 等开源多模态模型有望进一步提升应用能 力 理解金融应用的“降本增效 - 价值创 造 - 决策赋能”三个层次 2 n 我们认为金融行10 积分 | 25 页 | 1.44 MB | 1 月前3
华为昇腾DeepSeek解决方案Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 AI 技术 DeepSeek 是 AI 发展史上的一个关键里程碑,但远未达到 AI 终点 AI 模型算法: GPT 、 互联技术:灵衢 AI 芯片:昇腾、寒武纪 … DeepSeek-R1 进一步验证“算力即性能” Scaling Law 升级,模型能力 = 算力 x 数据 x 思考 + 逻辑推理 DeepSeek-V3/R1 OpenAI-o1/o3 算力 x 数据 重新定义 Scaling Law 延续智能涌现的 方向 2017 谷歌发布首个 Transformer 架 构 模 Distribution DeepSeek 9 大模型从技术摸高走向技术摸高 + 工程创新并行 ,训练需求持续增 长 ① 技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐 Scaling Law ,加速探索 AGI ② 工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升, 出现平权现象,引发新一波的“百模千态” 2012 2013 2014 20150 积分 | 32 页 | 2.52 MB | 7 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025■ 2, 计算次数 C≈ 6* N * D ■ 万亿模型计算次数 C≈ 6* N * D 1 ≈ .5*1025 OpenAI."Scaling Laws for Neural Language Models",2020 ■ 万亿大模型预训练系统成本估计 ■ 条件:计算量 C≈ 6 * N * D ≈1.5*1 025 ■ 最低时间、成本估计 算 力 L=(Cmin/2.3·108) )-0.050 10-3 10-1 Compute PF-days,non-embedding 大模型指导法则 Scaling Law: 富则火力覆盖 数据集 模型参数量 7 6 5 4 3 ---- 2+ 10-9 Dataset Size tokens Parameters non-embedding10 积分 | 23 页 | 7.53 MB | 7 月前3
电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样 与监督式微调、全场景强化学习等。 l AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业链。 Scaling Law 与“涌现”能力是大模型训练遵循的重要法则,随着 ChatGPT 引领全球 AI 浪潮, 国内外科技公司纷纷发布 AI 大模型,截至 24 年 7 月,全球 AI 大模型数量约 1328 2 元 8K - AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业 链 请务必阅读正文之后的免责声明及其项下所有内容 l Scaling Law :模型效果随模型规模指数增加而线性提高。据 OpenAI 发布的论文《 Scaling laws for neural language models 》,模型性能极大依赖训练规模,模型参数、数据集大小以及用于训练的计算量增 加 Arxiv ( 2020 ) -P3 ,国信证券经济研究所整理 参数量 (十亿) GPT-4 PanGu-Sigma Ernie 4.0 BingChat* PaLM2 Titan Scaling Law 与“涌现”能力:大模型训练遵循的重要法则 请务必阅读正文之后的免责声明及其项下所有内容 2022/8/27 2022/12/5 2023/3/1510 积分 | 38 页 | 1.95 MB | 7 月前3
基于大模型的具身智能系统综述ALOHA2[58] TidyBot[49], VIMA[50], Instruct2Act[51], VoxPoser[52], VilA[30] RoboGen[42], Mimicgen[43], Scaling up and distilling down[44], DrEureka[45], Omnigrasp[46], Meta-World[47], BEHAVIOR-1K[48] ALOHA[37] 含适当空间配置的物体及资产的模拟环境; 然后, 将高级任务分解成子任务, 选择最优学习方式 (强 化学习、运动规划或轨迹优化), 生成训练监督; 最 终, 学习获取新技能的策略. 类似地, Scaling up and distilling down[44] 提出 了一个在模拟器中进行学习的框架, 使用大语言模 型指导高层规划, 并利用基于采样的机器人规划器 (如运动或抓取采样器) 生成多样化和丰富的操作轨 the 7th Conference on Robot Learning. Atlanta, USA: PMLR, 2023. 43 Ha H, Florence P, Song S. Scaling up and distilling down: Lan- guage-guided robot skill acquisition. In: Proceedings of the 7th Conference20 积分 | 19 页 | 10.74 MB | 1 月前3
运营商智算中心建设思路及方案明确界定标准来判定模型为小模型还是大模型。根 据模型表现和模型算力需求,业界一般认为一个经过 充分训练的百亿参数的模型可认定为大模型 [1]。大模 型遵循的三大统计特征如下。 a)Scaling Law。模型表现依赖于模型规模、计算 量和数据量,这些因素之间呈现幂律关系 [2]。 b)Chinchilla Law。模型大小和数据量要同等比 例扩展,即数据量需达到参数量的 20 倍,模型训练结 大模型语言模型:原理、实现与发展 [J]. 计算机研究与发展,2024,61(2):351-361. [2] KAPLAN J,MCCANDLISH S,HENIGHAN T,et al. Scaling laws for neural language models[EB/OL].[2024-01-20]. https://arxiv. org/ abs/2001.08361. [3] HOFFMANN10 积分 | 6 页 | 3.64 MB | 1 月前3
2025年超节点发展报告-华为&中国信通院中国信息通信研究院副院长 魏亮 序言 3 超节点发展报告 05 人工智能高速演进背景下,算力需求呈指数级增长,大模型竞争已进入 “参数规模摸高” 与 “训 练效率提升” 并行的新阶段。Scaling Law(规模定律)将以多元形态长期生效,持续推动人工智 能技术突破能力边界,而超大规模 Transformer、MoE(混合专家模型)、稀疏注意力模型等,已 成为可扩展模型的核心架构方向。 J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv. https://arxiv.org/ abs/2001.08361 3. 我国已有 433 款大模型完成备案并上线提供服务——AI 27 术语表 AI 处理器(AI Processor): 本文中提及的 AI 处理器泛指用于人工智能计算的加速器,如神经网络处理器(NPU)和图形处理器 (GPU)等。 规模定律 (Scaling Law): 揭示了 AI 模型性能与参数量、数据量、计算投入之间存在幂律关系的法则。该法则驱动了模型参数 的指数级增长,是推动基础设施走向超节点架构的核心理论之一。 超节点通信域 (Supernode20 积分 | 31 页 | 4.79 MB | 1 月前3
2025年面向具身智能的大小模型协同算法研究和实践报告具身大模型离实用还有差距 2023及之前 2025 及之后 2024 大模型 大数据 基本能力 单任务 单本体 单场景 多任务 单本体 单场景 通用智能系统 多本体 多场景 Scaling Law 在大语言模型和多模态大模型 上都得到了验证 感知和理解 决策和规划 执行和协作 评估和反馈 端到端 多模态大模型机器人 Hand-Eye Coordination Robotic20 积分 | 37 页 | 4.24 MB | 1 月前3
电子行业AI+系列专题:边缘AI,大语言模型的终端部署,推动新一轮终端需求-20230531-国信证券-25页模型的效果会随着三者的指数增加而线性提高,这种现象被称为 Scaling Law(缩 放能力)。 请务必阅读正文之后的免责声明及其项下所有内容 证券研究报告 6 图2:过去五年 LLM 模型参数快速增长 图3:参数量的指数提升线性提高模型性能 资料来源:Sunyan’s Substack,国信证券经济研究所整理 资料来源:《Scaling laws for neural language models》,国信证10 积分 | 25 页 | 2.20 MB | 7 月前3
共 24 条
- 1
- 2
- 3
