推理 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

北大：DeepSeek-R1及类强推理模型开发解读

DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读陈博远北京大学 2022 级“通班” 主要研究方向：大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析及其技术细节 DeepSeek-R1 背后的 Insights & Takeaways ： RL 加持下的长度泛化 \ 推理范式的涌现 DeepSeek-R1 社会及经济效益技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动：国内外现有各家技术路线对比分析及 PRM & MCTS 的作用从文本模态到多模态其他讨论： Over-Thinking 过度思考等未来方向分析探讨模态穿透赋能推理边界拓展： Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱强推理下的安全：形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment Outline

10 积分 | 76 页 | 6.72 MB | 9 月前
3
中国推理算力市场追踪报告，2025H1-沙利文

1 中国推理算力市场追踪报告，2025年H1 头豹研究院弗若斯特沙利文咨询（中国） 2025年8月 2 关键发现  算力需求重心从训练转向推理，算力基础设施持续扩展与升级 AI算力消耗已从集中式训练转向大规模推理，带来前所未有的增量需求。2025年被认为是算力爆发的元年，推理算力的需求将迎来井喷式增长。推理算力的需求将在未来几年内远超训练算力。 01  2025年H1中国推理算力服务市场中，天翼云以【21 2025年H1中国推理算力服务市场中，天翼云以【21.4%】的市场份额领先中国日均Tokens消耗量从2024年初的1000亿增长到截至今年6月底，日均Token消耗量突破30万亿，1年半时间增长了300多倍，这反映了中国人工智能应用规模快速增长。天翼云息壤一体化智算服务平台率先完成国产算力与DeepSeek-R1/V3系列大模型的深度适配优化，成为国内首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云平台。 02  未来推理算力长序列与超大模型推理优化成为关键，国产软硬件协同与生态成熟推动推理普及 03 中国算力正朝着“训推一体”融合架构快速发展，以支撑大规模模型与多模态应用的高效低延迟推理。国产AI芯片与推理框架不断优化，结合模型压缩、量化、动态推理等技术，进一步提升能效比和部署灵活性。 3 沙利文市场研读 | 2025/08 2 研究框架  中国推理算力市场综述 • 关键发现

10 积分 | 12 页 | 1.12 MB | 3 月前
3
英特尔公有云和互联网创新实践

37 CONTENT 目录 Large Language Model (LLM) 大语言模型 3 4 阿里云引入第五代至强® 可扩展处理器，实现 ECS g8i 算力再升级，为大模型 AI 推理加速添新解，更易得、更易用、可扩展性强，满足从小模型到超大模型的各类需求。 • 使用处理器内置的 AI 加速引擎 -- 英特尔® AMX 和英特尔® AVX-512，提升并行计算和浮点运算能力；参数级别的大语言模型分布式推理文生图创意辅助工具 AI 生成代码虚拟助手 1.2.3 数据来源于阿里云未公开的内部测试，如欲了解更多详情，请联系阿里云：https://www.aliyun.com 英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。算力需求激增：视频、数据库等场景算力需求激增智能化应用普及：大模型推理需求爆炸式增长数据安全挑战：数据隐私及安数据安全挑战：数据隐私及安全需求增强 85% 整机性能提升高达 1 7 倍 AI 推理性能提升高达 2 50% 中小参数模型起建成本降低 3 4 白皮书 | 用友采用第五代英特尔® 至强® 可扩展处理器加速自然语言处理 (NLP) 应用助力企业服务数智化转型图 3. 第五代英特尔® 至强® 可扩展处理器具备强大性能为 AI 加速而生的处理器以针对工作负载优化的性能实现业务增长和飞跃

10 积分 | 38 页 | 12.52 MB | 9 月前
3
北京大学-DeepSeek原理和落地应用2025

…… l 行业模型（垂直模型、垂类模型） Ø 教育、医疗、金融等大模型的前世今生 •人工智能：让机器具备动物智能，人类智能，非人类智能（超人类智能） •运算推理：规则核心；自动化 •知识工程：知识核心；知识库+推理机 •机器学习：学习核心；数据智能（统计学习方法，数据建模） •常规机器学习方法：逻辑回归，决策森林，支持向量机，马尔科夫链，….. •人工神经网络：与人脑最大的共同点是名字，机制和架构并不一样 ref:中文大模型基准测评2024年度报告(2025.01.08) 推理模型生成模型与推理大模型的对比比较项 OpenAI GPT-4o（生成模型） OpenAI o1（推理模型）模型定位专注于通用自然语言处理和多模态能力，适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。侧重于复杂推理与逻辑能力，擅长数学、编程和自然语言推理任务，适合高难度问题求解和专业领域应用。一般是在生成模型的务，适合高难度问题求解和专业领域应用。一般是在生成模型的基础上通过RL方法强化CoT能力而来推理能力在日常语言任务中表现均衡，但在复杂逻辑推理（如数学题求解）上准确率较低。在复杂推理任务表现卓越，尤其擅长数学、代码推理任务。多模态支持支持文本、图像、音频乃至视频输入，可处理多种模态信息。当前主要支持文本输入，不具备图像处理等多模态能力。应用场景适合广泛通用任务，如对话、内容生成、多模态信息处理以

10 积分 | 57 页 | 9.65 MB | 9 月前
3
中国移动：云智算技术白皮书（2025）

4 异构混训 .............................. 15 2.5.3 推理框架 .....................................16 2.5.3.1 推理并行效能优化 ...................... 16 4 2.5.3.2 推理网关优化 .......................... 16 2.5.3.3 融合算子监控超现有资源池化的调度能力；在网络层面，AI 训练中 TB 级参数同步对时延极为敏感，传统网络架构难以满足低时延、高吞吐的传输要求；在服务形态上，单一的 IaaS/PaaS 服务无法全面覆盖数据处理、模型训练、推理部署等 AI 开发全链路的需求，迫切需要构建适应智能时代的云计算新范式。 1.2 云智算的内涵云智算是通过算网基础设施与人工智能核心技术深度融合，提供一体化算网资源、全栈式开发环境、一 IaaS、PaaS、SaaS 三层拓展为 AI IaaS、AI PaaS、MaaS、AI SaaS 四层。一是 AI IaaS，即算网一体化供给的基础设施服务，通过泛在网络推动东中西、云边端、通智超量、训练推理等多类型算力“联算成网”，依托算网统一编排的算网大脑，实现算力的灵活调度、即取即用。二是 AI PaaS，即面向各类 AI 开发者的工具平台服务，提供覆盖 AI 研发、运营、测试等全环节的工具链和开发环境，显著提升全社会

0 积分 | 30 页 | 716.31 KB | 8 月前
3
2024年中国人工智能产业研究报告

业替代、隐私安全等问题仍引发一定焦虑。技术方面， Transformer架构依然主导大模型发展，研发侧通过强化学习、思维链优化提升模型推理能力，同时加速跨模态融合，并在推理效率优化和新型注意力机制等方面持续探索，推动AI产业向更高水平迈进。宏观环境产业动态发展趋势 1）市场规模增速略低于预期：2024年中国AI产业规模为2697亿元，增速26 主要原因为大模型在实际业务场景的表现未完全满足客户需求，且建设成本较高，较多项目仍处于探索阶段。 2）算力需求结构性转变：2024年部分地区智算中心出现闲置，但这主要是供需错配导致。随着DeepSeek等开源模型推动推理应用爆发，推理侧算力需求大幅上涨，智算中心利用率有望逐步提高。 3) 工具生态日益完善：分布式AI框架、LLMOps平台和一体机产品等不断发展，深度融合软硬件优势，加速了大模型的训练与部署，有效支撑了产业侧大模型的应用建设。 2）可行逻辑-原本小模型在某些场景能力无法达到，大模型具备可行性 3）创新逻辑-大模型发掘了客户需求，在需求侧未提出要求情况下创造新场景需求各家积极发展结合强化学习、思维链的“后训练“，推出深度推理模型。在效率优化方面，稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。正朝着处理更长序列、更大规模数据和实时应用场景的方向发展，新型高效注意力算法和硬件协同优化可能成为重要突破口。

0 积分 | 51 页 | 3.35 MB | 9 月前
3
2024年中国人工智能产业研究报告

业替代、隐私安全等问题仍引发一定焦虑。技术方面， Transformer架构依然主导大模型发展，研发侧通过强化学习、思维链优化提升模型推理能力，同时加速跨模态融合，并在推理效率优化和新型注意力机制等方面持续探索，推动AI产业向更高水平迈进。宏观环境产业动态发展趋势 1）市场规模增速略低于预期：2024年中国AI产业规模为2697亿元，增速26 主要原因为大模型在实际业务场景的表现未完全满足客户需求，且建设成本较高，较多项目仍处于探索阶段。 2）算力需求结构性转变：2024年部分地区智算中心出现闲置，但这主要是供需错配导致。随着DeepSeek等开源模型推动推理应用爆发，推理侧算力需求大幅上涨，智算中心利用率有望逐步提高。 3) 工具生态日益完善：分布式AI框架、LLMOps平台和一体机产品等不断发展，深度融合软硬件优势，加速了大模型的训练与部署，有效支撑了产业侧大模型的应用建设。 2）可行逻辑-原本小模型在某些场景能力无法达到，大模型具备可行性 3）创新逻辑-大模型发掘了客户需求，在需求侧未提出要求情况下创造新场景需求各家积极发展结合强化学习、思维链的“后训练“，推出深度推理模型。在效率优化方面，稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。正朝着处理更长序列、更大规模数据和实时应用场景的方向发展，新型高效注意力算法和硬件协同优化可能成为重要突破口。

10 积分 | 51 页 | 3.35 MB | 9 月前
3
DeepSeek银行部署加速，AI金融应用迎来跃迁（25页 PPT）

等。 n 风险提示： AI 技术落地不及预期、竞争加剧、信息更新不及时等。 2 n DeepSeek 开源使金融机构能够轻松获得前沿模型能力，且大幅降低部署成本。其通过对训练方式、算法架构和推理方法的工程化优化大幅降低了部署成本。近期采用大规模 RL 训练方法的阿里 QwQ-32B 等模型也在缩小规模的同时达到了 DeepSeek R1 671B 的应用效果，有望进一步催生银行落地应用。阶段大规模应用了强化学习方法。 R1 使用了冷启动 + 大规模强化学习方法， R1-Zero 版本模型使用纯强化学习方法。随训练过程推进，模型展现出了推理能力的扩展（高准确率和 long-CoT 能力涌现等）。性能：后训练阶段大规模应用强化学习，表现推理能力扩展资料来源： DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Attention ， MLA ）进行优化；在后训练阶段采用冷启动 + 大规模强化学习方式，不再使用传统 SFT 做大规模监督微调，甚至绕过了一些 CUDA ，采用 PTX 汇编来提升能力；在推理场景下通过大规模跨节点专家并行（ Expert Parallelism ， EP ）来优化通信开销，尽可能实现负载均衡。图表： DeepSeek R1 架构图

10 积分 | 25 页 | 1.44 MB | 1 月前
3
从英伟达GTC看AI工厂的投资机会-华泰证券

公司推出针对大模型优化过的新训练芯片 H100 NVL，和过去的 A100 相比，训练速度提高 10 倍，成本降低一个数量级。目前，AI 推理上，一般采用 2018 年发布的 T4 芯片，这次公司发布出面向视频生成和图像生成的新推理芯片 L4 和 L40，其中 L40 推理性能是 T4 的 10 倍。受美国出口管制限制，中国目前只能采购实测性能比 A100 低 1/3 的 A800，因此训练同一个体量的模型，Picasso 是一项视觉语言模型制作服务，BioNeMo 提供用于药物研发的生成式 AI 模型。我们认为，ChatGPT 等应用引发对 AI 算力的需求，加速计算和生成式 AI 推理将带动训练 /推理芯片需求的爆发。图表5：英伟达 NVIDIA DGX Cloud 图表6：英伟达 NVIDIA AI Foundations 资料来源：英伟达 GTC2023，华泰研究 DGX H100 服务器，配有 8 个 H100 GPU 模组，配有 Transfofmer 引擎以支持处理类似 ChatGPT 的生成式训练模型，FP8 精度在大型语言模型相较上一代 A00 的训练和推理能力分别提升 9/30 倍。8 个 H100 模组通过 NVLINK Switch 相连，确保 GPU 之间的合作和通信。目前 DGX 100 已全面投产，后期有望面向全球企业。图表9： DGX

0 积分 | 16 页 | 1.37 MB | 8 月前
3
智能金融：AI驱动的金融变革（45页 PPT）

Grok-3 20 万张卡思维链推理上下文对话语料学习 ChatGPT BART Encoder-Decoder QWQ-32B 两阶段强化学习 BERT Only Encoder GPT Only Decoder RoBERTa Only Encoder GPT Only Decoder Gemma-3 多模态推理融合思维链推理 DeepSeek-R1 高探索自由度 = 推理能力自我觉醒（更长的思维链、更深层次的推理路径）低可控：生成文本可读性差、语言混乱拒绝采样：筛选高质量样本 20 万条通用数据在探索自由度、学习效率、行为可控性找到动态平衡第一阶段训练：增强推理能力，生成高质量推理数据推理导向强化学习（准确率奖励 + 可读性奖励）第二阶段训练：增强通用能力，避免灾难性遗忘推理导向强化学习（准确率奖励 + 格式奖励） DeepSeek-R1 （强推理模型） 671B DeepSeek-R1-Zero （强推理模型） DeepSeek-V3 （基础模型）面向全场景的强化学习（规则奖励 + 奖励模型）纯强化学习训练多阶段增强训练 R1-Zero 生成的长思维链数据综合性能更强

20 积分 | 45 页 | 4.10 MB | 3 月前
3

共 182 条前往

页

分类

语言

格式