北大:DeepSeek-R1及类强推理模型开发解读DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学 2022 级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 Train-Time Scaling 提升模型的推理能力? 得益于纯大规模强化学习 , DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 3 的惊人成绩,表现与 OpenAI-o1-1217 相当。 在编码相关的任务中表现出专家水平, 在 Codeforces 上获得了 2029 Elo 评级,在竞赛中表现10 积分 | 76 页 | 6.72 MB | 5 月前3
2024年中国人工智能产业研究报告济的科技竞争力。经过多年持续投资布局,我国人工智能产业体系逐步完善,基础层、模型层及应 用层不断升级优化,实现了人工智能、大数据等数据智能技术与实体经济的广泛融合。2025年2月, 中共中央总书记、国家主席、中央军委主席习近平在京出席民营企业座谈会并发表重要讲话,强调 民营企业的关键角色与发展前景,进一步强调了人工智能产业的战略地位。 2025年初,以DeepSeek为代表的国产开源大模型掀起热潮,其高性能、低成本的特点迅速吸 引了国内外开发者和企业的关注,推动了中国AI生态的开放性和竞争力的进一步提升。这一风潮不 仅加速了模型层的国产化创新,也为中小企业提供了更易获取的 AI 工具,激发了应用层的创新活力, 成为中国AI产业发展的标志性事件。 艾瑞人工智能研究团队延续六年行业研究经验,在第七年聚焦人工智能产业的发展环境、产业 进程及产品动态,深入探讨技术驱动、产业机遇、商业模式及挑战等核心议题,为市场提供前瞻性 动能。资本市场持续关注AI,投资重点聚焦于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告济的科技竞争力。经过多年持续投资布局,我国人工智能产业体系逐步完善,基础层、模型层及应 用层不断升级优化,实现了人工智能、大数据等数据智能技术与实体经济的广泛融合。2025年2月, 中共中央总书记、国家主席、中央军委主席习近平在京出席民营企业座谈会并发表重要讲话,强调 民营企业的关键角色与发展前景,进一步强调了人工智能产业的战略地位。 2025年初,以DeepSeek为代表的国产开源大模型掀起热潮,其高性能、低成本的特点迅速吸 引了国内外开发者和企业的关注,推动了中国AI生态的开放性和竞争力的进一步提升。这一风潮不 仅加速了模型层的国产化创新,也为中小企业提供了更易获取的 AI 工具,激发了应用层的创新活力, 成为中国AI产业发展的标志性事件。 艾瑞人工智能研究团队延续六年行业研究经验,在第七年聚焦人工智能产业的发展环境、产业 进程及产品动态,深入探讨技术驱动、产业机遇、商业模式及挑战等核心议题,为市场提供前瞻性 动能。资本市场持续关注AI,投资重点聚焦于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态10 积分 | 51 页 | 3.35 MB | 6 月前3
2025年DeepSeek手册:DeepSeek给我们带来的创业机会AI能帮助人解决登陆火星、能源自由的问题 5 政企、创业者必读 大模型是真智能,是人工智能的重大拐点。你相不相信? 大模型是一场工业革命,将重塑所有产品和业务。你相不相信? 不拥抱AI的组织和个人,会被拥抱AI的组织和个人淘汰。你相不相信? 建立AI信仰 6 政企、创业者必读 大模型不是泡沫,而是新一轮工业革命的驱动引擎 蒸汽革命 电气革命 信息革命 以大模型为代表的 人工智能革命 人工智能是新质生产 展注入强大动能 大模型的进一步突破将引领人类社会进入智能化时代,对我们的生活方式、生产方式带来巨大变革 重塑经济图景 解决复杂问题 7 政企、创业者必读 8 AI不仅是技术革新,更是思维方式和社会结构的变革 国家 产业 个人 企业 政企、创业者必读 人工智能发展历程(一) 从早期基于规则的专家系统,走向基于学习训练的感知型AI 从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 从擅长理解的认知型AI,发展到擅长文字生成的生成式AI 从语言生成式AI,发展到可理解和生成声音、图片、视频的多模态AI 从生成式AI,发展到推理型AI 专家系统 感知AI 认知AI 生成式AI 多模态AI 推理式AI 9 政企、创业者必读 人工智能发展历程(二) 从单纯对话的大模型AI,发展到具有行动和执行能力的智能体AI 从数字空间中的AI,走向能理解和操控物理空间的AI10 积分 | 76 页 | 5.02 MB | 5 月前3
北京大学-DeepSeek原理和落地应用2025人工智能概念辨析 DeepSeek R1 大模型原理 落地应用 目 录 C O N T E N T S 人工智能概念辨析 PART 01 大模型相关术语 l 多模态 Ø 文本、图片、音频、视频 l AI工具(国内) Ø DeepSeek、 豆包、Kimi、腾讯元宝、智谱清言、 通义千问、秘塔搜索、微信搜索... l 通用模型 Ø 大语言模型(LLM,Large Language Model) Model) Ø 视觉模型(图片、视频) Ø 音频模型 Ø 多模态模型 Ø …… l 行业模型(垂直模型、垂类模型) Ø 教育、医疗、金融等 大模型的前世今生 •人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能) •运算推理:规则核心;自动化 •知识工程:知识核心;知识库+推理机 •机器学习:学习核心;数据智能(统计学习方法,数据建模) •常规机器学习方法: •Transformer架构:可以并行矩阵计算(GPU),核心是注意力机制(Attention) •编码器(BERT):多数embedding模型,Ernie早期版本,……. •混合网络:T5、GLM •解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心 •生成式人工智能(GenAI):AIGC •DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、……10 积分 | 57 页 | 9.65 MB | 5 月前3
2025年DeepSeek赋能自智网络高阶演进评测报告业 务 智 能 编 排 完 整 性 业 务 智 能 编 排 识 别 率 业 务 智 能 编 排 语 义 一 致 性 �������� DeepSeek R1 DeepSeek V3 模型C 模型D 模型E 95.00% 96.00% 91.20% 89.00% 89.00% 91.60% 93.00% 94.00% 94.40% 90.20% 90.20% 80.81% 推 断 合 理 性 业 务 智 能 编 排 隐 含 信 息 理 解 业 务 智 能 编 排 因 果 关 系 准 确 性 �������� DeepSeek R1 DeepSeek V3 模型C 模型D 模型E 90.20% 90.00% 89.00% 91.60% 91.50% 88.00% 94.40% 93.00% 85.00% 80.81% 90.20% 79.00% 76.00% 业 务 智 能 编 排 准 确 性 业 务 智 能 编 排 全 面 性 业 务 智 能 编 排 时 效 性 �������� DeepSeek R1 DeepSeek V3 模型C 模型D 模型E ������������������������������������������ 16 2) ���研�� �����������DeepSeek R1�DeepSeek10 积分 | 40 页 | 16.72 MB | 5 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告07 解码DeepSeek,) 构建医药⾏业新质⽣产⼒ 腾讯健康 李慧 ⽬录 • 从DeepSeek看⼈⼯智能发展趋势 • ⼤模型及DeepSeek潜在应⽤场景探索 从DeepSeek看⼈⼯智能发展趋势 AI离我们越来越近,越来越密集的“加速”信号 4 “AI”概念⾯世 1950s 2012 CNN,$⼈脸识别 Alpha, ⼤战李世⽯ 2017 2022 Chatgpt ⼒、通⽤范式”,验证⼤语⾔模型的可⾏性。 • GPT3/4在深度推理和问题解决⽅⾯有所⽋缺,OpenAI-o1通过思维链(ChainvofvThought)增强推理能⼒,将复杂问题分 解成更⼩、更易处理的步骤;⽽DeepSeek R1在展现卓越推理能⼒同时,训练和推理成本极低 BERT BERT在文本分类、命名实体识别等 语言理解任务表现出色。也是医疗AI 小模型年代主要技术路线 “大数据、小算力、专用决策” 基于DS-v3构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI技术演变路线 5 理解Chatgpt,J⼀个AI领域的“⼯程奇迹” Chatbot: ⽂本交互式应⽤ Gpt3: 预训练⼤模型 Prompt engineering 提⽰词⼯程 RLHF 强化学习 Nvidia A100(A800) ⾼性能卡 SFT 监督微调 RDMA 解决数据处理的延迟 顶尖的AI⼈才 数⼗TB⾼质量数据10 积分 | 32 页 | 14.20 MB | 5 月前3
清华:AI驱动政务热线发展研究报告(2025). 1 一、大模型赋能政务热线:从数字化到数智化跃迁.......................................................2 (一)政务热线的发展历程.................................................................................... 2 (二)大模型在政务热线中的全新价值 (二)大模型在政务热线中的全新价值..................................................................5 二、大模型驱动政务热线的创新趋势.............................................................................7 (一)政务热线的新定位:从“接诉即办”到“治理枢纽”....... ...........................................................................................24 四、 大模型在政务热线中的场景化实践..................................................................... 28 (一)智能运营体系构建..0 积分 | 58 页 | 1.68 MB | 5 月前3
备份 清华:AI驱动政务热线发展研究报告(2025). 1 一、大模型赋能政务热线:从数字化到数智化跃迁.......................................................2 (一)政务热线的发展历程.................................................................................... 2 (二)大模型在政务热线中的全新价值 (二)大模型在政务热线中的全新价值..................................................................5 二、大模型驱动政务热线的创新趋势.............................................................................7 (一)政务热线的新定位:从“接诉即办”到“治理枢纽”....... ...........................................................................................24 四、 大模型在政务热线中的场景化实践..................................................................... 28 (一)智能运营体系构建..0 积分 | 58 页 | 1.70 MB | 5 月前3
中国算力中心行业白皮书在全球数字化与智能化浪潮交相辉映的当下,人工智能技术,特别是生成式AI与大模型技术的突破性飞跃,正引领一场前所未有的技术革新浪潮,重 塑着各行各业的发展蓝图。在此背景下,算力资源已成为支撑AI技术持续进步不可或缺的基石,而算力中心,作为算力资源的核心承载平台,正迎来 崭新的发展机遇。其中,定制批发业务凭借其高效整合算力资源的能力,为大模型训练提供了稳定、可靠的算力支持,成为推动AI技术革新与应用拓 展的关键力量。 市场供需关系的深度剖析上,力求提供更为详尽的数据支持与深 入洞察。 主要研究结论 • 从算力中心的定制批发业务发展现状来看,需求端和供给端均展现出积极的发展态势。 ➢ 需求端,随着 AI 大模型的迅猛发展,市场对算力资源的需求呈现出快速增长。这一增长主要源于互联网大厂、云厂商、短视频厂商等行业头部企业 对高性能、大规模算力资源的投入持续增长,这一趋势推动了算力中心定制批发业务的高速发展。 新动态和发展趋势,为报告奠定了理论基础。 二、模型搭建与测算: • 供需模型搭建:从专业的行业视角出发,我们将一手调研获取的、来自超40家具有代表性的需求厂商与供给服务商的数据,整合融入供需 模型,以此反映当下市场的实际供需格局。同时,我们吸纳从专家访谈中的关键信息,如需求侧的服务器规模及业务增长情况、供给侧的 运营容量及区域布局规划等,为模型的未来预测提供依据。在此基础之上,我们亦吸纳案头调研收集的大量资料,如宏观政策文件、市场10 积分 | 54 页 | 6.96 MB | 5 月前3
共 40 条
- 1
- 2
- 3
- 4
