2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 北大对齐小组 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 的惊人成绩,表现与OpenAI-o1-1217相当。 ➢ 在编码相关的任务中表现出专家水平,在 Codeforces上获得了2029 Elo评级,在竞赛中表现 优于96.3%的人类参与者 ➢ DeepSeek-R1 在知识类问答上推动科学探索边界: ➢ MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM- related 榜单上取得良好表现 ➢ R1 展现出强推理模型在 AI-Driven Research 中,通过 反复自我迭代和监督微调 ➢ 基于STaR 可以进一步将这种思路扩展到思考过程是搜索过程的特例,比如 rStar-Math, SoS 都可以用类似的思路来理解。 ➢ 本质上,STaR一类的方法是希望模型能够学习到MetaCoT, 即问题到答案映射 过程背后的深入规律 ➢ 但是对于问题的结构要求性高,对于复杂数学推理任务可能难以自我迭代 ➢ 难以融入 Rule-Based Reward10 积分 | 76 页 | 8.39 MB | 7 月前3
AIGC+教育行业报告2024,大力出奇迹的暴力美学路径已被行业所验证,未来格 局仍会以有着多类型资源积累的大厂占据主要份额,创新企业可以依据特定场景深入理解而切入, 但若没有自主大模型仍然会受制于人。同时,通用大模型与教育垂类大模型的关系,正向着各司 其职、融合发展的方向持续演化,未来可能呈现出通用大模型与N个专家模型多重组合的形态。 在内容层面,基于神经网络技术的AIGC与素养发展具有天然相似的基因,企业可以发力C端小模 识经验的教授范围进一步扩大、教育效果增强 ➢ 条件:在海量数据、更大算力的支撑下 ➢ 特点:大语言模型能更加深入地解析事物, 在更深层次和更广的范围发现事物的新特点 ➢ 优势:在发现、认识、运用规律上相较于人 类有着明显的优势,人造工具突破人类认知 大语言模型 教育 突变 人类把数字语言外化给机器,人工智能在发现、 认识、运用规律上更具优势,带来教育体系变革 语言的发展及其教育影响 ➢ 数字系统:二进制、八进制、十进制等 应学习。随着深度学习技术的进步,人工智能技术步入商业化阶段,AI+教育也进入产业期。近几年大数据、云计算、算力能力提升, 大规模语言模型急速发展,2022年ChatGPT的发布更是引发了海内外LLMs的军备竞赛,2023年各类教育垂类大模型的争相发布, 打开了通向通用人工智能(AGI)之路,帮助师生大幅提升教学效率,推动大规模的因材施教逐步落地。 来源:公开资料,艾瑞咨询研究院自主研究及绘制。 1954 1956 1960 196510 积分 | 55 页 | 3.32 MB | 7 月前3
抢滩接入Deepseek,教育行业迈入AI深度整合新阶段行能力/功能升级、或以 DeepSeek为基座发布新AI教育应用和智能学习硬件,快速抢占DeepSeek模型带 来的AI创新机遇。 代表性教育企业围绕DeepSeek的布局总览 相较于其他通用及垂类大模型,DeepSeek能够得到头部教育企业广泛青睐、激起 抢滩布局,主要得益于其几大特点: l 深度思考模式:DeepSeek的深度思考模式能够输出自然语言形式的推理过 程,使得学习、解题的思 功能;新发布AI学习应用“随时问”,由自研九章大模型与DeepSeek大模型联合 支持,主打一站式智能化教育。围绕DeepSeek,学而思的AI教育布局呈现出双协 同、生态化特点: 1、突破单一模型局限,将教育垂类大模型与DeepSeek深度融合,结合DeepSeek 拆解复杂问题和语言交互的强项、及九章大模型深耕数学推理与学科知识图谱的优 势,实现精准分析/定位/回溯知识点、强化逻辑推理并显化思维路径、理解并输出 线接入DeepSeek、加速智能硬件创新,推动AI教育场景的深化与成本优化。 1、底层技术融合:构建DeepSeek-R1的通用智能推理能力与自研教育垂类大模型 “子曰”结合的混合架构,以提升复杂场景的AI教育能力精准度,并打造了基于 DeepSeek的多模态应用。 2、全线产品线接入:软件端,网易有道AI学习类App接入DeepSeek,以其深度思 维优势提升AI教育能力和个性化交互学习体验;此外,网易有道基于子曰教育大模 型10 积分 | 6 页 | 1.23 MB | 1 月前3
赋能金融,AI开启新时代【AI金融新纪元】系列报告(三)执业证书编号: S0600516110001 联系邮箱: hux@dwzq.com.cn 二零二四年五月七日 证券研究报告 l 2009 年移动应用市场兴起, 财经类移动 APP 开始出现; 2010 年代后半段 -2020 年初, 财经类移动 APP 开始致力于满 足用户多元化的财富管理需 求。 AI 技术的兴起使得智能 营销、智能投顾等获得助推, 东方财富、同花顺和华泰证 模型的数字金融新时代。东方财富、 同花顺、恒生电子引领金融科技 前沿。 l 互联网在中国迅速发展, 2008 年牛市下 PC 端金融网络门户 兴起,新浪、搜狐、网易等传 统门户财经频道日益成熟,和 讯网、金融界、证券之星等垂 直财经网址厚积薄发。但是受 限于时代条件,互联网金融领 域仍处于起步阶段。东方财富 后来居上,成为该阶段的集大 成者。 l 中国金融与技术的融合始于 20 世 纪 80 年代,互联网及数字技术 出现,传统金融机构受到提高 年期间, 随着中国互联网用户数量的翻倍增长和 互联网证券行业的发展 ,垂直财经网站的活跃度总体上呈现上升趋势。 据艾瑞咨询 2017 年 8 月数据 ,东方财富网 PC 端日均覆盖人数位居同 类网站首位 ,达到 1056 万人 ,几乎与 Top10 中其他 9 名网站(中国经 济网、和讯网、 同花顺、 中金在线、金融界等)覆盖人数总和相当。 同 时从月度浏览时间来看 ,东方财富网达到 575810 积分 | 32 页 | 1.10 MB | 1 月前3
大模型时代的AI教育:思考与实践20241、数据智能:LLM取得了突破,最被看好 • 概率模型,机器学习(统计学习方法)、数据模型、计算数学 2、学习人脑:当前遇到挑战,可能会成为道路1的一部分 • 抽象模型:杨立昆的世界模型+功能分区 • 类脑计算:意识研究、认识论(哲学物理学)、认知神经科学 包括生物计算,不排斥数据科学方法(mortal computation) 3、具身智能:刚起步,研究热点,可能会成为道路1的未来 • 如何培养AI专业人才和AI赋能人才 • AI如何赋能教育 第一届人工智能教育大会(2019) 02 对AI教育的思考:AI重塑就业岗位和组织结构 从职业角度来看,人工智能将带来三类影响 1. 替代少部分基础岗位 • 一些简单的重复性、模板化、“照本宣科式”的智力劳动可能会被替代,例如:基础客户服务、简单文秘、甚至一些翻译工作 2. 革新大部分岗位的职业技能 • AI实验室建设 • 专业垂类大模型训练 • 教学创新大赛 • AI相关课题转化 • AI+学科教材共研 • AI领域科研论文 • AI技能大赛 人工智能通识课 • 人工智能通识课建设 • 实验设备、系统搭建 • AIGC课程建设 • AIGC技能大赛 • AI+学科交叉融合 03 我们的AI教育实践:青鸟AI实验室 七类主要产品和服务 NovaAI开放平台10 积分 | 36 页 | 4.04 MB | 7 月前3
信息服务-AI Agent(智能体):从技术概念到场景落地赋能两类实体领域,成本与效益的博弈:AI Agent 目前的应用大多都在概念层面, 但随着大模型竞争加快、政策鼓励研发投入、更多企业参与 AI 研究等因素,应用 层面的 AI Agent 推进速度加快。智能体大致可以分为六类,根据他们被设计出的 特点,可以作用在不同的应用领域上。不同类别的智能体给予应用层面上更多研 发方向,像目前关注度较高的自动驾驶技术、智能电网控制、能源管理等都能被 垂类智能 垂类智能体覆盖。结合多模态大模型,自动化和情感需求类智能体已落地。但商 业化智能体仍需考虑成本问题,由于智能体之间的交互过程可能出现错误循环且 输出结果不一定符合需求,tokens 成本远高于普通 LLMs。 人工智能发展迅猛,智能体商业化落地:未来多方面推动人工智能发展,应用级 别智能体有望快速落地。国内各地相继出台关于人工智能的发展政策,推动其为 重要的研究方向。预计 2026 年国内人工智能市场规模超过 应用场景:赋能两类实体领域,成本与效益的博弈 ....................................................... 8 2.1 自动化类:微软智能体 AutoGen ......................................................................... 9 2.2 情感需求类:陪伴型智能体10 积分 | 33 页 | 4.71 MB | 1 月前3
从大模型、智能体到复杂AI应用系统的构建(61页 PPT)ChatGPT 所能实现的人类意图,来自于机器学习、神经网络以及 Transformer 模型的多种技术模型积累 2019 年 GPT-2 BART RoBERTa ChatGPT 经过多类技术积累 ,最终形成针对人类反馈信息学习的大规模预训练语言模 型 2018 年 GPT-1 T5 BERT 2020 年 GPT-3 M2m- 100 XLM 进行海量数据学习训练 1.0 时代 AI 2.0 时代 图像分类 文本分类 信用评估 房价预测 销量预测 客户分群 新闻聚类 广告定向 社区发现 文生图 文生视频 语音与对话 影视与广告 文章报告 问答内容 人像写真 广告图片 样例代码 测试用例 视频生成 分类 聚类 回归 文本生成 语音生成 代码生成 图像生成 Multi-task Language Understanding WebBrowseAndSummarize 工具浏览网页并总结网页内容(此工具调用了 LLM ) 第三步:调用 ConductResearch 工具生成调研报告(此工具调用了 LLM ) 一个具体的例子 类 型 名称 说明 角 色 Researcher 调研员智能体, 从网络进行搜索并总结报告。通过 LLM 提示工程 (Prompt Engineering) ,让 LLM 以 调研员的角色去规划20 积分 | 61 页 | 13.10 MB | 1 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告场上获得了⼴泛认可。其中: • DeepSeek-V3 是在14.8万亿⾼质量 token 上完成预训练的⼀个强⼤的混合专 家 (MoE) 语⾔模型,拥有6710亿参数(激活参数370亿)。作为通⽤⼤语⾔模 型,其在在知识类任务(知识问答、内容⽣成等)领域表现出⾊ • DeepSeek-R1 是基于 DeepSeek-V3-Base 训练⽣成的强化推理能⼒模型,在 数学、代码⽣成和逻辑推断等复杂推理任务上表现优异 更低的研发成本* 传统模型需要⽤32位或者16位数记录数字 • “⼿机号码,记最后4位” • 提升训练速度同时保持精度,降低硬件门槛 FPBn混合精度训练 • 从海量数据中提炼⾼价值信息,提升模型 学习效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模型 数据蒸馏技术 • ⼤道⾄简,⽤强化学习跳出题海和⼩测 让模型⾃⼰学会思考 GRPO(群体相对策略优化) 效果体验惊艳,成本极致压缩 8 为什么⼈⼈都爱DeepSeek ⼤模型发展的⼏⼤“基⽯” 01 DeepSeek极致成本降低,显著降低本地化部署的 成本,极⼤激活本地数据 计算资源 02 DeepSeek是最开源的⼤模型,便于医疗⾏业 开发者使⽤和优化,垂类⼩模型不输于⼤模型 算法框架 03 医疗⾏业拥有⼤量数据资源,是⼤模型训练 和应⽤的重要⽀撑 数据资源 04 医疗信息化⼚家数千家,为⼤模型应⽤提供 良好的⽣态基础 ⽣态资源 05 医疗⾏业⼈均学历⾼,具备开展⼤模型研究10 积分 | 32 页 | 14.20 MB | 7 月前3
2025企业级AI Agent(智能体)价值及应用但不直接处理工作。 人类和 AI 进行协作,工作 量相当。 AI 根据人类 prompt 完成工作初稿, 人类进行目标设定,修改 调整,最后确认。 AI 完成绝大部分工作,人 类负责设定目标、提供资 源和监督结果, AI 完成 任 务拆分,工具选择, 进度 控制,现目标后自 主结束 工作。 Chatbot Copilot 绝大多数的工作 新一代生产力引擎:企业级 AI Agent 的核心能力驱动企业数字化变 化 其核心在于 Agent 强大的自然语言理解 ( NLU )与意图识别能力,能精准捕捉 人 类模糊、多样化的指令并翻译成精确的 机 用最自然的语言对话替代繁复的软件操作界面 ,让 每 一位员工都能轻松调用全公司的数字化能力与服 务 , 极大降低技术使用门槛。 化水平,用“群体智慧”解决单点问 题。 Agent 场景地图:四类角色各司其 职 借助 AIGC 规模化高效生成的能力, 实 现低成本、高质量的创意素材生成, 加速内容制作流程,为新的制作方式 及分发模式提供基础,为产业创新提 供基础。 游戏、娱乐、影视、营销、广告、教育 等需要更多灵感及创意的领域 更自然,更类人,带有情绪价值的表达, 并且表达中迅速形成合理的反馈20 积分 | 76 页 | 10.80 MB | 1 月前3
百度智能客服实践和展望(17页PPT)大量 FAQ • 指代抽象 • 统一聚类标注 训练 • 语料生成与训练方法 • 知识图谱可视化 运营工具提高效率一倍以上 系统复杂 • 话务系统和架构复杂 性 • 后台业务复杂集成 • 异地双活部署架构 • 能力开放 严苛环境下 SLA 99.99% 系统外围高度可定制 金 融 行 业 垂 直 解 决 方 案 建 立 服 务 生 态 辅助工具 词云组件(基于意图 实体识别生成) 敏感词辅助提示 前端集成定制 主题及 logo 定制 菜单可配置 子路由及页面替换 后端 API 会话中控 API 知识管理类 API WEBHOOK JS 组件 人机协作助手 聊天对话组件 NLU 分析 系统日志 会话日志 系统操作日志 系统集成合作伙伴 合 作 伙 伴 生 态 圈 互20 积分 | 17 页 | 5.60 MB | 1 月前3
共 210 条
- 1
- 2
- 3
- 4
- 5
- 6
- 21
