从大模型、智能体到复杂AI应用系统的构建(61页 PPT)
13.10 MB
61 页
0 下载
5 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
浙江大学 DeepSeek 系列专题线上公开课(第二季) 从大模型、智能体到复杂 AI 应用系统的构 建 —— 以产业大脑为例 肖俊 浙江大学计算机学科与技术学院人工智能研究所 2025 03 杭州 • 大模型推理能力快速提 升 • 推理模型和思维链 (CoT) • 智能体是什么? • 四链融合产业大脑案例 提纲 大模型推理能力快速提升 开始模仿人 脑进行大量 数据的标记 和训练 神经网络 CNN RNN GAN 1990 年开始; 2006 年获得突 破 快速回望历史——大模型的产生 对人脑学习 过程进行重 点关注 Transformer 2017 年 ChatGPT 2022 年 Instruct GPT BigBird ALBERT ELECTRA 基于模板和 规则的前深 度学习阶段 基于规则 的少量数 据处理 1950 年开始 根据一定范 围的数据进 行参数分类 Machine Learning 1980 年开始 n ChatGPT 所能实现的人类意图,来自于机器学习、神经网络以及 Transformer 模型的多种技术模型积累 2019 年 GPT-2 BART RoBERTa ChatGPT 经过多类技术积累 ,最终形成针对人类反馈信息学习的大规模预训练语言模 型 2018 年 GPT-1 T5 BERT 2020 年 GPT-3 M2m- 100 XLM 进行海量数据学习训练 ,人类的反馈信息成 为模型学习的内容 OpenAI 公司于 2022 年 11 月发布 ChatGPT ,短短三个月内日活跃用 户从 零增长至超过 3000 万 ,标志着对话式 AI 进入大众应用阶段 里程碑: ChatGPT 的成 功 ChatGPT 日活量( 2022.11- 2023.02 ) 三阶段训练技术构建 GPT 3.5 辨别式 AI 对现有内容进行分析、分类、判断、预测 客户流失预测 生成式 AI 自动生成开放的文本、图像、音频、视频等内容 短视频片段 广告视频 多模态生成 相对通用的人工智能 一个大模型解决多个问题 自适应地应对复杂外界环境的挑战 专用人工智能 一事一模型,每个模型完成特定智能任务 解决特定的智能问题 里程碑: ChatGPT 的成 功 AI 1.0 时代 AI 2.0 时代 图像分类 文本分类 信用评估 房价预测 销量预测 客户分群 新闻聚类 广告定向 社区发现 文生图 文生视频 语音与对话 影视与广告 文章报告 问答内容 人像写真 广告图片 样例代码 测试用例 视频生成 分类 聚类 回归 文本生成 语音生成 代码生成 图像生成 Multi-task Language Understanding on MMLU Source: https://paperswithcode.com/sota/multi-task- language-understanding-on-mmlu 大模型在知识问答、数学、 编程等能力上达到新的高度, 多种任务上 的表现超过人类水平。 大模型能力不断增长 Source: https://lifearchitect.ai/timeline/ 大模型发展迅速,参数量从百亿到万亿规模 大模型能力涌现,多个任务上性能超越人类水平 1000 Billion 10 Billion 谁是第一个登 上月球的人 请告诉我独角兽 的历史起源 尤里 · 加加林是第 一 个登上月球的人。 独角兽被记载在大 约公元前 10000 年 漫 游亚特兰蒂斯平 原, 它们经常与皇 室联 系在一起。 模型的回答与事实不符, 因为尼尔 · 阿姆斯特朗 才是第一个登上月球的 人,而尤里 · 加加林是 第一个进入太空的人。 模型的回答是虚构的,因 为没有经过验证的现实世 界证据支持独角兽在亚特 兰蒂斯的存在,特别是与 皇室的关联。 违反事实,专业知识不足 https://www.lakera.ai/blog/guide-to-hallucinations-in- large-language-models 大语言模型易产生幻觉 ,在数学推理方面表现在推理能力严重不足, 体现在简单数值比较错误、 多步推理能力弱、推理不一致等 早期大模型在推理能力上存在明显短板 9.11>9.9? 简单数值比较错误 多步推理错 误 事实性幻觉问题 大语言模型易产生幻觉 ,在数学推理方面表现在推理能力严重不足, 体现在简单数值比较错误、 多步推理能力弱、推理不一致等 早期大模型在推理能力上存在明显短板 无法在复杂的思维链中保持一致性 推理过程和答案不一致 Yann LeCun 的批判观点: 对纯粹扩大规模方法的根本质疑 Mehrdad Farajtabar : "LLM 本质上是统计模式匹配工具,而非真正的 推 理系统 " 、 " 下一个词预测框架不足以产生真正的理解 " Yann LeCun : 自回归大型语言模型没有前途 Apple 提出 LLM 并非真正的推理系统 怀疑论 2023-2024 年,推理能力突破性进展: • OpenAI o1/o3 在数学和代码推理任务上的卓越表现 • 开源大模型 DeepSeek-R1 在 MATH 基准上达到 87.2% 的准确率 横空出世: OpenAI o1/o3 、 DeepSeek- R1 等 o1 在数学和代码问题上的水平大幅提升 ,超越人类专 家 开源大模型 DeepSeek R1 匹敌 OpenAI o1 DeepSeek 的 “ aha moment” 这种深度推理能力是如何实现的?是单纯的规模扩展结果,还是有其他关键因素? 2023-2024 年,推理能力突破性进展: • OpenAI o1/o3 在数学和代码推理任务上的卓越表现 • 开源大模型 DeepSeek-R1 在 MATH 基准上达到 87.2% 的准确率 横空出世: OpenAI o1/o3 、 DeepSeek- R1 等 1. 早期的大模型推理能力不足 2. OpenAI-o 系列模型和 DeepSeek-R1 等胜在推理能力较 强 小结一: 推理模型和思维链 (Chain of Thought, CoT) QwQ 由通义千问 开发, QwQ 能通 过思考与疑问解 决 一些复杂的问 题。 HIMl DeepSeek-R1 与 Kimi1.5 都采用 RL 来 进 行推理能力的增强 Gemini 2.0 Flash Thinking 经过训 练后,可以生成模 型在回答问题时 经历的思考过程。 推理大模型 :通过测试时拓展( Test-Time Scaling ) 、强化学习、蒸 馏 等技术,大模型的推理能力不断增强。 o3 通过模拟推理技术,能够暂停并反思自 身内部的思考过程,从而在回答问题前进 行更深入的推理,类似于人类的思考方式。 推理大模型的发展 Claude3.7 是 首 个混合推理 模 型,集普 通语 言模型 和推理 模型 于一体的 混 合模型。 OpenAI o1 是专注于复杂推理任务, 通过深度思考和策略优化来解决问题。 2024.09 2024.11 2025.1 2025.2 2025.2 o1/o3 在回答问题之前先 Reasoning , 生成一个详细的内部思维链 , 模 拟人类的深思熟虑 , 逐步分解复杂的问题 , 提高答案的准确性和 深度。 OpenAI-o 系列推理模 型 逐步思考 ,并分解复杂的问 题 相较于 GPT-4o o1 大幅提 升 要知道从玉泉校区到紫金港校区如何最快出行,首先得 知道有几种交通路线: 1. 89 路公交车,共 17 站,需步行 2 分钟,共用时 50 分 钟 2. 地铁 10 号线转 2 号线,这样就是 2 站 +5 站,共 7 站, 需 步行 20 分钟,共用时 43 分钟 3. 地铁 3 号线转 7149 路公交车,这样就是 3 站 +11 站, 共 14 站,需步行 11 分钟,共用时 50 分钟 4. 还可以 …… 这样综合看起来,最快的交通方案应该 2 ,共用时 43 分 钟 什么是思维链 (CoT) 从浙大玉泉校区到紫金港校区如何最快出行? 地铁 10 号线黄龙体育中心站 -> 文三 路 -> 学院路(转 2 号线) -> 古翠路 -> 丰 潭路 - > 文新路 -> 三坝 -> 虾龙圩 -> 步行 … 桌子上放着 50 根火柴 ,丁丁、 田田二人轮流每次取走 1~3 根。规定谁取走最后一根火 柴谁输。如果双方采用最佳 方法, 丁丁先取 ,那么谁 将 获胜 ? 什么是思维链 (CoT) • 有些问题,人也很难快速写出思维链,比如: 依靠大模型自己生成思维链并求解 求是小学组织去距离 90 公里的博 物馆春游, 全班同学 8:00 从学 校 坐大巴车出发 。 班主任老师 因为 有事情, 8: 10 自己自驾小 车以大 巴车快 1/3 的速度追赶 , 结果比大 巴车提前 20 分钟到。 问: ( 1 )大巴和小车的速度各是多少? ( 2 )班主任老师追上大巴的地点 距离博物馆还有多远? 首个将思维链显式展示的开源模型 DeepSeek-R1 的推理过 程 s1 通过在一个精心构建的小规模数据集上( 1000 条数据) 进行微调, 并结合预算强制技术,实现了强大的推理能力和测试时计算扩展性 如何低成本实现推理模型? Less Is More for Reasoning LIMO 假说: 在预训练阶段已经充 分 编码领域知识的基础模型中, 复 杂 的推理能力可以通过最少但精 确编 排的认知过程演示来涌现: • 模型具备丰富预训练知识 • 高质量的推理链示范 LIMO 通过 817 个训练样本 (题目难度高,覆盖知识面广, 解题步骤 精 细) ,模型就能在复杂的数学推理任务中取得有益的表现 如何低成本实现推理模型? 1. 自动化思维链 (CoT) 的实现是新一代大模型的精髓之一 2. 经过精心设计的少量高质量样本即可实现适用于某个专业领 域 的高性能低成本推理模型 小结二: 智能体 (AI Agent) 是什么? • 大模型除了可以和我聊天、 回答问题 , 到底还能干什么? 灵魂发问 灵魂发问 • ChatGPT 的回 答 ① 用户打开邮箱,手动拷贝邮件内容 ② 用户将邮件内容拷贝到大模型运行 界 面的对话框 ,写提示词: 请基于 以下 邮件内容帮我草拟一封回复 ③ 大模型根据提示词自动生成回复邮件 ④ 用户将大模型生成的回复邮件拷贝 至 邮箱 ⑤ 用户填写地址、 邮件标题 ,点击发 送 只有这个步骤是大模型自动 完成,其余步骤均需要用户 自行手动操作 有没有更加智能或者自动化 的工具来协助我们完成这些 手动操作呢? • 如果你只有一个大模型,使用它回复邮件的过程大致如下: 用大模型写邮件 大语言模型( LLM ) 可以接受输入 , 可以分析 & 推理、 规划任务、 输 出文字 \ 代码 \ 媒体。 然而 , 其无法像人类一样 , 拥有运用各种 工具与物 理世界互动 , 以及拥有人类的记忆能力。 智能体 (AI Agent) • LLM :接受输入、思考、规划任务、输出 • 人类: LLM (接受输入、思考、规划任务、输出) + 记忆 + 工具 Reflection Self-critics Chain of thoughts Subgoal decomposition Calendar() Calculator() CodeInterpreter() Search() ...more 记忆 智能体 行动 Short-term memory Long-term memory 规划 工具 第一步:智能体进行任务拆解,首先调用 CollectLinks 工具从搜索引擎进行搜索并获取 Url 地址列表 https://cloud.tencent.com/developer/article/2422923 • 撰写调研报告: 调研特斯拉 FSD 和华为 ADS 这两个自动驾驶 系统 一个具体的例子 • 撰写调研报告: 调研特斯拉 FSD 和华为 ADS 这两个自动驾驶 系统 第二步:调用 WebBrowseAndSummarize 工具浏览网页并总结网页内容(此工具调用了 LLM ) 第三步:调用 ConductResearch 工具生成调研报告(此工具调用了 LLM ) 一个具体的例子 类 型 名称 说明 角 色 Researcher 调研员智能体, 从网络进行搜索并总结报告。通过 LLM 提示工程 (Prompt Engineering) ,让 LLM 以 调研员的角色去规划和拆分任务,使用提供的工具,完成调研过程,生成调研报告。在定义角色 时,会为其注册下面列出的各项工具 工 具 CollectLinks 问题拆解,从搜索引擎进行搜索,并获取 URL 地址列表。该工具基于 LLM 提示工程和搜索引擎 实 现,其功能如下:( 1 )将问题拆分成多个适合搜索的子问题(基于 LLM 提示工程) ; ( 2 )通 过搜 索引擎搜索子问题 ; ( 3 )筛选出与调研问题有关的 URL ,并根据网站可靠性对 URL 列表进行排 序 (基于 LLM 提示工程) 工 具 WebBrowseAndSummarize 浏览网页并总结网页内容。由两个工具组成:浏览网页和总结网络内容。( 1 )浏览网页是通过封 装的 WebBrowserEngine 工具访问搜索引擎实现的 ; ( 2 )总结搜索结果是通过 LLM 提示工程实 现。 工 具 ConductResearch 生成调研报告。基于 LLM 提示工程的工具,该工具会整合 WebBrowseAndSummarize 的输出给到 LLM ,让 LLM 生成调研报告 • 撰写调研报告: 调研特斯拉 FSD 和华为 ADS 这两个自动驾驶 系统 一个具体的例子 自动发邮 件 The growth trend on the field of LLM-based autonomous agents A Survey on Large Language Model based Autonomous Agents, 2023.8 Models ,也就是我们熟悉的 调 用大模型 API 。 Prompt Templates ,在提示 词中 引入变量以适应用户输入 的提 示模版。 Chains ,对模型的链式调用, 以上一个输出为下一个输入的 一部分。 Agent ,能自主执行链式调用, 以及访问外部工具。 Multi-Agent ,多个 Agent 共享 一 部分记忆,自主分工相互协作。 Agent System 五层基石理 论 Environment Memory & Decision Making Agent Action n LLM-powered Agents are artificial entities that enhance LLMs with essential capabilities, enabling them to sense their environment, make decisions, and take actions. The Framework of LLM-powered Agents Brain Construction Observation Broader Action Spaces Multimodal Output Text & Speech Images Tools Calling APIs: calculator, task-specific models, web searching … Multi-modal Perception Image & Video Speech Code User behavior Science data Stock data Brain Decision Making Retrieve Planning Summary Reflection Embodiment Robots; Arm; … Autonomous car Memory Time Short-term & Long-term Reasoning • ChatGPT: 具有强大的任务规划和工具调用能力 • Hugging Face: 最大的 AI 模型社区 ,每个模型都有详细的功能描述 LLMs ML community / Tool Library / API ⃞Hugging Face … ⃞open assistant 更复杂的任务:大小模型协作的生成式智能体 HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face, Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yuet
| ||
下载文档到本地,方便使用
共 61 页, 还有
3 页可预览,
继续阅读
文档评分


审计领域接入DeepSeek AI大模型构建Agent智能体提效设计方案(204页 WORD)
基于大模型的具身智能系统综述