预训练大模型与医疗:从算法研究到应用预训练大模型与医疗:从算法研究到应用 1. 预训练大模型概述 2. 理解大模型的内在机理 3. 赋予模型精准性与可解释性 4. 医疗领域应用 5. 清华探索:数基生命 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn CONTENTS 预训练:从大数据到小数据 ③ 精 准 可 解 释 ④ 医 疗 应 用 用 ② 剖 析 大 模 型 ① 关 于 预 训 练 预训练大模型 (学习共性) 大数据(低成本无标注) 少量特定领域标注数据 (成本高) 微调小模型 (学习特性) ⑤ 数 基 生 命 1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练; 2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。 CHIMA 20Pag2 Tsinghua Confidential lvhairong@tsinghua.edu.cn 英文 英文电子病历后结构化 电子病历后结构化 电子病历 后结构化 A 不懂英文 B 懂英文 C 懂英文的医生 Transformer 架构:预训练的基 石 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 从 word2vec 到 Transformer 从 context-free10 积分 | 52 页 | 28.32 MB | 6 月前3
新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)网络成大模型训练瓶颈 ,节点内外多方案并存 证券研究报告 | 2024 年 5 月 5 日 行业研究 · 行业专题 计算机 · 人工智能 投资评级:超配(维持评级) 请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a )模型迭代和数量增长拉动 A I 算力需求增长:从单个模型来看,模型能力持续提升依赖于 更 大的训练数据量和模 在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议: A I 大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势; A I 大 模型需要部署在高速互联的多个 A I 芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型 梯度 的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。 智算 中心: 从集群走 向超级池 化 02 网络互联: 节点 内外多方案并 存 03 投资建议及风险提示 请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升,模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models30 积分 | 24 页 | 947.01 KB | 5 月前3
智算中心暨电力大模型创新平台解决方案(51页PPT)典型案例 CONTENTS 加入星球获取更多更全的数智化解决方案 智算中心是以 GPU 、 AI 加速卡 [1] 等智能算力为核心、 集约化建设的新型算力基础设施,提供软硬件全栈环境, 主要承载模型训练以及适合中心推理、多媒体渲染等业务,支撑各行业数智化转型升级 具有较强的普适性,可服务于 toB/toC 适合有智能化转型需求行业,如自动驾 驶、智慧城市, toB 为主 专用性强,主要面向地球物理、分子力 专用性强,主要面向地球物理、分子力 学等基础学科以及军工研究 注 [1] :行业中 GPU 是一个较为泛化的概念,从功能角度划分, GPU 特指具备图形渲染能力的硬件, AI 加速卡特指用于 AI 推理或训练的硬件。本材料主要针对 AI 加速卡进 行分析 TaaS 是指 TensorFlow asa Service ,深度学习平台及行业大数据解决方案 智算中心定义 建设目的 应用领域 主要特征 智算中心典型需求场景 智慧电网 智慧油田 遥感测绘 新闻、视频、购物 App 内容推荐 金融、通信、物流 客服 风险分析 精准营销 AI 主要应用场 景 多媒体渲染 模型训练 智慧医疗 自动驾驶 智慧运营 科研应用 AI+ 视频 元宇宙 智能客服 推荐 智慧金融 智慧能源 第 5 页 l 场景: 利用无人机搭载高清摄像 头采集输电线路影像,10 积分 | 51 页 | 4.74 MB | 3 小时前3
北大:DeepSeek-R1及类强推理模型开发解读2 OpenAIo1 开启后训练 Post-Training 时代下的 RL 新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念,并且效果还好到受到了 OpenAI 的认可 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量 C 、 模 型参数量 N 和数据大小 D 之间的关系 回顾: Pre-Training Scaling Law 5 Post-Training 阶段,随着训练时计算量(来自 RL 的 Training10 积分 | 76 页 | 6.72 MB | 5 月前3
2024年汽车AI大模型TOP10分析报告(59页 PPT)Big-data Driven ,模型基于大规模语料训练而成; Multi-tasks Adaptive ,支持多种任务 ,包括自然 语言生成 NLG 和自然语言理解 NLU 类的任务; AI 大模型就是预训练语言模型 通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模 型 产业研究 战略规划 技术咨询 将模型在下游各种自然语言处理任 务上的小规模有标注数据进行微调 得到适配模型 预训练语言模型 从海量数据中自动学习知识 将模型在大规模无标注数据上进 行自监督训练得到预训练模型 不同特定任务 有标注训练数 据 模型预训练 模型微调 最终模型 ⼤规模⽆标注 ⽂本数据 预训练语⾔模型“预训练 + 微调”技术范 式 预 训 练 测试数据 微 调 2012 (Google. 引用 78550) Attention ( 图灵奖得主 Bengio) Model ERNIE( 百度 ) CPM( 智源 ) GLM( 洁华 ) 预训练模型 大模型 Transformer( Google. 引用 91332) Foundation 计 算 机 视 觉 AlexNet ( 图灵奖得主 Hinton) CAN (Gioodfellow10 积分 | 59 页 | 27.94 MB | 3 天前3
华为昇腾DeepSeek解决方案E NTS 目 录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14.8T token 数据集上基 于自 研 HAI-LLM 训练系统总计训练了 1394h ( 58.08 天) 性能优 数学、科学和代码等领域领先业界, 成为业界公认的 LLM 的领先模型 来源: DeepSeek 模型测试数据 & 互联网 硬件级优化 计算与通信优化,性能提升 30% GRPO :群体进化的智慧筛选器 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 到 3 的量化压 缩, 通信降低 89% 推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能 DeepSeek V3 :实现极致性能,稀疏0 积分 | 32 页 | 2.52 MB | 5 月前3
AI在保险行业的发展和应用(32页 PPT)Copilot ; 2023 年 Q1 ,微软系产品领航 ChatGPT 化…… sopen AI 2016 发布 Gym 强化学习平台 & Universe 训练工具包 2018.6 GPT-1 1.17 亿参数 无监督预训练 + 有监督微调 2019 GPT-2 15 亿参数 半监督语言模 型效果验证 2020 GPT-3 1750 亿参数 超大模型 聊天机器人 2023 年 Q1 GPT-4 提升性能 & 多模态 更贴近人类实际思维 Google 第一阶段:模型规模增大,融合的任务更多 2017-2022 年初 演进动力 : 训练语料 & 模型容量更大 Switch Transformer 1.6 万亿参数(人类大脑皮层参数 10 万亿) 大模型演进过程 1950 图灵《电脑会思考吗?》提出“机器思维“概念; 72 年后, 成为离图灵测试最近的机器人。 第二阶段:利用人工标注引导生成 2021 年底 - 至今 演进动力 : 从人类反馈中学习 8 ChatGPT 的技术路线选 择 海量人类积累的文本数据,进行无监督训练。 即可获得博学的文本生成模型 自回归 生成 单字接龙 9 第一阶段:模型规模增大,融合的任务更多 第二阶段:利用人工标注引导生成 ChatGPT10 积分 | 32 页 | 941.17 KB | 2 天前3
大模型时代的AI教育_思考与实践(36页 PPT)强化学习,环境交互,自我进化 4 、集群智能:持续研究,给道路 3 以启发 • 生命智能,混沌理论:细胞、生态、鸟群 n 两个阶段:特定任务到泛化任务 • 弱人工智能:可以完成训练过的特定的智能任务,特定 • 强人工智能:可以完成没有训练过的新智能任务,通用 n 三个能力 • 感知智能:知识表达 • 认知智能:知识处理 • 行动智能:环境交互 对 AI 技术的认知:通向 AGI 之 数字员工和人类员工共同工作 3. 以 AI Agent 为主、人工为辅 02 对 AI 教育的思考: AI 重塑就业岗位和组织 结构 n 人工智能专业 n 大专:编程基础 | 数据处理 | 模型训练 | 算法应用 | 工具使用 本科:基础知识掌握 | 编程能力 | 算法理解 | 实践应用 | 跨学科意 识 硕士:专业深化 | 研究方法 | 创新能力 | 工程实践 | 领域专精 博士:原创研究 思维能力:批判思维、独立思维、逻辑思维 2. 学习能力:终身学习,善用 AI 3. 热爱人类 n 如何培养人 1. 赋能:个性化学习,学本教育,因人育材,未来学校 学习的定位是一种思维训练,知识、写作、记忆力等只 是训练工具 终身学习的方式可能从知识搜索转向了古老的对话式学 习 2. 让人学会与 AI 共舞,尤其是生成式 AI 将成为人的必备技能 02 对 AI 教育的思考:如何培养 AI20 积分 | 36 页 | 2.17 MB | 2 天前3
DeepSeek消费电子行业大模型新型应用最佳实践分享研发模型结构 LEVEL 2 研发预训练模型 LEVEL 3 基于模型 SFT LEVEL 4 直接调用 大模型产业生态图 大模型产业链上的生态,根据大模型生态上不同企业的定位,分成了四个等级的企业: • 自研大模型结构的企 业 • 不用训练,直接调 用大模型 API 的企业 • 研发预训练模型的企业 • 基于自己数据 基于自己数据 SFT 做自己模型的企业 • 基于开源或者基于国内预训练模型结 合自己数据进行微调的企业 …… …… …… …… 国外头部 国内大厂 国内创业明星 国内外大模型百花 齐放 全球开源社区 DeepSeek 是“深度求索 ” 开发的一系列人工智能模型。 DeepSeek-V3 是在 14.8 万亿高质量 token 上完成预训练的一个强大的混合专家 (MoE) 语言模型,拥有 6710 亿参数(激活参数 370 亿)。作为通用大语言模型,其在 在知识类任 务(知识问答、内容生成等)领域表现出色。 ● DeepSeek-R1 是基于 DeepSeek-V3-Base 训练生成的强化推理能力模型,在数学、 代 码生成和逻辑推断等复杂推理任务上表现优异。10 积分 | 28 页 | 5.00 MB | 6 月前3
某高校智算中心解决方案(41页 PPT)研合作和创新的全面智算服务体系。 统一 运维 集成统一的运维管理体系 ,实现对硬 件资源、 计算平台、 软件应用及 AI 大 模型服务的高效监控、 自动化运 维 统一 服务 建立人工智能训练等科研及教学专用 平台 , 为科研人员及学生、 教师提 供 高效、 便捷的科研工具和环境 智算基础设施(计算、 网络、存储、配套) 优化校内资源配置 ,提升智算服务的内 部 效率与满意度 ,促进教学科研活动的顺 基于“开放标准、集约高效、 自主可控”的设计 原则 ,对硬件、平台、应用多厂商兼容适配 ,支 持国产化 多场景适配 训练 - 部署 - 推理一站式服务 ,可用于监视、侦察、 威胁评估、网络安全、情报分析、教育和训练等 场景 高效可靠的 AI 算力 资源按需分配 ,提升资源利用效率 推理服务可下沉边端 ,适应军事场景需求 教务、 教务、 教 学 、 教 研 、 教 管 、 教服、 校 园 、 宿 舍 、 食 堂 异构算力适配 模型管理 模型训练 模型开发 算法引擎 服务管理 服务发布 预置能力 固件管理 智能 开放 OP YTr orch 便捷 公共 算力 架构分层解耦 ,硬件、平台、应用多品牌兼容扩40 积分 | 41 页 | 9.91 MB | 5 月前3
共 266 条
- 1
- 2
- 3
- 4
- 5
- 6
- 27
