电子行业AI+系列专题:边缘AI,大语言模型的终端部署,推动新一轮终端需求-20230531-国信证券-25页资料来源:ChatGPT,Google,国信证券经济研究所整理 大模型训练对硬件的挑战:算力、内存和通信 内存方面,大模型训练的内存可以大致理解为参数、优化器状态、激活、梯度四 部分的和。它们大致分为两类:静态内存和动态内存。参数、优化器状态较为固 定,属于静态内存,激活和梯度等中间变量属于动态内存,是最主要的内存占用 原因,动态内存通常是静态内存的数倍。 图9:静态内存 图10:动态内存 资料来源:知乎,国信证券经济研究所整理 2 个字节,参数和优化器状态合计占用内存 1635G。而动态内存,根据不同的批量大小、并行技术等结果相差较大,通常是静 态内存的数倍。更简洁的估算方法,可以假设典型的 LLM 训练中,优化器状态、 梯度和参数所需的内存为 20N 字节,其中 N 是模型参数数量,则 1750 亿参数的 GPT3 大概需要 3.2TB 内存。 推理所需内存则较小,假设以 FP16 存储,175B 参数的 GPT3 推理大约需要内存 80G A100,如果以 FP32 运算,则需要 10 张。 请务必阅读正文之后的免责声明及其项下所有内容 证券研究报告 9 表2:大语言模型的计算 公式 注释 模型参数 优化器内存 梯度内存 激活重计算 模型训练内存 需求 模型推理内存 需求 资料来源:Eleutherai,国信证券经济研究所整理 图11:模型大小与设备内存的增长示意图 资料来源:NVIDIA,国信证券经济研究所整理10 积分 | 25 页 | 2.20 MB | 10 月前3
“十五五”时期我国制造业发展形势研判及思路建议CCID CCID CCID CCID CCID CCID CCID CCID C 8 政策和行动计划,推动构建产业、科技、金融、人才高水平 循环的集群产业生态。二是有序推动产业梯度转移。按照市 场导向、政府引导、自愿合作方式,引导劳动密集型产业重 点向中西部劳动力丰富地区转移,促进技术密集型产业向中 西部和东北地区中心城市转移。三是建设产业大后方。以备 战备灾谋复兴为方向,以事关国家经济稳定、产业安全、民20 积分 | 9 页 | 329.18 KB | 4 月前3
人机对话技术及动态(57页PPT)(2015) ACL benbe n Wh o 27 a m I 更好地建模多轮对话历史的语义 • 动机:利用 Attention 获取多轮对话历史语义信息, 避免循环式 神 经网络的梯度衰减问题 Wei-Nan Zhang, Yiming Cui,Yifa Wang, Qingfu Zhu, Lingzhi Li, Lianqiang Zhou, Ting Liu. Context-Sensitive20 积分 | 56 页 | 4.34 MB | 4 月前3
2025年超节点发展报告-华为&中国信通院“规模定律”不断演进,从预训练扩展到覆盖预训练、后训练、逻辑推理的全流程,其参数与集群 规模实现“双万” 跨越,行业模型落地需求专业化。 传统的服务器集群架构在这场变革中瓶颈愈发明显。千亿级模型一次梯度同步产生的 TB 级数据 让传统以太网带宽难以承受;同时,伴随算力规模扩大,万级处理器带来的故障常态化,对自动化 运维与 RAS 能力提出了更高要求。在这样的背景下,超节点的出现成为了面向大模型未来发展的必 器的范围时,会产生大量且不可避免的跨节点网络通信。因此在这一阶段,跨服务器节点的通信带 宽成为决定整体训练效率的核心瓶颈。 正是这种瓶颈的演变,最终凸显了传统服务器集群架构面临的三重系统性挑战。首先是通信墙, 千亿级模型一次梯度同步即 TB 级数据,传统以太网难以承受。其次是功耗与散热墙,为破通信墙 而提升密度,促使液冷、48V 供电成为标配。第三是复杂度墙:万级处理器带来故障常态化,从业 界模型 GPT-3 (175B)20 积分 | 31 页 | 4.79 MB | 4 月前3
Deepseek在药企研发领域的本地化部署和应用场景考虑最小生物效应水平,建议最低剂量为 0.5 mg/kg 7 。 安全性与有效性平衡 · 啮齿类试验: · 急性毒性:最高剂量建议为 100 mg/kg ( 参考 RPT193 的耐受性数据 )1 . 重复始药:设置梯度剂量 (5 、 15 、 50 mg/kg), 重点关注 50 mg/kg 组的肝肾功能变化 910 . 非啮齿类试验: A 临床前毒理试验设计 于 多 物 种 模 型 ( 小 鼠 、 大 鼠 、 犬 、 食 蟹 猴 ) 开 展 , 推 荐 剂 量 设 计 如 下: · 啮齿类: 急性毒性试验最高剂量 100 mg/kg, 重复给药试验梯度剂量 5-50 mg/kg; · 非 啮齿 类:长 期毒 性 试验 剂量 2-2 0mg/kg; ● 临床起始剂量: 0.29 mg/kg(NOAEL 法 ) 或 0.5 mg/kg(MABEL10 积分 | 33 页 | 2.29 MB | 10 月前3
未来网络发展大会:2025分布式算力感知与调度技术白皮书在联合推理模式下,患者原始影像块仅在本地进行 DICOM 去标识和压 缩编码,随后通过加密隧道传输特征张量至云推理服务器;对联邦学 习而言,GPU 工作站根据本地标签数据训练梯度,调度器按“通信带 宽×梯度稀疏度”优化同步顺序,确保大规模医院联盟在不共享原始 影像的前提下快速收敛。区块链-可信执行环境用于记录任务调度日 志、模型版本与推理结果,保障诊断过程的全链路可追溯与不可篡改。 语料,并执行庞大的矩阵运算,对 GPU/TPU 的浮点性能、显存容量以 及存储带宽形成高压。大规模生成式模型的训练与推理对算力提出了 “高并行度、长持续、高带宽”三重要求:训练阶段需要数百到上千 颗 GPU 进行同步梯度聚合,推理阶段则要在全球多地为 API 调用提供 快速响应,同时保证模型权重版本一致。因此,分布式算力感知与调 度能够在大模型分布式训推场景中得到广泛应用。 分布式算力感知与调度首先利用资源探针实时采集各数据中心20 积分 | 73 页 | 2.15 MB | 4 月前3
大模型时代的AI教育:思考与实践2024任务:判别、预测,通过学习数据分布规律 2. 边界:有规律、可以数字化,属于经验科学 3. 要素:机器学习-深度学习 • 模型:神经网络模型(分层;单向) • 策略:损失函数定义 • 算法:反向传播+梯度下降 从感知智能到认知智能 1. 专用任务模型:NLP、CV、Gaming…… 2. 通用任务模型:AIGC • Diffusion、transformer ◼ 从NLU+NLG到LLM(大语言模型)10 积分 | 36 页 | 4.04 MB | 10 月前3
2026年我国数字经济发展形势展望、理 解力局限等瓶颈,加速在实际场景中落地,“数据+模型+场景”协同部 署将推动数字仿真设计、柔性生产线、精准供应链、人机协作智能体等 应用走向成熟示范,催生新企业新业态形成。三是数字产业集群梯度培 育将深入探索,在数字技术赋能下,“数据+技术”深度嵌入数字产业 集群活动,推动集群发展模式走向数据化共享、网络化协作、平台化运 营、链群化共治,京津冀、长三角、粤港澳大湾区等区域将布局形成一10 积分 | 17 页 | 5.71 MB | 1 月前3
未来网络发展大会:算力城域网白皮书(2025版)(4)收敛组网技术 在跨集群协同训练场景下,城域网络需要承载多个 AIDC 间的大 规模参数面数据并发同步。算力城域网需具备收敛组网能力,有效缓 解多 AIDC 协同训练时数据并发和突发对网络的影响:通过分层梯度 聚合算法重构集合通信流程,有效减少跨数据中心通信的算卡数量, 实现网络带宽的初步收敛;再采用“突发缓存+队列调度”的双重机 制,利用高速缓存吸收流量冲击,并通过优先级调度确保 GPU 控制20 积分 | 42 页 | 7.16 MB | 4 月前3
全国内部审计数智化转型发展研究报告不同规模单位中,开展审计数智化转型的单位占比 ...................... 11 图 6 各行业内部审计数智化成熟度三级分布及单位数量占比 .................. 13 图 7 不同梯度行业四维能力对比 .......................................... 14 图 8 不同规模单位四维能力对比 .......................... 对完善,数据资源积累和模型应用体系初见成效,新技术仅初步尝 试,占比约为 7.8%;其余高校、烟草、医院等行业处于不同程度的 起步期,在平台、数据、模型、AI 能力等方面能力单一,尚未形成 完整发展体系。 图 7 不同梯度行业四维能力对比 全国内部审计数智化转型发展研究报告(2025) 15 图 8 不同规模单位四维能力对比 由图 8 数据可见,单位人员规模同样是数智化能力建设的核心 决定因素。从“50 人20 积分 | 99 页 | 22.28 MB | 1 月前3
共 15 条
- 1
- 2
