【研究】大模型算力体系构建与关键技术分析
2.26 MB
8 页
4 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
����� ���� �0���� 大模型算力体系构建与关键技术分析 郭亮 王月 李洁 (中国信息通信研究院云计算与大数据研究所,北京 100191) 摘要:首先,对大模型工作原理和关键技术进行分析;其次,对大模型算力面临的计算、网络和存储挑战 进行解析,进一步研究了其在存储、高性能集合通信、网络和设施等方面的关键技术进展;再次,构建了 算存运协同建设、软硬件协同优化的大模型算力体系,明确大模型算力体系的算力、存力和运力三大关 键要素;最后,对大算力集群需求、端侧大模型发展、人工智能赋能新质生产力等发展趋势进行研判。 关键词:大语言模型;大模型算力体系;算存运协同 中图分类号:TP18;F49 文献标志码:A 引用格式:郭亮, 王月, 李洁 . 大模型算力体系构建与关键技术分析[J]. 信息通信技术与政策, 2025, 51(11):81-88. DOI:10. 12267/ j. issn. 2096-5931. 2025. 11. 012 0 引言 2017 年,谷歌发布 Transformer 模型,凭借自注意 力机制突破长序列数据处理瓶颈,推动模型并行化训 练和高效计算,使得人工智能( Artificial Intelligence, AI)领域迎来重大发展。 2018 年,基于 Transformer 的 GPT 和 BERT 等预训练模型问世,开启了自然语言处 理(Natural Language Processing,NLP) 的预训练时代, 并在 多 项 典 型 任 务 中 取 得 突 破 性 进 展。 2021 年, Vision Transformer、MAE 等模型将 Transformer 架构引 入计算机视觉领域,为 CV 大模型注入新活力。 2022 年,生成式 AI 取得重大突破,OpenAI 开发的 ChatGPT 通过监督微调(Supervised Fine-Tuning,SFT)和基于人 类反 馈 的 强 化 学 习 ( Reinforcement Learning from Human Feedback,RLHF)等技术,生成更自然、更符合 人类偏好的对话文本,同时期多模态模型融合进一步 深化,可实现文本、图像、音频等多种模态数据的统一 编码。 2025 年初,我国推出的 DeepSeek 系列模型凭借 混合专家模型( Mixture of Experts,MoE) 结合思维链 构建、多并行策略等优化方法,显著降低训练成本,其 开源性质加速了 AI 应用的普及化。 在 AI 快 速 发 展 的 背 景 下, 大 语 言 模 型 ( Large Language Model,LLM) 始终处于核心地位,其不仅在 自然语言处理领域取得革命性进展,也通过多模态数据 融合与多种智能体结合的技术探索,不断拓宽能力边 界,为未来通用智能的发展提供强大动力和无限可能。 值得注意的是,如今 LLM 领域的蓬勃发展并非偶然,而 是各领域长期理论研究和应用创新迭代的产物,特别是 计算、网络和存储等相关领域的长期积累,为其提供了 必要的算力底座,支撑着其进行数以千亿模型参数训 练,并成为其技术发展和应用的首要前提。 虽然 LLM 持续增加预训练的数据量和模型参数仍符合缩放定 律 [1],但随着硬件集群的限制和成本的约束,模型参数 的增长已逐渐减缓,如何提升算力集群应用效率成为 当前推进 AI 发展必须面对的课题。 1 大模型工作范式 Transformer 是一种基于注意力机制提取数据特征 ·81· ���E�����0 的深度学习架构,由 Vaswani 等 [2] 人在 2017 年首次提 出。 Transformer 在 NLP 领域取得了突破性的进展,成 为当前许多先进模型的基础架构。 Transformer 架构以 经典的 Encoder-Decoder 架构为基础,通过在输入端引 入位置编码并采用多头自注意力机制和前馈神经网络 作为编码器,将输入序列转换为上下文表示,解码器则 利用编码器的输出生成目标序列。 1. 1 GPT 系列的预训练微调范式 业界广泛探索基于 Transformer 架构的大模型训 练范 式, 出 现 了 Only-Encoder 架 构 的 BERT、 Only- Decoder 架构的 GPT 系列,以及 Encoder-Decoder 架构 的 T5 模型。 但由于 GPT 系列在 NLP 领域取得的空前 成就,Only-Decoder 成为了当前大语言模型的主流框架, OpenAI 公司的模型训练模式也成为业界的训练范式。 GPT 系列模型采用预训练、监督微调和基于人类 反馈的强化学习 3 个阶段的训练模式。 预训练阶段, 模型使用大量文本学习语言结构和模式,通过预测下 一个词捕捉长距离依赖并生成连贯文本;监督微调阶 段,模型使用特定任务数据进行优化,以更好地理解和 生成相关文本;强化学习阶段,模型通过人类标注对回 答排序生成奖励模型,再用强化学习算法进行微调,使 模型生成文本更符合人类偏好 [3-5]。 1. 2 DeepSeek 的知识蒸馏训练范式 2025 年 1 月,DeepSeek 发布开源推理模型 DeepSeek- R1,其性能与 OpenAI 的 o1 正式版持平,标志着中国在 AI 领域的一次重大探索和成功。 DeepSeek 通过开源策略, 显著降低了 AI 技术的使用门槛,推动了 AI 技术的普及。 与 GPT 系列的训练范式不同,DeepSeek 强调从预 训练到强化学习知识蒸馏的过程。 预训练阶段,模型 通过大量文本数据学习语言结构,捕捉长距离依赖;指 令调优与强化学习阶段,模型理解指令格式并优化输 出;知识蒸馏阶段,模型将大型教师模型的知识迁移到 较小的学生模型中,通过教师模型生成高质量推理数 据,小模型模仿学习,优化训 练 以 接 近 教 师 模 型 性 能 [6]。 这种技术路线使 DeepSeek 在保持较低算力需 求的同时,实现高效的模型训练和推理。 2 大模型关键技术 2. 1 并行训练 随着 AI 的快速发展,模型的规模不断增大,参数 量从百万级增长到万亿级。 这种趋势带来了巨大的计 算和内存挑战,单一图形处理器( Graphics Processing Unit,GPU)的性能已无法满足大参数量 LLM 训练的 需求,分布式并行训练技术成为关键。 主要的并行训 练策略包括数据并行、模型并行、专家并行、序列并行 等。 这些并行训练技术各有优势和适用场景,通过合 理选择和组合,可以有效提高大模型训练的效率和扩 展性。 2. 2 Prompt 工程 Prompt 工程是指通过精心设计提示,引导大型语 言模型生成更准确、更相关、更符合需求的输出。 随着 LLM 在自然语言处理和计算机视觉等领域的广泛应 用, Prompt 工 程 成 为 优 化 模 型 性 能 的 重 要 手 段。 Prompt 工程技术有多种特点和适用场景,通过合理选 择和组合,可以显著提高大型语言模型的性能和输出 质量。 在实际应用中,Prompt 工程是一个迭代的过程, 需根据具体任务和目标进行不断的测试和优化。 2. 3 知识库检索 大模型知识库是将大型语言模型与知识管理相结 合的系统,旨在通过高效的知识获取、处理和检索,提 升模型在特定领域的性能和准确性,目前已经成为了 企业智能化升级的核心基础设施。 大模型知识库的技 术背景根植于大数据处理、自然语言处理及深度学习 技术的飞速发展。 其构建流程涵盖从文档、网页、数据 库等数据源采集数据,利用自然语言处理技术将数据 转化为结构化知识,并依托向量数据库实现高精度的 语义检索与推荐。 在架构方面,大模型知识库通过知 识价值密度评估和知识热力分析优化知识处理策略, 确保资源高效利用。 2. 4 Agent 工具 Agent 作为拓宽大模型能力边界的关键技术,赋 予了 大 模 型 更 强 的 工 具 调 用 与 任 务 执 行 能 力。 Toolformer [7]作为这一领域的开创性研究,为 Agent 技 术的 发 展 提 供 了 重 要 的 理 论 基 础 和 实 践 方 向。 Toolformer 通过自监督学习让大型语言模型自主调用 外部工具,克服了模型在算术运算和事实查找等基础 功能上的不足。 其核心在于通过应用程序编程接口 (Application Programming Interface,API) 让模型学习 使用外部工具,技术实现包括将 API 调用表示为元组、 构建自监督数据集以及对模型进行微调。 其优势在于 ·82· ����� ���� �0���� 自监督学习减少了人工标注成本,同时保留了模型的 核心语言建模能力,具有很强的通用性,为当前大模型 Agent 的发展奠定了技术基础。 3 大模型算力面临的挑战 大模型的关键组成是算力、算法和算据,而大模型 算力的关键组成是算力、存力和运力。 通用算力发展 逾十年,形成了完整的体系架构和技术特征。 而大模 型算力与传统通用算力在行业认知、计算效率、存储读 写和网络技术等各方面都不尽相同。 3. 1 计算效率待提升 在大模型训练中,分布式并行训练以及大规模数 据交互产生的通信开销和同步问题对训练效率产生很 大影响。 高性能计算资源无法完全发挥自身性能。 GPU 如 A100、H100 等提供了强大的计算能力,但在实际的 大模型训练中,这些硬件的利用率往往远低于其理论 峰值。 在 H100/ H800 GPU 集群中,模型算力利用率 (Model Flops Utilization,MFU) 往往不超过 50% [8]。 随着模型规模和 GPU 数量的增加,节点间的数据同步 需求急剧上升,尤其是梯度汇总等操作导致网络通信 开销过大,成为并行效率提升的主要瓶颈 [9]。 大模型 训练集群的稳定性也是影响计算效率的关键因素,大 规模训练任务持续时间长,参与计算设备众多,集群故 障成为模型预训练过程中的常态。 故障不仅影响单服 务器作业,在梯度同步的过程中可能拖慢数万个 GPU 的整个集群训练作业 [10]。 3. 2 存储读写与带宽瓶颈 随着大模型参数和数据集规模的快速增长,存储 系统面临海量数据的存储与读写需求、存储系统的性 能瓶颈以及检查点(Checkpoint,CKPT) 快速读写三大 挑战。 数据存储容量需求随着模型规模的增加而急剧上 升,大模型训练除了需要处理庞大的训练数据集之外 还包括模型参数、激活函数和优化器状态等临时数据 的存储与计算,这些数据对存储系统性能和容量需求 很高。 频繁的数据同步需要存储系统具备很高的读写 性能与传输带宽。 例如,Meta 公司 Llama 3. 1 405B 模 型训练的存储系统需要支持 2 TB/ s 持续读写带宽,在 爆发式读写操作时,读写带宽可提升至 7 TB/ s [11]。 这 种高带宽需求对分布式存储系统的读写性能提出了巨 大挑战。 为有效应对集群故障问题,将模型训练的中 间过程作为 CKPT 进行异步保存是目前广泛应用的训 练策略。 不同于训练数据,CKPT 数据带有明显的碎 片化和稀疏性特征,为尽可能不影响训练效率,在保存 CKPT 的过程需要将模型状态数据快速写入存储系 统,一旦系统发生故障,在故 障 修 复 之 后 也 需 要 将 CKPT 快速读取。 但稀疏性的 CKPT 数据特点显著降 低了存储系统利用率,同时也对存储空间高效管理提 出了挑战。 3. 3 信息丢失与流量极化 随着模型规模的扩大和分布式并行训练的普及, 信息丢失问题愈发突出,也成为大模型训练的关键挑 战之一。 网络丢包增加了重传开销,严重影响数据同 步 和 模 型 收 敛, 根 据 IEEE 802 Nendica Report: Intelligent Lossless Data Center Networks,0. 1% 的网络 丢包率即可导致算力损失高达 50%。 网络拥塞是信息 丢失和时延增加的主要原因,大模型训练中动态时延 对效率的影响尤为明显,根据有关实验仿真结果,网络 时延每增加 1 ms,计算效率会快速下降。 在大模型训 练中,产生的突发性、周期性流量峰值巨大,较易超过 网络链路容量,引发网络拥塞。 传统三层算内网络架 构使得大流量的转发需要经过多次哈希,这种“级联” 哈希效果很可能导致更严重的负载均衡问题,即哈希 极化,加剧网络拥塞。 4 大模型算力关键技术 4. 1 存储 为适应大模型训练与应用的复杂需求,存力需具 备 更 高 的 每 秒 处 理 读 写 操 作 次 数 ( Input / Output Operations Per Second,IOPS)性能,包括更高的数据预 处理效率、更快的海量小文件读取速度、更强的大文件 大带宽读写性能等。 数据预处理环节普遍占据大模型 训练过程 30%以上的时间,因此对数据清洗、去重、预 处理以及训练过程中的 CKPT 读取流程的优化对于缩 短训练周期、提升训练效率至关重要 [12]。 4. 1. 1 高性能存储系统 当前普遍的大模型训练容错方案依赖周期性保存 CKPT,但当模型参数达百亿或千亿级别时,周期性保 存 CKPT 不但会中断训练进程,而且会占用大量时间。 ·83· ���E�����0 为解决这一问题,可通过 CKPT 多级存储,构建基于高 IOPS 性能的内存介质存储系统,支持快速读取 CKPT 数据以实现断点续训。 然而,传统存储技术难以支持 大规模并行访问。 例如,在 10 万卡规模集群下,CKPT 的 IOPS 需求可达千万级别。 针对此问题,可通过混合 输入输出负载的高性能读写能力,显著提升训练数据 加载性能,并通过并行大带宽和高 IOPS,支持模型 CKPT 数据的快速读写,满足 CKPT 粒度变大时的效 率需求。 4. 1. 2 并行文件系统 并行文件系统用于满足 AI 训练中海量数据和高 并发访问的需求,采用数据与控制计算单元分离架构, 支持独立扩展,可优化数据调度与访问均衡,突破传统 架构瓶颈。 并行文件系统的具体技术手段包括高性能 存储介质与架构优化、数据调度与负载均衡策略、弹性 扩展与容错机制。 其中,高性能存储介质与架构优化 采用全固态硬盘(Solid State Drives,SSD)和分布式存 储架构,可支持大规模数据并行访问,结合硬件配置和 网络协议优化实现高 IOPS 和低延迟的性能提升。 数 据调度与负载均衡策略根据数据访问热度和节点状态 动态调整数据分布,通过对下一任务时刻数据调用的 预测,提前将待调用数据存放至高速缓存区,在保证模 型训练效率的同时可优化资源利用率。 弹性扩展与容 错机制主要用于存储设备的横向扩展和自动故障切 换,在面临大规模数据存储需求时可保证在集群无感 的前提下扩充设备,同时在面临系统故障时可自动完 成数据跨设备迁移,保障数据高可用性。 4. 1. 3 DPC 加速 分布 式 并 行 客 户 端 ( Distributed Parallel Client, DPC)作为运行在计算节点上的存储客户端,通过网络 协议与存储节点进行数据交换,不同于传统方案中计 算节点通过单客户端只能连接一个存储节点的访问方 式,该方法可实现单客户端连接多个存储节点,通过兼 容标准 POSIX 语义和 MPI-IO 语义提供并行接口以及 智能数据缓存策略,大幅提升并发访问能力,实现在 AI 训练过程中中间结果数据、CKPT 数据的高吞吐、低 时延读写,减少因存储设备自身输入输出性能瓶颈导 致的 GPU 等待。 4. 2 集合通信 大模型训练通常会将样本分配至多个加速节点进 行并行计算,每次迭代后需同步梯度数据。 大规模集 群中数据同步耗时较长,成为性能瓶颈。 为此,可引入 集合通信技术以实现高效的节点间信息交换,显著提 升同步效率。 4. 2. 1 集合通信算法及流程 集合通信技术为智算集群提供单机多卡和多机多 卡通信策略,可根据具体的集群拓扑结构自动选择合 适算法。 在服务器内部的多卡通信场景,通常采用全 网状互联拓扑结构,基于网格(Mesh)算法实现高效点 对点通信。 在服务器之间的多机多卡通信场景,支持 Halving-Doubling ( HD )、 Ring 和 非 均 衡 的 层 次 环 (Nonuniform Hierarchical Ring,NHR) 等多种算法,AI 芯片通过并发使用多路链路,充分利用双向带宽,显著 提升服务器间通信效率。 4. 2. 2 计算通信统一硬化调度 通过最大化反向计算与梯度聚合通信的并行度, 实现计算与通信任务的全硬化调度。 借助专用硬件调 度引擎和硬件通信原语,实现计算与通信任务在硬件 层面无缝衔接,精准控制系统抖动,显著降低调度开 销,优化硬件资源利用率。 在高性能并发方面,通过随路方式重点优化“ 归 约”类集合通信操作,将计算与通信任务并发执行,大 幅降低系统总执行时长,进而提升大规模分布式并行 训练效率。 同时为应对适应不同硬件架构和训练场 景,在软硬件层面需采取优化手段,硬件层面优化专用 调度引擎设计,减少任务调度延迟;软件层面改进通信 原语实现方式,提升通信任务执行效率。 4. 3 网络 大模型通过模型并行、流水线并行等方式切分到 AI 集群的各个机器,但不管用什么样的方式,切分后 仍需网络对分布在不同机器的参数进行总体聚合,机 间互联便成了主要的性能瓶颈。 从通信方式的角度来 看,参数聚合会对网络提出很多需求,例如对模型局部 变量进行更新等。 由于专用的 AI 加速芯片中内存与 计算单元的高带宽存储器( High Bandwidth Memory, HBM)等片内带宽很大,计算速度很快,但是在集群中 的网络传输速度远远不能匹配专用的 AI 加速芯片运 算速率,卡间互联就成了一个重要的研究方向。 机间互联主要以基于远程直接内存访问(Remote Direct Memory Access,RDMA)的 IB、RoCE 技术为主, ·84· ����� ���� �0���� 是设备间高速互联技术的典型代表 [13]。 其中,RoCE 是一种基于以太网的 RDMA 方案,通过构建无损网络 可有效保障 RoCE 协议在数据传输过程中能够实现可 靠传输 [14],逐渐成为业界主流。 卡间互联以 NVLink、 HCCL 技术为主,美国头部企业联合成立了 UALink 联 盟进行该技术的标准制定工作。 开放数据中心委员会 (Open Da
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
6 页请下载阅读 -
文档评分


联想算力基础设施非凡箓-AI大模型算力解决方案手册
【深度报告】DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求