【研究】大模型算力体系构建与关键技术分析

语言	格式	评分
中文（简体）	.pdf	3
概览
�� 0�� 大模型算力体系构建与关键技术分析郭亮王月李洁 (中国信息通信研究院云计算与大数据研究所,北京 100191) 摘要:首先,对大模型工作原理和关键技术进行分析;其次,对大模型算力面临的计算、网络和存储挑战进行解析,进一步研究了其在存储、高性能集合通信、网络和设施等方面的关键技术进展;再次,构建了算存运协同建设、软硬件协同优化的大模型算力体系,明确大模型算力体系的算力、存力和运力三大关键要素;最后,对大算力集群需求、端侧大模型发展、人工智能赋能新质生产力等发展趋势进行研判。关键词:大语言模型;大模型算力体系;算存运协同中图分类号:TP18;F49 文献标志码:A 引用格式:郭亮, 王月, 李洁 . 大模型算力体系构建与关键技术分析[J]. 信息通信技术与政策, 2025, 51(11):81-88. DOI:10. 12267/ j. issn. 2096-5931. 2025. 11. 012 0 引言 2017 年,谷歌发布 Transformer 模型,凭借自注意力机制突破长序列数据处理瓶颈,推动模型并行化训练和高效计算,使得人工智能( Artificial Intelligence, AI)领域迎来重大发展。 2018 年,基于 Transformer 的 GPT 和 BERT 等预训练模型问世,开启了自然语言处理(Natural Language Processing,NLP) 的预训练时代, 并在多项典型任务中取得突破性进展。 2021 年, Vision Transformer、MAE 等模型将 Transformer 架构引入计算机视觉领域,为 CV 大模型注入新活力。 2022 年,生成式 AI 取得重大突破,OpenAI 开发的 ChatGPT 通过监督微调(Supervised Fine-Tuning,SFT)和基于人类反馈的强化学习 ( Reinforcement Learning from Human Feedback,RLHF)等技术,生成更自然、更符合人类偏好的对话文本,同时期多模态模型融合进一步深化,可实现文本、图像、音频等多种模态数据的统一编码。 2025 年初,我国推出的 DeepSeek 系列模型凭借混合专家模型( Mixture of Experts,MoE) 结合思维链构建、多并行策略等优化方法,显著降低训练成本,其开源性质加速了 AI 应用的普及化。在 AI 快速发展的背景下, 大语言模型 ( Large Language Model,LLM) 始终处于核心地位,其不仅在自然语言处理领域取得革命性进展,也通过多模态数据融合与多种智能体结合的技术探索,不断拓宽能力边界,为未来通用智能的发展提供强大动力和无限可能。值得注意的是,如今 LLM 领域的蓬勃发展并非偶然,而是各领域长期理论研究和应用创新迭代的产物,特别是计算、网络和存储等相关领域的长期积累,为其提供了必要的算力底座,支撑着其进行数以千亿模型参数训练,并成为其技术发展和应用的首要前提。虽然 LLM 持续增加预训练的数据量和模型参数仍符合缩放定律 [1],但随着硬件集群的限制和成本的约束,模型参数的增长已逐渐减缓,如何提升算力集群应用效率成为当前推进 AI 发展必须面对的课题。 1 大模型工作范式 Transformer 是一种基于注意力机制提取数据特征 ·81· ��E��0 的深度学习架构,由 Vaswani 等 [2] 人在 2017 年首次提出。 Transformer 在 NLP 领域取得了突破性的进展,成为当前许多先进模型的基础架构。 Transformer 架构以经典的 Encoder-Decoder 架构为基础,通过在输入端引入位置编码并采用多头自注意力机制和前馈神经网络作为编码器,将输入序列转换为上下文表示,解码器则利用编码器的输出生成目标序列。 1. 1 GPT 系列的预训练微调范式业界广泛探索基于 Transformer 架构的大模型训练范式, 出现了 Only-Encoder 架构的 BERT、 Only- Decoder 架构的 GPT 系列,以及 Encoder-Decoder 架构的 T5 模型。但由于 GPT 系列在 NLP 领域取得的空前成就,Only-Decoder 成为了当前大语言模型的主流框架, OpenAI 公司的模型训练模式也成为业界的训练范式。 GPT 系列模型采用预训练、监督微调和基于人类反馈的强化学习 3 个阶段的训练模式。预训练阶段, 模型使用大量文本学习语言结构和模式,通过预测下一个词捕捉长距离依赖并生成连贯文本;监督微调阶段,模型使用特定任务数据进行优化,以更好地理解和生成相关文本;强化学习阶段,模型通过人类标注对回答排序生成奖励模型,再用强化学习算法进行微调,使模型生成文本更符合人类偏好 [3-5]。 1. 2 DeepSeek 的知识蒸馏训练范式 2025 年 1 月,DeepSeek 发布开源推理模型 DeepSeek- R1,其性能与 OpenAI 的 o1 正式版持平,标志着中国在 AI 领域的一次重大探索和成功。 DeepSeek 通过开源策略, 显著降低了 AI 技术的使用门槛,推动了 AI 技术的普及。与 GPT 系列的训练范式不同,DeepSeek 强调从预训练到强化学习知识蒸馏的过程。预训练阶段,模型通过大量文本数据学习语言结构,捕捉长距离依赖;指令调优与强化学习阶段,模型理解指令格式并优化输出;知识蒸馏阶段,模型将大型教师模型的知识迁移到较小的学生模型中,通过教师模型生成高质量推理数据,小模型模仿学习,优化训练以接近教师模型性能 [6]。这种技术路线使 DeepSeek 在保持较低算力需求的同时,实现高效的模型训练和推理。 2 大模型关键技术 2. 1 并行训练随着 AI 的快速发展,模型的规模不断增大,参数量从百万级增长到万亿级。这种趋势带来了巨大的计算和内存挑战,单一图形处理器( Graphics Processing Unit,GPU)的性能已无法满足大参数量 LLM 训练的需求,分布式并行训练技术成为关键。主要的并行训练策略包括数据并行、模型并行、专家并行、序列并行等。这些并行训练技术各有优势和适用场景,通过合理选择和组合,可以有效提高大模型训练的效率和扩展性。 2. 2 Prompt 工程 Prompt 工程是指通过精心设计提示,引导大型语言模型生成更准确、更相关、更符合需求的输出。随着 LLM 在自然语言处理和计算机视觉等领域的广泛应用, Prompt 工程成为优化模型性能的重要手段。 Prompt 工程技术有多种特点和适用场景,通过合理选择和组合,可以显著提高大型语言模型的性能和输出质量。在实际应用中,Prompt 工程是一个迭代的过程, 需根据具体任务和目标进行不断的测试和优化。 2. 3 知识库检索大模型知识库是将大型语言模型与知识管理相结合的系统,旨在通过高效的知识获取、处理和检索,提升模型在特定领域的性能和准确性,目前已经成为了企业智能化升级的核心基础设施。大模型知识库的技术背景根植于大数据处理、自然语言处理及深度学习技术的飞速发展。其构建流程涵盖从文档、网页、数据库等数据源采集数据,利用自然语言处理技术将数据转化为结构化知识,并依托向量数据库实现高精度的语义检索与推荐。在架构方面,大模型知识库通过知识价值密度评估和知识热力分析优化知识处理策略, 确保资源高效利用。 2. 4 Agent 工具 Agent 作为拓宽大模型能力边界的关键技术,赋予了大模型更强的工具调用与任务执行能力。 Toolformer [7]作为这一领域的开创性研究,为 Agent 技术的发展提供了重要的理论基础和实践方向。 Toolformer 通过自监督学习让大型语言模型自主调用外部工具,克服了模型在算术运算和事实查找等基础功能上的不足。其核心在于通过应用程序编程接口 (Application Programming Interface,API) 让模型学习使用外部工具,技术实现包括将 API 调用表示为元组、构建自监督数据集以及对模型进行微调。其优势在于 ·82· �� 0�� 自监督学习减少了人工标注成本,同时保留了模型的核心语言建模能力,具有很强的通用性,为当前大模型 Agent 的发展奠定了技术基础。 3 大模型算力面临的挑战大模型的关键组成是算力、算法和算据,而大模型算力的关键组成是算力、存力和运力。通用算力发展逾十年,形成了完整的体系架构和技术特征。而大模型算力与传统通用算力在行业认知、计算效率、存储读写和网络技术等各方面都不尽相同。 3. 1 计算效率待提升在大模型训练中,分布式并行训练以及大规模数据交互产生的通信开销和同步问题对训练效率产生很大影响。高性能计算资源无法完全发挥自身性能。 GPU 如 A100、H100 等提供了强大的计算能力,但在实际的大模型训练中,这些硬件的利用率往往远低于其理论峰值。在 H100/ H800 GPU 集群中,模型算力利用率 (Model Flops Utilization,MFU) 往往不超过 50% [8]。随着模型规模和 GPU 数量的增加,节点间的数据同步需求急剧上升,尤其是梯度汇总等操作导致网络通信开销过大,成为并行效率提升的主要瓶颈 [9]。大模型训练集群的稳定性也是影响计算效率的关键因素,大规模训练任务持续时间长,参与计算设备众多,集群故障成为模型预训练过程中的常态。故障不仅影响单服务器作业,在梯度同步的过程中可能拖慢数万个 GPU 的整个集群训练作业 [10]。 3. 2 存储读写与带宽瓶颈随着大模型参数和数据集规模的快速增长,存储系统面临海量数据的存储与读写需求、存储系统的性能瓶颈以及检查点(Checkpoint,CKPT) 快速读写三大挑战。数据存储容量需求随着模型规模的增加而急剧上升,大模型训练除了需要处理庞大的训练数据集之外还包括模型参数、激活函数和优化器状态等临时数据的存储与计算,这些数据对存储系统性能和容量需求很高。频繁的数据同步需要存储系统具备很高的读写性能与传输带宽。例如,Meta 公司 Llama 3. 1 405B 模型训练的存储系统需要支持 2 TB/ s 持续读写带宽,在爆发式读写操作时,读写带宽可提升至 7 TB/ s [11]。这种高带宽需求对分布式存储系统的读写性能提出了巨大挑战。为有效应对集群故障问题,将模型训练的中间过程作为 CKPT 进行异步保存是目前广泛应用的训练策略。不同于训练数据,CKPT 数据带有明显的碎片化和稀疏性特征,为尽可能不影响训练效率,在保存 CKPT 的过程需要将模型状态数据快速写入存储系统,一旦系统发生故障,在故障修复之后也需要将 CKPT 快速读取。但稀疏性的 CKPT 数据特点显著降低了存储系统利用率,同时也对存储空间高效管理提出了挑战。 3. 3 信息丢失与流量极化随着模型规模的扩大和分布式并行训练的普及, 信息丢失问题愈发突出,也成为大模型训练的关键挑战之一。网络丢包增加了重传开销,严重影响数据同步和模型收敛, 根据 IEEE 802 Nendica Report: Intelligent Lossless Data Center Networks,0. 1% 的网络丢包率即可导致算力损失高达 50%。网络拥塞是信息丢失和时延增加的主要原因,大模型训练中动态时延对效率的影响尤为明显,根据有关实验仿真结果,网络时延每增加 1 ms,计算效率会快速下降。在大模型训练中,产生的突发性、周期性流量峰值巨大,较易超过网络链路容量,引发网络拥塞。传统三层算内网络架构使得大流量的转发需要经过多次哈希,这种“级联” 哈希效果很可能导致更严重的负载均衡问题,即哈希极化,加剧网络拥塞。 4 大模型算力关键技术 4. 1 存储为适应大模型训练与应用的复杂需求,存力需具备更高的每秒处理读写操作次数 ( Input / Output Operations Per Second,IOPS)性能,包括更高的数据预处理效率、更快的海量小文件读取速度、更强的大文件大带宽读写性能等。数据预处理环节普遍占据大模型训练过程 30%以上的时间,因此对数据清洗、去重、预处理以及训练过程中的 CKPT 读取流程的优化对于缩短训练周期、提升训练效率至关重要 [12]。 4. 1. 1 高性能存储系统当前普遍的大模型训练容错方案依赖周期性保存 CKPT,但当模型参数达百亿或千亿级别时,周期性保存 CKPT 不但会中断训练进程,而且会占用大量时间。 ·83· ��E��0 为解决这一问题,可通过 CKPT 多级存储,构建基于高 IOPS 性能的内存介质存储系统,支持快速读取 CKPT 数据以实现断点续训。然而,传统存储技术难以支持大规模并行访问。例如,在 10 万卡规模集群下,CKPT 的 IOPS 需求可达千万级别。针对此问题,可通过混合输入输出负载的高性能读写能力,显著提升训练数据加载性能,并通过并行大带宽和高 IOPS,支持模型 CKPT 数据的快速读写,满足 CKPT 粒度变大时的效率需求。 4. 1. 2 并行文件系统并行文件系统用于满足 AI 训练中海量数据和高并发访问的需求,采用数据与控制计算单元分离架构, 支持独立扩展,可优化数据调度与访问均衡,突破传统架构瓶颈。并行文件系统的具体技术手段包括高性能存储介质与架构优化、数据调度与负载均衡策略、弹性扩展与容错机制。其中,高性能存储介质与架构优化采用全固态硬盘(Solid State Drives,SSD)和分布式存储架构,可支持大规模数据并行访问,结合硬件配置和网络协议优化实现高 IOPS 和低延迟的性能提升。数据调度与负载均衡策略根据数据访问热度和节点状态动态调整数据分布,通过对下一任务时刻数据调用的预测,提前将待调用数据存放至高速缓存区,在保证模型训练效率的同时可优化资源利用率。弹性扩展与容错机制主要用于存储设备的横向扩展和自动故障切换,在面临大规模数据存储需求时可保证在集群无感的前提下扩充设备,同时在面临系统故障时可自动完成数据跨设备迁移,保障数据高可用性。 4. 1. 3 DPC 加速分布式并行客户端 ( Distributed Parallel Client, DPC)作为运行在计算节点上的存储客户端,通过网络协议与存储节点进行数据交换,不同于传统方案中计算节点通过单客户端只能连接一个存储节点的访问方式,该方法可实现单客户端连接多个存储节点,通过兼容标准 POSIX 语义和 MPI-IO 语义提供并行接口以及智能数据缓存策略,大幅提升并发访问能力,实现在 AI 训练过程中中间结果数据、CKPT 数据的高吞吐、低时延读写,减少因存储设备自身输入输出性能瓶颈导致的 GPU 等待。 4. 2 集合通信大模型训练通常会将样本分配至多个加速节点进行并行计算,每次迭代后需同步梯度数据。大规模集群中数据同步耗时较长,成为性能瓶颈。为此,可引入集合通信技术以实现高效的节点间信息交换,显著提升同步效率。 4. 2. 1 集合通信算法及流程集合通信技术为智算集群提供单机多卡和多机多卡通信策略,可根据具体的集群拓扑结构自动选择合适算法。在服务器内部的多卡通信场景,通常采用全网状互联拓扑结构,基于网格(Mesh)算法实现高效点对点通信。在服务器之间的多机多卡通信场景,支持 Halving-Doubling ( HD )、 Ring 和非均衡的层次环 (Nonuniform Hierarchical Ring,NHR) 等多种算法,AI 芯片通过并发使用多路链路,充分利用双向带宽,显著提升服务器间通信效率。 4. 2. 2 计算通信统一硬化调度通过最大化反向计算与梯度聚合通信的并行度, 实现计算与通信任务的全硬化调度。借助专用硬件调度引擎和硬件通信原语,实现计算与通信任务在硬件层面无缝衔接,精准控制系统抖动,显著降低调度开销,优化硬件资源利用率。在高性能并发方面,通过随路方式重点优化“ 归约”类集合通信操作,将计算与通信任务并发执行,大幅降低系统总执行时长,进而提升大规模分布式并行训练效率。同时为应对适应不同硬件架构和训练场景,在软硬件层面需采取优化手段,硬件层面优化专用调度引擎设计,减少任务调度延迟;软件层面改进通信原语实现方式,提升通信任务执行效率。 4. 3 网络大模型通过模型并行、流水线并行等方式切分到 AI 集群的各个机器,但不管用什么样的方式,切分后仍需网络对分布在不同机器的参数进行总体聚合,机间互联便成了主要的性能瓶颈。从通信方式的角度来看,参数聚合会对网络提出很多需求,例如对模型局部变量进行更新等。由于专用的 AI 加速芯片中内存与计算单元的高带宽存储器( High Bandwidth Memory, HBM)等片内带宽很大,计算速度很快,但是在集群中的网络传输速度远远不能匹配专用的 AI 加速芯片运算速率,卡间互联就成了一个重要的研究方向。机间互联主要以基于远程直接内存访问(Remote Direct Memory Access,RDMA)的 IB、RoCE 技术为主, ·84· �� 0�� 是设备间高速互联技术的典型代表 [13]。其中,RoCE 是一种基于以太网的 RDMA 方案,通过构建无损网络可有效保障 RoCE 协议在数据传输过程中能够实现可靠传输 [14],逐渐成为业界主流。卡间互联以 NVLink、 HCCL 技术为主,美国头部企业联合成立了 UALink 联盟进行该技术的标准制定工作。开放数据中心委员会 (Open Da