湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书网络带宽瓶颈 当前,大模型训练通常依赖数千张 GPU 卡协同工作数周甚至数月, 训练效率瓶颈并不仅仅取决于单 GPU 的算力,也受到 GPU 集群间通 信效率的影响。GPU 间需进行频繁的梯度同步、参数更新、状态同 步等集合通信操作,这些数据传递操作在服务器机内和机间均存在, 且随着模型参数量的逐步提升,所传递的数据量也会不断增加。因此 网络带宽越高,网络通信延迟在训练周期中占据的时间越短,也就能 AllReduce 集合通信数据量可达数百 GB 级别,如此庞大的数据量在 极短的时间内需要完成传输与同步,对网络带宽提出了极高的要求。 下表展示了不同模型规模单次梯度同步数据量的大小。 模型规模 典型 GPU 数 量 单次梯度同步数 据量 通信敏感度 十亿参数 数十卡 10GB 至 50GB 中等 千亿参数 数百至千卡 300GB 至 800GB 高 万亿参数 数千至万卡 大于 将数十至数百个波长解复用到单根输出光纤,而 MEMS 光交换机通 过可旋转镜面结构,以线性成本增加端口,显著降低了扩展难度。超 高端口密度可支持数千 GPU/算力节点互联,避免因端口不足导致的 通信拥塞,保证梯度同步与参数服务器访问的高并发吞吐,为智算需 求提供充足规模。以 400 GbE 为基准,一台 320×320 MEMS 光交换 机能同时提供理论上无限的交换容量与 320 个 400G 端口,而要用20 积分 | 53 页 | 1.71 MB | 4 月前3
上海科学智能研究院:2025年科学智能白皮书生态系统动态模拟 跨尺度建模 模型可解释性 物理约束 数据增强 图像处理 随机森林 模型分割 边缘智能 分布式学习 大语言模型 联邦学习 边缘计算 混合精度算法 随机梯度下降方法 泛化能力 策略优化 图神经网络 生成模型 扩散模型 因果推断 循环神经网络 启发式算法 非凸优化 强化学习 人工智能辅助临床决策 模型压缩 演化模拟 多模态大模型 2019 2020 2021 2022 2023 2024 强化学习 生成模型 图神经网络 循环神经 网络 科学计算 函数空间 非凸优化 启发式算法 扩散模型 策略优化 反问题 随机梯度 下降方法 数值模拟 因果推断 泛化能力 混合精 度算法 图3|数学领域AI出版物总量、国家趋势(单位:千篇)与关键词词云(2015-2024) ©️Constantine Johnny 和聚合过程可通过图论和图拉普拉斯算子的 谱分析来解释;将深度学习模型视作动力系 统,通过微分方程和稳定性理论分析循环神 经网络(RNN)的隐藏状态演化,不仅揭示 其长序列稳定性,也预示激活函数选择不当 时可能引起的梯度消失风险;动力系统中的 平衡点、吸引子和分岔理论进一步为神经网 络训练过程中的动态行为提供理论支撑,指 导更稳定高效的算法设计。 在人工智能模型设计方面,数学理论 指导着网络结构设计、学习范式等。例如,20 积分 | 29 页 | 2.74 MB | 9 月前3
2025年云计算研究白皮书-中国电信以上代表性工作验证了在交换芯片中执行聚合类操作的可行性。 • 资源管理优化:华为提出了 NetReduce [254],复用 RoCE 控制 面以降低交换机协同开销;中科大提出 GOAT[255] 通过跨交换 机的梯度分区提升内存与带宽利用率 ;清华大学的研究 INAl- loc [256] 和香港科技大学的研究 DSA [257] 通过动态和抢占式内 存管理提升资源效率。以上代表性工作缓解交换芯片内存受限、 术可行性验证:iSwitch [250] 采用 FPGA 构建可编程数据平面,将聚合能力拓展至强化学习等细粒度场景, 展现了在网计算的潜力;SwitchML [251] 在可编程交换机流水线中实现梯度累加,证明了无需修改主机 协议栈即可显著降低网络负载与延迟;ATP [252] 面向多租户环境,通过片段化内存共享与基于 ACK 的 反馈机制,首次系统化验证了复杂集群环境下在网聚合的可行性与效能。产业界也正在推进规模化落地, 统鲁棒性提升。NetReduce [254] 通过将聚合操作与 RoCE 协议深度集成,复用现有网络的可靠传输机制,降低了对交换芯片协议处理能力的要求。GOAT [255] 设 计了多交换机间的梯度分区与调度策略,在异步到达场景下实现负载均衡与内存协同,提升了跨设备聚 合效率。针对内存资源利用,INAlloc [256] 将交换机内存抽象为可动态分配的资源池,并引入一致性更 新协议以支持任务运行中的平滑迁移;DSA10 积分 | 140 页 | 11.65 MB | 1 月前3
2025数字孪生视觉语言白皮书-易知微建“万变不离其宗”的视觉工程,让数字孪生具备专属的“语法体系”,像积木一样组合 堆砌,像语言一样传递价值。 1. 风格指南 (1) 具体分类 1 科技感风格: 采用深色基底构建场景纵深,以高饱和色彩作为核心视觉基调,通过“渐变梯度控制 法则”塑造层次: 线性渐变(角度 0°- 45°)构建基础明暗关系; 径向渐变(中心透明度 0%→边缘 60%)聚焦视觉中心,配合光源逻辑强化立体感; 材质表现结合高亮描边 据本身。运用最基础的设 计原则,如对比、强调、留白等,构建纯净的视觉体验。 视觉焦点控制:剔除非必要装饰元素,保留对齐、留白等基础视觉语法; 元素抑制策略:禁用高密度投影、弥散光效、高梯度渐变; 结构化纯净框架:背景设计力求简洁纯净,数据模块严格遵循栅格,间距采用倍 数规范。 3 未来感/FUI 风格: FUI 风格是常见于科幻电影中的 UI 效果,最早被用于战斗机的抬头显示屏中。以深色 阅读,并且能够保持稳定清晰的识别度,对于未获得商业使用授权的字体需要谨慎使用。 在设计思考的过程中,选择一致的字体有助于保持整体视觉效果的统一性。尽量在整 个项目中将使用字体控制在 2-3 种,以及按照明确的梯度规范字号,避免视觉效果混乱。 另外,可以通过加粗关键信息来突出重点,帮助用户更快地理解信息之间的层级关系。 (2) 字号大小 数字孪生项目中展示数据的字号需要足够大,才能确保信息清晰可读。对于10 积分 | 119 页 | 15.89 MB | 4 月前3
面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)2 4.1 智算中心 智算中心内服务器与网络设备、网络设备与网络设备高速互联,重点承载 AI 推理与训练任务,对延迟和带宽要求高。AI 任务普遍需多台服务器并行计算,计 算期间需频繁交换大量梯度数据和模型参数,网络闪断或中断会影响计算效率。 服务器与网络设备、网络设备与网络设备之间普遍部署短距高速光模块互联 (���通道),为了尽量不损失带宽,每链路只支持降一条通道策略(带宽降低 1/0 积分 | 24 页 | 2.92 MB | 10 月前3
2025年云智算光互连发展报告-中国移动智能化程度持续提升,大模型参数量不断增长,模型 应用进入爆发式增长阶段,算力需求不断攀升,万卡乃至超十万卡 规模的 GPU 集群成为训练大模型的标配,同时,在大模型训练时, 海量 GPU 节点间需要持续、高速地同步数据和梯度,任何网络延迟 或带宽瓶颈都会导致昂贵的 GPU 空闲等待,大幅降低整体计算效率。 在今年混合专家模型流行之后,专家并行的加入还进一步提升了推 理场景节点之间的通信量。以 DeepSeek 为例,官方给出的多机多卡20 积分 | 32 页 | 2.80 MB | 5 月前3
2025数字孪生与智能算法白皮书压缩存储、六 面体网格拓扑优化、动态颜色映射算法及智能剖切引擎四大核心技术,实现了从 TB 级有 限元数据到交互式三维可视化的全链路突破。系统采用分层式颜色过渡策略确保科研人员 可量化分析应力梯度分布,通过法线动态计算与光照分离渲染兼顾真实感表达与数据反演 精度。目前该方案已在白鹤滩、乌东德等 300m 级特高坝工程中完成验证,支持 2000 万 单元模型的 60fps 实时渲染,位移解析精度达 Transformer 架构:基于自注意力机制,适用于长序列建模(如跨年度水文数据关 联分析)。 ③集成学习与模型融合 随机森林:通过多决策树投票提升泛化能力,适用于高噪声场景(如设备故障分 类)。 梯度提升树(XGBoost/LightGBM):迭代优化残差,在结构化数据竞赛中表现 优异(如用水需求预测)。 Stacking 策略:结合基模型输出训练元模型(如融合 CNN 与 LSTM 的洪水预警 基于点云渲染管线设计高度并行化的光栅化流程,相较 NeRF 实现百倍级渲染加速, 在 RTX 4090 平台达成 120fps 实时渲染性能; ③动态自适应机制: 引入可微分密度控制模块,通过梯度回传自动优化高斯基元的空间分布与各向异性参 数,在保持 8K 级视觉保真度的同时,将模型存储需求压缩至 MB 量级。 这项技术突破 不仅为 VR/AR、实时数字孪生等应用场景提供核心引擎,更开创了神经渲染与计算机图10 积分 | 180 页 | 16.97 MB | 10 月前3
全球计算联盟GCC:2025年异构算力协同白皮书3.2.1 统一集合通信库 面向异构算力协同场景中不同芯片通信库各异导致通信算法的实现和优化不具备通用 性与自适应性、通信机制不互通而不能产生“信息交流”的问题,造成大模型训推过程中参 数传输、梯度同步、中间数据交互阻塞,需要构建统一集合通信库支持异构芯片间通信原语 的转译。统一集合通信库提供统一通信算子接口层,屏蔽底层不同芯片中通信原语实现细节, 实现通信优化跨芯片、跨任务、跨规模的自适应优化能力。10 积分 | 31 页 | 1.21 MB | 4 月前3
数字中国十五五发展趋势白皮书-华信咨询强调要充分发挥国家级经开区的载体作用,印发《深化国家 级经济技术开发区改革创新以高水平开放引领高质量发展 工作方案》,支持中西部和东北地区国家级经开区、边(跨) 境经济合作区与东部地区共建产业园区、承接产业梯度转移 等,支持西部枢纽节点起步区内的国家级经开区承接“东数 西算”工程重点项目。十五五期间,中西部地区在算力、数 据、高端制造等数字产业的发展中将承担起更大的作用。 2. 实数融合应用进入规模推广期 区“传统转型, 数字升级”的产业梯次发展地图。发挥配套政策“精准滴灌” 功能,针对优势产业设立专项发展资金、绘制定向招商地图、 设置高效特色专业等,依托飞地园区等模式深化区域协同, 推动产业梯度转移及技术资源双向互补。 充分发挥大数据深度赋能作用,分类施策提升数实融合 水平。围绕农业、工业、商贸、物流等重点领域,鼓励龙头 企业丰富数据采集手段,协同上下游搭建可信数据空间,汇 聚生产10 积分 | 93 页 | 1.52 MB | 1 月前3
AI+HR黑科技秘笈-AI赋能人力资本智能化变革工作经历抽象为向量序列后,我们将数据喂给了双层LSTM。一般情形下,循环神经网络都能较 好的处理序列数据,但对于RNN结构来说,在序列过长之后很容易出现前期数据遗忘的问题,且 易发生梯度爆炸或者梯度消失,所以通常会选择带门控的循环神经网络,如LSTM、GRU等等, 这里我们选择了LSTM结构。序列建模经常会用到双向结构,但我们的序列信息属于一种时间序 列,如果选择双向结构,则会发生信20 积分 | 98 页 | 8.41 MB | 5 月前3
共 20 条
- 1
- 2
