智算中心成为新基建的基本条件与智慧时代动力源_王恩东
1.48 MB
7 页
0 下载
3 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
CIIT FORUM 工信论坛 44 中国工业和信息化 |CHINA INDUSTRY & INFORMATION TECHNOLOGY 智算中心成为新基建的基本条件 与智慧时代动力源 文/王恩东 计算力就是生产力,智慧计算改造升级了生产力三要素,最终 驱动了人类社会的转型升级。智慧计算将计算力驱动的信息化设备变 成了生产工具,使生产力得到前所未有的解放。智算中心融合多元算 力,为社会生产和生活提供源源不断的智慧服务。智算中心已成为经 济新动能、社会新基建。 新一代信息技术加速了社会智慧化进程 新一代信息技术在抗疫过程中发挥了巨大的作用, 使我们生活和工作的许多方面从线下搬到了线上。从早上 醒来第一眼去查看疫情数据、查看同乘同航是否有确诊, 到网课辅导、在线问诊、生鲜快递;从远程打卡、线上招 聘、线上会议到文档协同、工作提交;从线下到线上的迁 移,加速了社会的智慧进化,主要表现为以下三个方面: 首先是加速了经济活动的线上化变革。企业选择线上 办公,导致各种在线办公平台用户规 模指数级增长,其中钉钉平台超过 1000万家企业、2亿人协同办公;腾 讯会议系统上线仅两月,日活跃用户 就超过千万。学校选择线上教学,其 中钉钉平台超过14万所学校、1.2亿学 生在线上课;腾讯课堂有超过140万 老师,每天有2000万中小学生在腾 讯课堂上学习。工信部发布的数据显 示,2020年春节期间,移动互联网流 量270万TB,同比增长36%。经济活 王恩东 中国工程院院士 DOI:10.19609/j.cnki.cn10-1299/f.2020.04.006 工信论坛 45 | 2020 年 4 月刊 动的线上化变革,让大家在这个过程 中体验到了信息科技的价值和效率。 第二个明显的变化是社会服务 和社会治理更加高效智能。疫情期 间,运营商推出了“通信大数据行程 卡”,可以记录显示手机用户14天内 到访的地区。截至目前,累计查询量 已经超过了4.5亿;中国铁路提供了确 诊病例密接者查询服务。这些服务为 社会防疫防控提供了有力支持。 腾讯、阿里、浪潮提供的健康 码在山东、北京、广东等省市快速上 线,覆盖了绝大部分出行人口。可以 预想,健康码必将成为未来传染病防 控的必备手段。 最后是在工业生产方面。2019 年中国工业机器人装机量占全球的 36%,用于建设数字化车间和智能工 厂,成为全球最大的智能制造市场, 预计2020年中国智能制造市场规模将 超过2200亿元,智能制造升级将进一 步提速。 典型例子就是浪潮智能工厂。 整个生产制造过程弹性、透明、可追 溯,智能技术贯穿了生产制造的全周 期,实现相同的产能,用工数量下降 50%,生产效率提高3倍,订单交付 周期从18天缩短至5~7天。 利用智能工厂,浪潮保证了在 疫情期间快速复工复产。2月1日晚, 浪潮接到用于疫情防控的紧急订单。 2日一早,浪潮智能工厂复工,迅速投入生产,按客户要 求,及时交付到抗疫一线。如果是传统工厂,要在一天之 内复工生产,几乎是不可能的。仅仅一天内也不可能让几 百名工人回到工作岗位,更何况是在严格管控的疫情期 间。 看得见的是各种智慧服务,看不见的是新型的基础设 施。支撑智慧化转型的正是以云计算、大数据、人工智能 为核心的智慧计算。 智慧时代需要新型基础设施 疫情期间,腾讯和阿里每天都在扩充云计算资源,用 于支撑视频会议、在线办公等业务。百度地图则利用其每 天响应位置服务请求千亿次所产生的大数据,通过数据定 向、分析等途径助力流行病学调查。而浪潮的智能工厂里 各种智能设备以及背后的路径规划、图像识别等算法,也 是高效复工复产的必要条件。 我们见证了智慧计算是如何在这场战疫中发挥巨大作 用的。3月4日,中央决定对人工智能、大数据中心等新基 建提速,这也是在为智慧计算的发展提速。我们讲过,计 算力就是生产力,智慧计算改造升级了生产力三要素,最 终驱动了人类社会的转型升级。智慧计算将劳动者由人变 成了人与人工智能的复合体,劳动者可以呈现指数增长; 将数据变成了一种新的生产资料,从有形到无形,生生不 息,越用越多;将计算力驱动的信息化设备变成了生产工 具,也是指数增长,生产力得到了前所未有的解放。 伴随生产力的升级,社会基础设施也在产生变化。农 业时代的基础设施比较简单,就是水利、交通等;工业时 代,则是我们熟悉的“铁公机”、电网等;那么,智慧时 代必将需要新型的基础设施。 我们可以和电力基础设施做个类比。电力基础设施提 智算中心成为新基建的基本条件与智慧时代动力源 CIIT FORUM 工信论坛 46 中国工业和信息化 |CHINA INDUSTRY & INFORMATION TECHNOLOGY 供电力服务,其核心是生产电力的地方,就是发电厂,像 三峡电站、大亚湾核电站;智慧时代的新型基础设施,要 能够对外提供各种算力服务、数据服务和AI服务等,其核 心就是计算力的生产中心。 计算从最初的数值计算逐渐演变为科学计算、关键计 算和智慧计算。每种计算都有相应的计算力中心去支撑。 科学计算的算力中心是超算中心。承载当前企业应用、政 府应用和个人应用的算力中心是数量众多的各类数据中 心。当前,人工智能计算需求正呈指数级增长,未来将 占据80%以上的计算需求,承载这种需求的就是AI算力中 心,即智算中心。 智算中心成为新基建的三个基本条件 工业时代的电力生产需要电厂,计算力也需要强大 的生产供给中心,它就是智算中心。智算中心融合多元算 力,以开源架构计算系统为平台,以数据为生产资料,以 强大计算力驱动人工智能,为社会生产和生活提供源源不 断的智慧服务。 智算中心已成为经济新动能,社会新基建。 智算中心要成为新基建,必须满足以下三个基本条 件:开放标准、集约高效和普适普惠。 开放标准要求智算中心从硬件到软件、从芯片到架 构、从建设模式到应用服务都应该是开放的、标准的; 集约高效要求智算中心的建设要有超大规模,要采用 领先的技术,保证自身的先进性; 普适普惠则要求智算中心发挥基础设施的社会价值, 服务大众。 下面,具体分析这三个条件。 首先是开放标准。通过简单回顾开源开放的历史,可 以看到开放的边界越来越广阔。 从最初的操作系统、数据库、 中间件的开源,到云和大数据、算 法框架等基础软件的开源,再到以 以RISC-V为代表的芯片的开放,以 OCP、ODCC为代表的计算硬件的开 放。由软件到硬件,从芯片到数据中 心,开放变革了IT产业的生产模式和 应用服务模式,持续推动着信息技术 的发展,促进了整个IT产业的生态繁 荣。 开源开放的IT才是健康的IT,开 源开放的软硬件也才是智算中心建 设所需要的。浪潮作为三大开放计 算标准组织的发起会员和白金会员、 OpenStack开源社区的黄金会员,一 直是开源计算生态发展的推动者,一 直在积极地将开源开放的建设理念和 标准向全球推广,一直在大力推进开 放计算生态发展,所有的顶级互联网 数据中心已经在大规模的落地开放计 算服务器。同时通信、金融、能源 等关键领域的TOP企业,也纷纷加入 了开源组织,并在数据中心建设当 中加以实践,像OpenStack、K8S、 Hadoop、TensorFlow等面向云计 算、大数据、人工智能等场景的开源 技术软件,已经成为了智算中心软件 平台的实施标准,超过80%的企业都 在其数据中心应用了开源软件技术。 开放计算带来的好处是显而易 工信论坛 47 | 2020 年 4 月刊 见的,以浪潮的某个大型数据中心客 户为例,使用开放计算架构,能够节 约电力30%,系统故障率降低90%, 投资收益提高33%,并且运营效率提 升三倍以上,交付速度可以达到每天 一万台。模块化、标准化推动了智算 中心高质量发展。 大家知道,基础设施必然要以 规模效应来实现降本增效,要能够快 速地建设。这就要求智算中心的建 设,就像现在盖房子一样,通过采用 预生产的标准化、模块化的硬件来实 现装配式的建设。从标准化的节点单 元到标准化的整机柜,到标准化的微 模块数据中心,再到整个智算中心, 像热播节目一样,层层组装,快速建 设。作为基础设施,要求不同的智算 中心要能够互联互通,包括管理上的 互操作,统一的调度、分发、监控、 运维;业务上的互联接,包括网络打 通、业务迁移等;数据上的互流通, 实现容灾、数据共享等。 二是基础设施的超大规模要求智 算中心应该是集约高效的。首先智算 中心整体设计理念先进,技术上说融 合架构代表着数据中心体系结构的未 来发展方向。融合架构从1.0到2.0, 已经实现了存储资源和异步计算资源 的弹性组合。现在的融合架构正处于 3.0阶段,也就是通过连接池化和重 构技术,实现不同的计算资源的协同 能力。通过软件定义来实现业务自动 感知和资源自动重复,使计算的性能和效率大幅度提升。 在硬件层面,通过硬件重构来实现资源置换。CPU与GPU、 FPGA、xPU等各种加速器将更加紧密结合,利用全互联 NVSwitch、CXL、Open CAPI等新型超高速内外部互连技 术,实现异构计算芯片的融合;CPU之间可以通过池化融合 的方式来实现灵活组合,可以根据业务场景动态形成1路到 多路多种计算单元;异构存储介质,如NVMe、SSD、HDD 等则通过高速互连形成存储资源池。 在计算和存储资源池中,除了传统的CPU和GPU之外, 还可以运用更多新型的计算芯片、存储介质和互联技术, 进一步提升数据中心的处理能力。 例如,谷歌专为人工智能设计的芯片TPU。与GPU相 比,TPU采用低精度(8位)计算,以降低每步操作使用的 晶体管数量,是同代CPU或者GPU速度的15~30倍。同时, TPU还可以进行池化,实现了TPU之间的高速互联,也就是 TPU POD,并对外提供TPU算力服务。 存储方面,非易失内存DCPMM,既可以作为高速硬盘 使用,也可以作为标准的内存使用。当作为内存使用时, 其单条内存容量最大可以到512GB,使得推理作业密度提升 一倍,每单位作业成本下降近50%。 互连方面,异构芯片高速互连的技术CXL、open CAPI 等,实现了CPU和设备、设备和设备之间的内存共享,构建 高效池化的智算中心从理想照进了现实。 软件层面则通过软件定义,在可重构的硬件资源池基 础上,通过灵活的组织,将不同的资源池组成专业的服务 器、存储、网络系统,并实现资源的高效管理和调度以及 数据在池化资源的灵动流转。当AI与软件定义结合后,赋 予了软件定义更高级的含义。从业务上,实现了基于业务 特征感知的智能资源调度,让合适的资源在合适的位置去 执行合适的任务,就像我们说的让合适的人去干合适的事 智算中心成为新基建的基本条件与智慧时代动力源 CIIT FORUM 工信论坛 48 中国工业和信息化 |CHINA INDUSTRY & INFORMATION TECHNOLOGY 一样。从管理上,实现了智能化的运维,也就是智算中心 的无人巡检、故障自愈等。 软件定义的典型趋势是软硬件协同设计,由专用芯 片、FPGA处理更多的业务负载,由软件进行更智能化的 管理和调度。例如,基于FPGA和NVMe组成资源池,以 硬件辅助虚拟化的方式为虚拟机实例提供接近硬件性能的 计算、存储、网络功能,性能损失从传统软件模拟方式的 50%降低到1%左右,性价比提升25%~50%,相同条件下可 以百倍加速AI作业效率。 绿色节能则是一个永恒的话题,从传统的节点内风冷 到机柜级冷板式液冷,再到数据中心的浸没式液冷整体设 计,配合余热回收、相变储能等循环节能技术,可以实现 PUE接近于1的目标,打造高效清洁的绿色智算中心。 三是普适普惠。智算中心作为基础设施,要服务大 众,要提供算力服务,数据服务和各种智能服务,在支撑 智慧城市、智能制造、智能家居以及智能医疗等行业的智 慧化转型。 目前,行业用户的智慧化转型,仍然面临着巨大的 技术鸿沟。这个鸿沟既有如何选择最合适的算法模型,也 有如何从软硬件两个方面对算法做性能优化,更有如何面 向特定领域的智能算法进行高效敏捷的开发部署等诸多问 题。要填补这个鸿沟,就需要计算 中心提供整合的、易用的开放服务平 台。 基于智算中心先进的AI算力基 础平台、AI算力调度平台、AI算法模 型来打造人工智能开放服务平台,汇 聚并赋能行业AI应用的开发者,加速 开发各种各样的行业智慧应用,加速 行业AI化、加速产业AI化。智算中心 不管你看得见,还是看不见,他就在 那里源源不断地产生着智慧时代的动 力:计算力。 智算中心是智慧时代的动力源 对智算中心的需求是巨大的。浪 潮作为全球领先的智慧计算企业,将 以开放开源为原则,在智算中心IT基 础设施方面向更深、更广发展,形成 硬件重构的智算中心算力系统和软件 定义的智算中心操作系统。浪潮将与 各位伙伴一起,抓住机会,为客户提 AS13000-X,面向云化基础设施 Sk棚先的多橘块有点,业界小型化最好的分布式 AS13000-H,面向HPC和AI应用 领先的并行文件系统,业界最高的单劳点吞吐率 AS13000-P,面向高性能离可篇场景 独家支持Powers,业界最高的单节点计算力 AS13000- M,面向离性价比场景 高度差异化领先的4U60节点,业界最易用易部署 AS13000-C,面向国产芯片市场 FT2000+平台,业界性能最高的国产歴器节点 智算中心设施及应用 工信论坛 49 | 2020 年 4 月刊 供智算中心咨询规划、建设交付、应 用开发等服务,让智算中心更快地推 动社会智慧化转型。 在产品方面,浪潮在融合架构 技术路线的指引下,将持续巩固算力 系统、云数智软件平台层面的优势, 提供人工智能服务器、通用计算服务 器、关键计算服务器,并面向海量数 据和高速互联提供存储和交换机产 品。此外,将技术栈持续往底层延 伸,面向不同的场景,开发定制化的 AR芯片、BMC芯片、网络和存储加速 芯片等。最终形成覆盖芯片、系统、 平台和算法的领先产品体系。 过去几年,浪潮服务器取得了高 速发展,增速居全球第一,是全球唯 一持续保持高速增长的主流服务器厂 商。浪潮业务覆盖了全球120多个国 家和地区,不仅保持了全球前三的位 置,并且与前两名的占有率差距已大 幅度缩小,朝着全球第一的目标迈进 了一大步。 在AI服务器方面,浪潮已经连续 三年在国内市场占有率超过50%,保 持了智慧计算领导者的地位。 智算中心的两大发展方向是人工 智能和开放计算。 浪潮将高举人工智能计算的大 旗,全力发展领先的计算力。 首先是生产算力。浪潮将为智算 中心建设供给最领先的算力机组。浪潮拥有业内最强最全 的AI计算产品阵列:浪潮AGX-5是目前全球最高性能的AI 计算主机之一;AGX-2是目前单位空间内GPU计算密度最高 的服务器;FP5295可支持CPU和GPU间数据同步传输。浪潮 超大规模AI计算框架LMS,可实现单GPU超大算力支撑,支 持70亿参数的NLP智能语言模型训练,相比主流Bert模型参 数量提升20倍。 第 二 是 聚 合 算 力 。 在 训 练 方 面 , 浪 潮 优 化 了 TensorFLow框架,在全球首次实现在512个GPU卡上90%的 扩展效率,打破Imagenet训练时间全球最快纪录;在推理 方面,针对高并发推理集群进行架构优化,构建了高性能 的NVMe存储池,深度优化了软件栈,性能提升了3.5倍以 上。 第三是调度算力。浪潮AIStation 计算资源平台支持AI 训练和推理,可以提供AI模型开发和部署一站式交付,是 业界功能最全的AI管理平台,赋能更多的创新者。 最后是释放算力。浪潮自动机器学习平台AutoML Suite ,可自动建模、自动模型压缩、自动超参调整,降低 AI应用门槛,快速落地进化AI。同时,它还支持本地化和 云端部署,已被智慧城市、高铁等客户成功应用。 浪潮将引领开放计算体系,打造智算中心基石,构 建从模式开放到技术开放、从产品开放到服务开放的计 算体系。模式开放就是以客户场景为核心,与合作伙伴 一起联合规划、协同设计、敏捷研发、快速交付;技术 开放,无论是以液冷、循环利用为代表的冷却技术,还 是以RISC-V、FPGA、CXL、智能网卡等为代表的基础技 术,浪潮将一直坚持技术领先;产品开放以开放架构和开 源为指导,基于先进的开放硬件架构,模块化、标准化构 建MDC,并引领其发展方向。基于先进的开源软件,打造 标准、高效、敏捷的智算中心基础软件平台和统一管理平 台,并最终形成开放的云数智一体化服务。 智算中心成为新基建的基本条件与智慧时代动力源 CIIT FORUM 工信论坛 50 中国工业和信息化 |CHINA INDUSTRY & INFORMATION TECHNOLOGY 责任编辑:孟繁科 mengfanke@ccidmedia.com 浪潮多年来一直践行开放计算的理念,引领开放计算 的标准,牵头了服务器全部国标,持续定义领先的开放计 算产品,拥有全球唯一符合三大开放标准的整机柜产品, 拥有全球架构最全、配置最多、规格最高的开放计算服务 器,最先开发了开放技术的OAM加速计算模块和OTII边缘 计算服务器,拥有全球性能领先的存储系统和性能、安全 性领先的云海OS。 智慧社会离不开智慧生态——元脑生态计划 目前,行业信息化市场已经步入了产业AI化阶段,这 将会是一个万亿级的市场。 在AI产业化过程中,浪潮是新兴AI企业的主要合作 伙伴和算力提供商,已经积累了大量优质的算法框架、模 型和数据,这些优质的AI技术正是产业AI化过程中行业用 户所需要的,也是为这些用户服务的传统合作伙伴所欠缺 的。为了帮助行业用户更好地进行智慧化转型,连接传统 合作伙伴和新兴AI企业,浪潮提出了元脑生态计划。 元脑由浪潮联合具备AI开发核心能力的左手伙伴和 具备行业整体方案交付能力的右手伙伴共同组成。聚合了 AI最强算力平台、最优质的算法模型开发能力和最优质的 集成、部署和服务能力,将支撑和加速各行业、各产业与 人工智能的融合,让各个行业、各个产业具备可感知、自 学习、可进化的能力,最终帮助用户完成业务智能转型升 级,以生态之力成就行业、产业AI大脑。 通过元脑生态,浪潮加快了智算中心的建设和应用服 务落地。例如,在金融行业,浪潮在国有六大行的服务器 占有率超过50%,在银行支撑着每日数亿笔金融交易,每 日TB级账务更改,每日数千亿元金融业务IT服务。浪潮和 声扬科技、赞华一起推出的“智慧声纹识别”解决方案在 某大型银行落地,该方案实现2秒语音通话即可确认客户身 份,1∶1声纹确认准确率达99.7%,大 幅提升了银行在客服、风控方面的工 作效率。 在铁路运输行业,浪潮支撑了新 一代客票系统、铁路电子支付平台、 短信及语言平台等系统,硬件计算 能力提升30%以上,售票能力从每天 1500万
| ||
下载文档到本地,方便使用
共 7 页, 还有
5 页可预览,
继续阅读
文档评分


智算中心筑基数字经济新优势-单志广(23页 PPT)