OpenCOCA白皮书.pdf
《OpenCOCA白皮书.pdf》由会员分享,可在线阅读,更多相关《OpenCOCA白皮书.pdf(31页珍藏版)》请在咨信网上搜索。
OpenCOCA 白皮书白皮书(2023)目录1.算力基础设施发展现状与挑战.11.1 发展现状与趋势.11.2 应对机遇与挑战.32.COCA 软硬一体片上计算架构打造国家级自主可控算力基础设施.52.1 COCA-DPU 重构计算架构.62.2 COCA-GPU 融通算力生态.122.3 COCA-HPN 提供海量 AI 算力.153.从 COCA 走向 OpenCOCA,业内首个开放式的软硬一体片上计算平台.213.1 能力共享,激发行业活力.213.2 行业共治,规范行业标准.223.3 协作共赢,创造行业价值.234.展望与倡议.234.1 布局开放式智算生态,带动国内智算产业成熟发展.234.2 共建产业联盟,自主掌握云计算技术标准.234.3 联创高精尖技术,引领云计算市场下一个黄金十年.24缩略语列表.25参考文献.28OpenCOCA 白皮书(2023)11.算力基础设施发展现状与挑战算力基础设施发展现状与挑战1.1 发展现状与趋势发展现状与趋势当前,以云计算、人工智能、大数据为代表的新一代信息技术蓬勃发展,传统产业与新兴技术加速融合,推动数字经济的快速增长。算力基础设施作为各行业信息系统运行所依赖的核心能力,在经济社会运行中不可或缺。近年来,我国对算力基础设施的重视程度不断提升,国家发展和改革委员会在 2020 年 4 月明确定义新基建,即基于新一代信息技术演化而成的基础设施,其中包括以数据中心和智能计算中心为代表的算力基础设施。在狭义上算力基础设施指以算力资源为主体的基础设施,自下而上包括底层设施、算力资源、管理平台和应用服务等,覆盖超算中心、智算中心等多样化算力体系。在广义上算力基础设施指一体化 ICT 服务,包含融算力生产、算力传输和 IT 能力服务。作为新基建的核心组成部分,算力基础设施在我国数字经济发展过程中扮演着重大支撑角色。一方面,通过互联网、大数据、人工智能等新兴技术的深度应用,传统基础设施转型升级形成融合基础设施;另一方面,通过对科学研究、技术开发和产品研制的持续支持,算力基础设施驱动技术革新和产业应用创新。超算智算成为算力规模增长主驱动超算智算成为算力规模增长主驱动算力作为一种新型生产力,主要包含信息计算力、数据存储力等要素,通过算力基础设施向社会提供服务。在数据存储力方面,根据 IDC 数据统计,最近 5 年全球数据每年以两位数速度持续快速增长。同时,国家互联网信息办公室发布的数据显示,我国数据资源规模快速增长,2022 年我国数据产量达 8.1ZB,同比增长 22.7%,全球占比达10.5%,位居世界第二,预计到 2025 年数据总量将跃居世界首位,占比达到全球总量的三分之一。在信息计算力方面,随着云计算服务的日趋成熟,算力发展呈现单要素向多要素融合转变。随着“十四五”规划持续推进,截止到 2022 年底,我国算力总规模达到 180 EFLOPS,排名全球第二,其中,通用算力规模为 137 EFLOPS,智能算力规模为 41 EFLOPS,超算算力规模为 2 EFLOPS,近五年来,我国整体算OpenCOCA 白皮书(2023)2力规模保持近 30%的增长速度。随着算力规模持续扩大,智算和超算逐渐成为新的算力增长引擎。智算方面,根据 ICPA 智算联盟统计,截至 2022 年底,全国已投运的人工智能计算中心有20 余家,在建的也超过 20 家。地市企业依托智能计算中心的算力服务,结合本地产业特色,加快人工智能应用创新,聚合人工智能新业态。例如武汉人工智能计算中心陆续孵化出紫东太初、武汉 LuoJia 等大模型1。超算方面,2023 年 6月发布的最新全球超级计算机 TOP500 榜单中,中国以 134 套上榜数量位居全球第二,占 26.8%。应用创新促进数据中心融合升级应用创新促进数据中心融合升级近年来随着HPC(High Performance Computing)、人工智能和大数据等应用的蓬勃发展,原来的传统数据中心已无法满足新型应用的承载需要,新型应用以集群式服务为载体,具有超大规模并行计算的特征,往往依赖数十TB的高质量数据集、数十万CPU核和上万块GPU,以及节点间高效率的集合通讯,需要算力、算法、数据多要素的融通协同,迫使传统数据中心向新型数据中心演变。新型数据中心不仅是某些设备的集合,而且是包含计算、存储、通信能力以及环境、安全等配套能力,可通过内部设备传递、处理、展示数据信息,最终服务于客户的数据服务系统,具备高技术、高算力、高能效、高安全的特点,具体表现在算力规模与密度的逐步提高、“绿色低碳”新技术应用逐步扩大、本地或跨域智慧化运维管理逐步升级、信息技术与运营技术的一体化安全得到保障。从我国总体算力供需格局来看,东西部算力供需失衡,东部地区算力应用需求大且资源紧张,而西部地区算力资源相对宽裕,通过国家“东数西算”战略构建布局合理的新型数据中心将成为推动未来社会数字化发展、促进社会产业化变革乃至重构全球竞争格局的关键举措。随着人工智能和物联网技术的发展,新型数据中心算力整体需求结构逐渐发生变化,基础算力所占比重逐步降低,智能算力与超算算力比重正快步攀升。(1)智能计算中心智能计算中心是指基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。智能算力主要是基于GPU(Graphics Processing Unit)、FPGA(Field ProgrammableGate Array)、ASIC(Application Specific Integrated Circuit)或其他加速器支撑的高OpenCOCA 白皮书(2023)3并行、高密集计算能力的异构算力。近年新推出的大语言模型(LLM,LargeLanguage Module)所使用的数据量和参数规模呈现“指数级”增长,带来智能算力需求的爆炸式增加。智能计算中心主要应用于多模态数据挖掘、智能化业务高性能计算、海量数据分布式存储调度、人工智能模型开发、模型训练和推理服务等场景,所产生的大规模生产算力将为智慧医疗、智慧城市、智慧交通等领域的应用提供基础支撑。(2)超级计算中心超级计算中心是指配备高性能计算设备和软件,拥有超级数据存储和处理能力,且能够提供超级计算服务的综合产业化基地。超级计算指利用超级计算机的集中式计算资源来处理极端复杂和数据密集型的问题。超算芯片以CPU为主,可含部分GPU加速器,主要提供双精度浮点数(64 位)计算能力,其中每秒千万亿次的运算被称为“P级”超算,每秒百亿亿次的运算被称为“E级”超算。近年来,我国超算中心发展迅猛,目前已拥有 14 所国家级超级计算中心。超算中心主要运用于尖端科研、国防军工、产业升级和重大社会问题等大科学、大工程、大系统中,是国家科研实力的体现,也是国家科技发展水平和综合国力的重要标志。超算中心所提供的算力将广泛应用于石油气勘探、生物医药、海洋工程、气象预测和智慧城市等众多领域,深刻影响着国家产业和人民生活。新算力和新技术相互促进协同发展新算力和新技术相互促进协同发展一方面,基础设施计算技术加速演进,异构计算成为智算/超算中心的主流架构。在摩尔定律放缓、颠覆技术尚未成熟的背景下,以AI大模型为代表的多元应用创新驱动算力技术加速进入智能计算新周期,进一步带动计算产业的发展。智能计算时代,搭载各类计算加速芯片的AI服务器将成为智能算力的主要来源。另一方面,先进计算体系化创新活跃,创新模式和重点发生了转变,呈现出软硬融合、系统架构创新的特征。技术创新持续覆盖基础工艺、硬件、软件、整机不同层次,互联持续高速化、跨平台化演进,异构融合加速超级计算和智能计算协同发展。1.2 应对机遇与挑战应对机遇与挑战2023 年 10 月 8 日,六部委重磅发布 算力基础设施高质量发展行动计划,从计算力等四个方面提出了到 2025 年发展量化指标,提出到 2025 年算力规模超OpenCOCA 白皮书(2023)4过 300 EFLOPS,智能算力占比达到 35%2,算力基础设施的高质量发展面临如下挑战。随着摩尔定律的放缓,传统以 CPU 为中心的数据中心体系存在性能瓶颈、成本压力等问题,一方面,带宽性能增速比失调,通用 CPU 的性能增长已无法满足新型算力基础设施的数据增长需求;另一方面,云服务商的 TCO(Total Costof Ownership)急剧增加,百 Gbps 的高性能网络就需要 12 颗以上 Xeon CPU 的核。因此,数据中心的体系架构需要从“以计算为中心”转向“以数据为中心”,即将“CPU 处理效率低下、GPU 处理不了”的虚拟化计算、网络、存储等负载卸载到专用 DPU(Data Processing Unit),提升整个计算系统的性能、降低系统的 TCO。AI(Artificial Intelligence)场景各厂家 GPU 芯片技术碎片化3、大模型需要激发 AI 芯片性能,AI 推理场景下 GPU 资源的利用率较低。多样化的 GPU 生态导致用户使用不同 GPU 芯片时增加了迁移成本;其次,模型的参数及数据量的倍增要求智算中心具备高效的训推套件来提升效率;最后,整卡或固定比例的 GPU算力资源的分配方式,使得在推理场景下资源的利用率较低且算力资源调度不灵活。大模型运算中,通信是一个重要组成部分,部分 GPU 进行运算,运算完成后还需要与其他 GPU 之间交互数据。一方面,通讯带宽越大,数据同步越快,GPU 的使用率就越高。另一方面,大模型对时延和丢包要求也很高。因为,多个 GPU 运算同一个任务,花费时间最长的 GPU 运算完,才算完成一个运算任务。丢包对 GPU 训练的影响明显,在极端情况下,丢包甚至会导致 GPU 训练失败。XPU(eXtreme Processing Unit)算力资源从体系结构设计到指令集架构再到接口设计,都是相对封闭的,相互之间不兼容,且难以修改或进行普适性扩展。整合多种异构算力资源并采用统一编程框架对现有计算平台来说复杂度高,需要一套标准化且能高效管理异构算力资源的开放平台。为了应对上述挑战,中国移动提出 COCA(Compute on Chip Architecture)软硬一体计算架构。其中,COCA-DPU 模块,针对数据中心场景,通过计算、存储、网络、安全和管控五大引擎实现云化加速;COCA-GPU 模块,用于提高 GPU 训练推理效率和提升 GPU 资源利用率;COCA-HPN(High Performance Network)模块,用于提供大带宽、低延时及零丢包的高性能网络服务能力,释放 AI 集群性能。OpenCOCA 白皮书(2023)5既是挑战也是机遇,为了实现构建更宏大的算力、更高效的连接和更可靠的算力体系愿景,秉承“开放+共赢”理念,中国移动同步孵化 OpenCOCA(OpenCompute on Chip Architecture)开源项目,包含 DPU、GPU 和 HPN 三个模块,用于共建 XPU 产业联盟,联创高性能技术,破解算力体系生态封闭难题,同时布局国产化智算生态,带动国产化智算产业成熟发展。2.COCA 软硬一体片上计算架构打造国家级软硬一体片上计算架构打造国家级自主可控算力基础设施自主可控算力基础设施COCA 以构建普惠的高性能算力为核心目标,以打造自主可控的高性能算力基础设施为宏伟愿景,助力数字中国建设。遵循“软件定义,硬件加速”的理念,COCA 主要由 COCA-GPU 模块、COCA-DPU 模块、COCA-HPN 模块组成。其中,COCA-DPU 模块,围绕计算、存储、网络、安全、管控形成“五大卸载引擎”,基于软硬一体重构算力基础设施的数据中心;COCA-GPU 模块围绕 AI 抽象、AI 加速、AI 池化技术,拉通 GPU产业上下游,共同化解不同 GPU 平台“碎片化”的问题;COCA-HPN 模块,针对大规模集群一方面需要海量的 GPU 算力,另一方面也将面临更为严重的网络拥塞问题的特点,提升算效突破算力互联瓶颈。COCA 以 DPU 为基础,通过 HPN 与国产 GPU 生态的深度融合,重构算力基础设施,联创高性能网络技术,共建自主 DPU+GPU 产业联盟,带动国产化智算产业成熟发展。图 2-1 COCA 软硬一体片上计算架构OpenCOCA 白皮书(2023)62.1 COCA-DPU 重构计算架构重构计算架构DPU 是一种提供数据中心基础设施服务的处理器,可以卸载及加速网络、存储、安全和管控等基础功能,释放更多的 CPU 算力供客户使用4。DPU 通常由通用处理单元和专用加速引擎组成,通用处理单元处理控制平面业务,专用加速引擎保证数据平面的处理性能,在保证通用性的同时,突破通用基础设施虚拟化的数据处理性能瓶颈。将虚拟化软件框架由单 CPU 平台支撑扩展至由CPU+DPU 双平台支撑,可大幅增强云基础设施的数据处理能力。COCA-DPU 模块通过对算力基础设施的数据中心进行软硬一体重构,能对计算、存储、网络、安全和管控等功能进行加速和卸载。COCA-DPU 模块通过抽象的驱动适配层实现对 DPU 的标准接入,可分为计算、存储、网络、安全、管控五大引擎,其中计算引擎提供标准化的 virtio-net(Virtual I/O Network)、virtio-blk(Virtiual I/O block)后端接口,实现虚拟化 I/O 的数据面和控制面的加速和卸载;存储引擎在 DPU 上实现存储接口后端,通过加载标准 virtio-blk 或NVMe(Non-Volatile Memory Express)驱动实现块存储的读写,无需额外的厂商专用驱动;网络引擎采用标准的卸载接口和流表实现网络流量的卸载与加速;安全引擎通过通过信任根机制以及标准的 IPsec 等加密通讯协议对系统和多租户网络进行安全防护,并基于 DPU 提供有效的卸载方案;管控引擎屏蔽了裸金属、虚拟机和容器的产品形态差异,从而实现 DPU 资源统一管理和全链路管控运维。图 2-2 COCA-DPU 系统架构OpenCOCA 白皮书(2023)72.1.1 计算引擎计算引擎计算引擎聚焦在 I/O 虚拟化卸载和热迁移。计算引擎通过 DPU 提供的标准化的 virtio-net、virtio-blk 后端接口,实现虚拟化 I/O 的数据面和控制面的加速和卸载。基于 Linux 内核层面和用户层面(例如DPDK、SPDK)的 virtio-net、virtio-blk 前端驱动,DPU 能够和 host 侧的 VM 或者裸金属实现无缝对接,提升网络 I/O 的性能,完全卸载 host 侧 CPU 对 virtio接口处理的资源开销。图 2-3 COCA-DPU virtio-net/blk 卸载为了实现现代算力基础设施资源灵活快速管理,计算引擎需要支持热迁移功能。vDPA(Virtual Data Path Acceleration)技术是其中一种有效的途径。vDPA 技术的核心是 vDPA Framework,能够实现 virtio 控制面和数据面的分离。通过在virtio 控制面和厂商私有控制面之间设置中间适配层,既避免了全直通下控制面过于暴露存在的安全隐患,又能屏蔽硬件差异,使不同硬件卸载厂商之间的热迁移成为可能。vDPA 框架可在用户态也可在内核态实现,计算引擎适配和支撑vDPA 的不同技术演进路径,提供针对算力基础设施的热迁移功能。OpenCOCA 白皮书(2023)8图 2-4 vDPA 框架5672.1.2 存储引擎存储引擎在云计算中,DPU 可以为云主机或裸金属提供存储加速功能,通过软硬件结合方式实现存储协议卸载,灵活实现存储 IOPS(Input/Output Operations PerSecond)高性能和 guest CPU 低占用率的要求。数据中心通过 DPU 弹性存储实现了数据中心存储资源的池化,使数据中心计算实例可以按需分配存储资源,并实现弹性伸缩,提高资源利用率,从而降低数据中心运营成本。在弹性存储中的云盘挂载与云盘启动过程中,COCA-DPU 可以实现裸金属实例的快速部署,通过将裸金属实例和虚拟机实例的部署流程、镜像资源和网络配置归一化,简化了部署过程,提升了用户体验,降低了运营成本。DPU 实现 guest 侧存储接口的卸载,主要方式为在 DPU 上实现存储后端接口,并提供 virtio-blk 或 NVMe(Non-Volatile Memory Express)的块设备接口,guest中加载标准 virtio-blk 或 NVMe 驱动实现块存储和文件存储的读写,无需额外的厂商专用驱动。DPU 网络侧接口则将业界常用的远端存储协议,包括iSCSI(Internet Small Computer System Interface)、Ceph RBD(Ceph Rados BlockDevice)、NVMe-oF(NVMe over Fabrics)910前端卸载到 DPU,其中基于 DPU 提供的 RDMA(Remote Direct Memory Access)网络功能实现的 NVMe-over-RDMA网络存储协议可以完成数据中心对各种存储设备的资源池化,大幅度提升了块存储性能,满足了租户对存储性能的需求。OpenCOCA 白皮书(2023)9图 2-5 COCA-DPU 存储卸载2.1.3 网络引擎网络引擎随着 CPU 与网卡性能“剪刀差”的产生,传统的、围绕 CPU 的网络加速方案逐渐难以应对不断增长的 I/O 需求,而投入更多 CPU 来换取 I/O 性能的做法则相对低效。COCA-DPU 通过网络引擎将虚拟交换机的功能卸载到 DPU,降低主机 CPU 在网络转发业务功能上的开销,提高主机可售卖计算资源,同时提升虚拟机的网络性能。图 2-6 COCA-DPU 网络卸载DPU 作为数据处理的核心,在以 DPU 为中心的数据中心架构下,网络 I/O请求由 DPU 处理和加速,可以将网络消耗的 I/O 资源全部卸载到 DPU 上,完全释放服务器的 CPU 资源。一方面因为 DPU 低功耗的特点,数据中心 I/O 的能耗可以大幅降低。另一方面,CPU 资源可 100%用于计算,这提升了单台服务器的计算密度,与同等规模的数据中心相比,该架构可以提供更多的计算资源。OpenCOCA 白皮书(2023)102.1.4 安全引擎安全引擎COCA-DPU 采用基于数字签名的可信根方式确保固件启动的安全性和完整性。DPU 中的一次性非易失存储区中存放公钥,该区域一次烧结后,不能再被更改,该公钥作为 DPU 安全启动的可信根计算基础。在 DPU 固件发布时,将采用数字签名系统的私钥进行加密。私钥为签名系统保留,不被外泄。当 DPU 启动时,将采用逐级验签的方式,确保系统固件的安全性和可靠性。公有云多租户场景,数据流量以明文形式进行传输存在风险,为保证数据的安全可靠,可以通过 COCA-DPU 以租户为粒度对客户的原始报文进行加解密,防止数据在传输过程中被非法窃取。首先,DPU 对主机侧发来的业务 VM 虚机流量进行分析,触发本端和对端的 DPU 引擎进行 IKE(Internet Key Exchange)协商,建立 IPsec(Internet Protocol Security)加密隧道。其次,当 IPsec 加解密隧道建立后,本地 VM 的感兴趣流经过本端 DPU 引擎时,本端 DPU 安全引擎会将此流量进行加密并添加新的报文头,然后发送到目的端 DPU。目的端 DPU 引擎收到密文后,对密文解密,并上送目的 VM,从而完成了数据加密传输流程。上述过程,除 IKE 协商外,均可以通过网络引擎和安全引擎对业务进行加速。图 2-7 COCA-DPU 安全卸载82.1.5 管控引擎管控引擎管控引擎可以为云平台提供裸金属、云主机和容器的资源管理和监控功能,通过将此部分下沉至 COCA-DPU,屏蔽了裸金属、虚拟机和容器的产品形态差异从而实现 DPU 资源统一管理,同时提供 DPU 全链路管控运维能力。基于管控引擎将云平台管理组件从主机 CPU 卸载到 DPU,不仅解决了主机 CPU 资源占OpenCOCA 白皮书(2023)11用的问题,增强了计算实例的性能和稳定性,也提高了计算实例的安全性。此外,除云主机管理组件外,VNC(Virtual Network Console)、监控脚本、系统日志等相关运维组件同样卸载到 DPU 上,可以降低虚拟化场景下主机 CPU 资源开销,为裸金属提供和虚拟机一致的交付和运维体验。图 2-8 COCA-DPU 管控系统架构与此同时,将管控组件部署在 DPU 中具有如下优势:DPU 可直接接入管控系统,实现上线、拉起和运维自动化,将管控系统与主机解耦,提高运维效率;对主机 CPU 系统零侵入,实现管控与主机系统解耦,提高管控开发和部署效率;实现裸金属和虚拟化场景 VM 和 BM 的并池,提高计算资源利用率;OpenCOCA 白皮书(2023)12图 2-9 COCA-DPU 管控部署架构另外,管理组件本身对 CPU 的计算性能要求不高,DPU 中的通用 CPU 性能完全可以满足需求,而且管理组件卸载到 DPU 之后能够将全部主机 CPU 资源提供给上层业务使用,同时也减小了管理软件对上层业务应用程序的干扰,进一步提升整体算力基础设施的算力密度和安全性。2.2 COCA-GPU 融通算力生态融通算力生态COCA-GPU 模块包括 AI 抽象、AI 加速以及 AI 池化三大技术,分别解决AI 生态割裂、大模型训练/推理性能加速以及算力资源调度不灵活的问题。AI 抽象屏蔽底层硬件差异构筑统一的 AI 生态;AI 加速为大模型分布式训练及生产部署提供了一套加速套件全面提升 AI 性能;AI 池化通过软件定义算力,在细粒度切分算力的同时打破物理边界实现算力资源的灵活取用。通过上述三大模块,COCA-GPU 可以有效帮助客户降低迁移成本,提高 GPU 训练推理效率及 GPU资源利用率。OpenCOCA 白皮书(2023)13图 2-10 COCA-GPU 系统架构通过在框架和 GPU 计算库之间新增 AI 抽象层定义了统一的算子标准,使得上(框架)下(GPU)两层有效解耦。不同厂商基于这一套标准里抽象的函数声明列表,根据自己的硬件封装算法及内存拷贝、流创建销毁等设备操作功能,标准化地接入 COCA-GPU。2.2.1AI 抽象抽象AI 抽象旨在屏蔽不同架构 GPU 芯片的软硬件差异,联合国内外 GPU 行业联盟共同构筑一套统一标准,实现 AI 应用跨芯片的无感迁移,解决当前 AI 生态的多样化、碎片化的问题,带动国产 GPU 统一生态的发展。图 2-11 COCA-GPU AI 抽象一是面向用户提供主流框架适配器,针对不同 GPU 芯片及软件栈为用户提供了统一抽象层,实现无感知的跨 GPU 迁移部署 AI 应用。二是面向 GPU 厂商联合制定了一套统一的算子标准支撑 AI 模型的开发应用,各硬件厂商基于自家OpenCOCA 白皮书(2023)14硬件特性主动适配接入,构建标准化的硬件接口,推动国产生态繁荣发展。三是面向 AI 应用提供了统一的算力 API,简化了各类 GPU 厂商软硬件栈,建立统一纳管及映射机制。算子标准制定了一套抽象的接口规范,并衍生出一系列的统一算力 API 接口。对下由各厂商根据该接口及参数列表实现具体的功能,对上供COCA-GPU AI 抽象提供的框架适配器调用。由于上层框架直接调用统一算力API,屏蔽底层硬件差异,因此可以实现一次编码在不同 GPU 执行,大大降低用户的研发和迁移成本。2.2.2AI 加速加速AI 加速是面向 AI 任务提供的加速引擎包括训练和推理加速套件,针对底层硬件、网络、通信及算子库对训练/推理过程进行优化,充分发挥硬件能力,进一步提升 AI 应用性能表现及效率,降低客户及企业的成本。图 2-12 COCA-GPU AI 加速分布式训练过程中,卡间及机间的通信往往成为制约大模型训练过程的主要性能瓶颈点。CTK(Compute on Chip Architecture Training Kit)为用户提供了开箱即用的训练加速套件。分布式通信策略一方面通过在梯度传递过程中同步进行计算操作,来提高整体的训练效率;另一方面通过降低通信频次及数据量来优化分布式训练的通信过程。高性能通信库根据网络拓扑并结合 RDMA 网络最大程度地优化分布式训练中的通信拓扑与时长,提升整个训练过程的效率。训练完的模型直接投入生产部署,其推理性能通常较差并且算力资源的使用效率很低。CIK(Compute on Chip Architecture Inference Kit)推理加速套件提供计OpenCOCA 白皮书(2023)15算图优化以及高性能算子库助力用户的业务模型可以针对不同硬件特性进行优化加速。图优化在模型真正执行推理前,通过图精简以及算子融合等技术对模型的计算量进行压缩,从而提升推理速度;高性能算子库则针对显存访问及算法优化等实现了一系列高性能场景化算子,帮助用户编译最优的部署方案,提升推理性能、降低生产成本。2.2.3AI 池化池化AI 池化通过软件定义 GPU 算力,打破原有的 AI 应用直接调用物理硬件的方式,增加软件层对 GPU 算力进行统一的抽象,实现算力的细粒度切分以及 AI应用与物理 GPU 的解耦。图 2-13 COCA-GPU AI 池化管理调度组件是 AI 池化单元的核心组件,负责管理集群所有服务器上物理GPU 设备、软件定义的虚拟 GPU 算力、服务器网络信息。提供虚拟 GPU 算力的统一调度、GPU 计算节点上其他功能组件的服务注册与发现功能。算力服务插件部署于每台 GPU 服务器之上,用于发现节点上的物理 GPU 资源,通过软件定义的方式将 GPU 算力进行细粒度切分与抽象,并上报到管理调度组件。同时通过配合客户端运行时组件实现虚拟算力的远程挂载。客户端运行时组件部署在用户云主机、容器或者裸金属之上,当使用 GPU算力执行 AI 应用时,相关算力请求会被客户端运行时组件接管并分发到对应的算力服务插件,对用户实现无感知地本地调用远端算力。2.3 COCA-HPN 提供海量提供海量 AI 算力算力OpenCOCA 白皮书(2023)16随着 ChatGPT(Chat Generative Pre-trained Transformer)的出现,AI 大模型相关应用百花齐放,纷纷进入到亿级参数网络时代,彻底引爆了智算中心领域对算力规模的需求。当前智算中心规模化算力部署扩展趋势上主要分为节点内算力连接和节点间算力连接两个主要方向。其中,节点内芯片间高性能互联网络以NV-LINK(NVIDIA-LINK)和 CXL(Compute Express Link)1112技术为代表,其主要特点是高带宽、低延迟、低功耗和高密度;另外,节点间高性能互联网络以IB(InfiniBand)13和 ROCE(RDMA over Converged Ethernet)v2 技术为代表,其主要特点是高带宽、低延迟、机房内传输和规模化互联。用于分布式训练框架通信的高性能集合通信库通过发现拓扑并选择最优通信路径进行集群通信,进而实现可以线性扩展的规模化异构算力集群。在 HPN 智能管理运维方面,智能管控系统不仅能够对节点内和节点间高速互联网络进行管理监控,还能够根据监控数据智能化调整网络配置参数以及故障诊断和排除。综上,通过软硬一体、端网协同等方式共同实现智能化管理运维的异构算力互联网络。图 2-14 COCA-HPN 异构算力互联架构2.3.1 高性能高性能集合通信集合通信库库高性能集合通信库在 AI 大模型训练过程中主要负责管理异构算力芯片间的数据通信,业界主流应用于异构算力通信的开源 GPU 集合通信库,如NCCL(NVIDIA Collective Communications Library),无法做到在任何网络结构中都发挥出极致的通信性能,大规模训练任务的集群效率存在极大的改善空间。基于移动云能力中心自定义的异构计算互联网络拓扑结构的特点,COCA-HPN 正OpenCOCA 白皮书(2023)17自研定制化的高性能集合通信库,在 AllReduce 和 All-to-All 等常用通信模式下,能够有效利用内外部互联带宽能力,预计数据通信效率能提升 20%以上。同时,在设备管理、拓扑感知、通信选路等方面 COCA-HPN 也将进行定制化设计。(1)多轨网络的流量路径规划:异构算力 GPU 之间通信路径存在多种异构拓扑,如节点内部互联网络 NVLINK 和 PCIe Switch 等,节点间互联网络 RDMA。集合通信库在路径规划过程中应充分考虑物理拓扑结构,充分利用节点内和节点间网络。在多轨网络中,异构算力节点分配需结合算力连接智能管理系统,将算力资源分配在具有亲和性的网络位置,尽可能实现节点间互联网络在一跳交换机上实现互通。同时,充分利用异构算力节点内网络通信高吞吐的特点,优先将数据在节点内同步,再利用多轨网络进行节点间数据通信。(2)异构网络数据传输优化:异构网络将节点间数据传输的会话数量大幅减少,流量规模按节点内传输、机架内一跳交换机传输和三跳交换机传输依次递减,同时,将短数据流在节点内汇聚为长数据流的方式来减少会话数量,降低对RDMA 智能网卡上 RDMA QP 数量规模的要求,从而提升整网的传输性能。(3)通信原语拓扑自适应:异构算力集合通信库通过对异构网络拓扑的感知,在集合通信过程中使用不同通信原语时,充分利用网络拓扑特点,选择数据通信方式。如节点内互联方式是点对点时,做 Ring AllReduce 需要建立多个 Ring,充分利用节点内互联网络带宽;如节点内互联方式是 Switch 时,做 RingAllReduce 则无需建立多个 Ring。2.3.2 内部互联网络系统内部互联网络系统大模型的训练和推理场景中,需要使用到多张 GPU 卡联合进行计算,计算过程中需要多张卡对计算结果进行分发、收集和规约计算等数据交互操作。执行这些数据交互操作所需要的时间,通常占到整个训练或推理过程耗时的 30%-40%左右。因此,节点内通信的性能,直接影响了模型训练或推理的整体性能。当前算力基础设施的节点内通信,主要分为如下两种互联方案。(1)PCIe(Peripheral Component Interconnect express)Switch 互联随着 PCIe 技术的发展,以 PCIe x16 双向传输为例,总的双向传输带宽从Gen3 的 32GB/s 发展到 Gen4 64GB/s,再到 Gen5 128GB/s。PCIe/PCIe Switch 作为异构算力互联的基础拓扑得到了广泛应用,进一步依托 GPUDirect P2P 技术实现节点内 GPU-GPU、GPU-DPU 芯片间互联通信。在提供通信带宽扩展方面,OpenCOCA 白皮书(2023)18PCIe/PCIe Switch 的通信带宽限制了点对点间的线性扩展能力,进而限制了高性能异构算力在节点内互联互通的应用规模。(2)芯片间高速总线互联受限于 PCIe Switch 的通信性能,英伟达提出了自定义的高速总线互联技术NV-LINK,作为 PCIe 的替代技术,实现 GPU-GPU 以及 GPU-CPU 之间高速大带宽总线互联和内存共享能力。NVLINK 核心技术体现在增加连接密度的同时还能有效控制数据传输功耗,同时实现内存地址空间共享和互访。如下图,经过 4代 NVLINK 技术的迭代,在 NVLINK4 中单个 GPU 已经支持 18 个 NVLINK 连接,共 900GB/s 的双向总带宽能力。图 2-15 英伟达 NVLINK 演进过程14此外,CXL 也是目前业内重点关注的标准化协议。CXL 联盟于 2019 年由英特尔发起,联合了众多 CPU 厂商、服务器厂商和云厂商,共同推进 CXL 标准发展,目前标准已经更新到第三代,能够有效提升异构算力芯片缓存级和内存级通信效率。紧跟行业技术发展的路径,移动云提出 COCA-HPN X-LINK,通过卡间直连以及设备内存统一管理,提升卡间数据交互的效率。(1)加大卡间互联的数据传输带宽GPU 通过 PCIe 接口与主机相连,一般的卡间通信需要经过 GPU1 显存-主机内存-GPU2 显存的冗长链路,经历多次设备侧和主机之间的数据传输。为了解决这个问题,X-LINK 提供额外的数据传输通路,从而提供了更高的卡间带宽,且避免了数据多次搬运。(2)减少卡间数据传输的额外开销由于 PCIe 设备内存和主机内存处于不同的物理空间,难以做到统一的管理OpenCOCA 白皮书(2023)19和协作,并导致不同设备和主机间进行数据交互时,产生大量额外开销,降低了数据传输效率,且增加了数据传输过程中的不稳定性。支持 CXL 设备,可以将设备内存与主机内存作为一个逻辑整体来统一管理,从而减少设备和主机间的数据传输开销,提升整机协作效率。类似的,在同一台服务器内的多个 CXL 设备,也可以减少彼此之间的数据传输开销,从而提升数据传输的效率和稳定性。2.3.3 外部互联网络系统外部互联网络系统除了提升和解决节点内物理连接层面的带宽时延问题之外,COCA-HPN 也聚焦节点间的互联能力,旨在提供一套统一、可扩展、高可靠的网络连接。主流的被应用于 HPC、智算中心的节点间计算通信的网络协议包括:IB、ROCEv1、ROCEv2、iWARP、SRD(Scalable Raliable Datagram)15以 及Solar-RDMA16等。目前 IB 和 ROCEv2 得到了更多的发展机会,IB 是一种原生RDMA 协议,在物理层和传输层上都进行了优化,提供了非常高的数据传输带宽和低延迟,但是与特定的硬件耦合较强,部署成本高昂。ROCEv2 突破 ROCEv1只能运行于 L2 子网的限制扩展到 L2、L3 层网络,从而有了更大的应用空间,同时配合多种的拥塞控制算法,例如 DCQCN(Data Center Quantized CongestionNotification)、HPCC(High Performance Congestion Control)17、Timely、Swift 等,提升了网络性能,从而使得 ROCEv2 在 HPC 和分布式大模型训练逐步得到应用和推广。当前大模型训练数据量和参数数量仍在成倍增长,AI 模型的规模在过去 4年维持了每年 10 倍的增长,除了 GPU 本身的算力仍需提升外,超大的规模集群还将面临更为严重的网络拥塞问题。COCA-HPN 能解决这一问题,移动云推出面向 RoCE 的“乌蒙”高性能网络,其原创的“乌蒙”拥塞控制协议,实现了高精度的拥塞信号检测能力,可降低拥塞时延,提升集群算效。在智算中心的典型“中长流”场景下,集群网络性能可以提升 48%,可支持万卡级智算集群组网能力。OpenCOCA 白皮书(2023)20图 2-16 COCA-HPN 自研“乌蒙”拥塞控制协议2.3.4 HPN 智能管控系统智能管控系统当前新型智算数据中心场景,运维手段在应对高性能参数网络的高稳定性需求时存在着挑战,主要表现在:一是无法及时发现故障及网络性能波动,部分故障从发生到发现通常到小时级别,而且一些微突发的故障因为监控粒度不够导致监控遗漏。二是故障响应及解决速度慢,主要在于发现故障之后的排障分析耗时长,无法快速解决故障从而造成 GPU 运算资源的浪费。针对以上问题,移动云推出 COCA-HPN 智能管控系统,在自研的智能管控分析平台上通过链路状态监测、RoCE 网络性能实时监控分析以及快速故障根因分析来解决如上问题。(1)网络链路状态检测对全网链路进行主动的连通性探测(可通过 IPIP 标准协议,不绑定网络设备),秒级快速探测全网所有网络路径,及时发现端口、线卡、设备、协议等异常引起的链路连通性故障。(2)RoCE 网络性能实时监控分析RoCE Telem- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OpenCOCA 白皮书
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文