分销赏收藏举报申诉 / 67

立即下载开通VIP

当前位置：首页 > 研究报告 > 其他 > 2024年云原生AI技术架构白皮书.pdf

2024年云原生AI技术架构白皮书.pdf

上传人：宇***

文档编号：4405370

上传时间：2024-09-18

格式：PDF

页数：67

大小：18.44MB

《2024年云原生AI技术架构白皮书.pdf》由会员分享，可在线阅读，更多相关《2024年云原生AI技术架构白皮书.pdf（67页珍藏版）》请在咨信网上搜索。

1、白皮书编制组华为云计算技术有限公司叶坤奇张琦张永明蔡智源王雷博魏鹏程陶希陈佳敦朱佳玮马红伟左鹏飞付森波张超盟范恒龙鲍玥冯绍宝朱磊中国信息通信研究院云计算与大数据研究所刘如明杜岚行吟信息科技（上海）有限公司徐瑞文胡伟琪余奕陈磊熊峰第四范式（北京）技术有限公司李孟轩远盟康健科技有限公司杨宇陈浩复旦大学彭鑫沈立炜陈碧欢01背景和前言1.1大模型开创智能时代的新纪元，AI 产业迎来新一轮创新浪潮021.2云原生助力AI产业突破发展瓶颈，云原生AI成为产业发展新范式0202云原生 AI 基础设施发展和挑战2.1云原生AI技术的演进052.2算力诉求井喷，AI 产业面临挑战0603云原生 AI 技术概论3

2、.1云原生AI资源管理系统建设要点093.2云原生AI训练系统建设要点153.3云原生AI推理系统建设要点263.4云原生AI边缘云系统建设要点303.5弹性伸缩，应对 AI 任务浪涌挑战3204云原生 AI 技术应用4.1云原生AI跨地域多集群协同384.2云原生AI算力效能优化414.3云原生AI云边协同计算464.4大模型云原生化解决方案494.5云原生AI设备驱动管理5105云原生 AI 行业实践5.1社交平台 RB 云原生 AI 平台应用加速实践545.2AI 解决方案提供商 FP 多场景 AI 云原生化实践585.3医疗科技公司 HL 云原生 AI 智能医疗实践60目录目录CONT

3、ENTS 云原生 AI 技术架构白皮书背景和前言011.1大模型开创智能时代的新纪元，AI 产业迎来新一轮创新浪潮1.2云原生助力 AI 产业突破发展瓶颈，云原生 AI 成为产业发展新范式背景和前言01PART云原生 AI 技术架构白皮书背景和前言021.1大模型开创智能时代的新纪元，AI 产业迎来新一轮创新浪潮AI 软件及应用市场持续增长，AI 大模型成为产业主要增长点。据 IDC 估计，2026 年中国人工智能软件及应用市场规模将达到 211 亿美元，各行业的 AI 需求极大地推动着 AI 市场增长。随着数字经济、元宇宙等概念的逐渐兴起，人工智能进入大规模落地应用的关键时期,但其开发门槛高

4、、应用场景复杂多样、对场景标注数据依赖等问题开始显露，阻碍了规模化落地。以 ChatGPT 为代表的 AI 大模型的横空出世改变了这一局面。凭借其优越的泛化性、通用性、迁移性，AI 大模型为人工智能大规模落地带来新的希望。面对人工智能的各种挑战，AI 大模型的出现提供了通用化解决方案，从无标注数据中通过自监督学习获取大量“知识”，实现用更统一的方式推动人工智能产业落地。广泛智能需求驱动 AI 产业不断创新，大模型助力各行业生产力变革。随着办公、制造、金融、医疗、政务等场景中降本增效、生产自动化、降低风险、提高诊断准确率、提高政务服务效率等多方面的AI智能需求，AI产业迎来了井喷式的创新和发展。

5、凭借在文字、语音、图像、视频等多模态处理能力上的跃迁，AI 大模型摇身变为“助理”、“专家”走入办公室、制造车间、金融市场、医疗机构、政务大厅，结合传统软件使得各个行业更加智能化、自动化。AI 大模型已然改变了我们的生活和工作的方方面面，成为各个行业不可或缺的重要助手。1.2云原生助力 AI 产业突破发展瓶颈，云原生 AI 成为产业发展新范式AI 产业面临数据、算法、算力等多方面发展瓶颈。据 IDC 统计,中国数据规模将从 2021 年的 18.51ZB增长至 2026 年的 56.16ZB，年均增长速度 CAGR 为 24.9%，增速位居全球第一。随着数据量的高速增长，数据特征高维、模态格式

6、多样的趋势也逐渐明显，对数据的 AI 建模也相应地更加复杂，计算复杂度会随之呈指数增加，数据标注难度也会增加。同时，海量的数据将不可避免带来更大的数据噪声问题、数据偏见风险。与此同时，AI 应用场景更加多元化、复杂化，往往需要对多个任务进行深度融合和统一建模，这意味着厂商需要针对不同场景、不同任务开发大量的算法和模型，增加了 AI 应用的开发难度。算力方面，需要针对不同的场景和高性能计算能力进行拓展融合,满足研发企业的多芯部署、分布式优化、高性能计算等需求，这涉及了计算资源的灵活调度和统一运营管理，给企业 AI 创新带来了额外的成本。云原生 AI 成为 AI 产业发展的新范式。为了突破 AI

7、产业的发展瓶颈，云原生 AI 技术应运而生。一方面，云原生技术为 AI 应用运行提供了一个可扩展、高可靠的平台，更好地支持 AI 开发和使用。目前，基于Kubernetes 的云原生可以有效管理各类网络、存储和计算资源，已逐步演变为实际上的云操作系统，服务云原生 AI 技术架构白皮书背景和前言03于私有云、公有云以及混合云环境。基于其高可用特性，云原生系统可通过自动故障恢复机制在故障发生时迅速恢复服务，确保 AI 应用的稳定运行。其次，利用 Kubernetes 自动伸缩功能带来的出色扩展性，云原生可以根据 AI 应用需求快速增加或减少计算资源，满足不同场景下的计算需求。同时，云原生具备良好的

8、兼容性，可以与各种 AI 框架和工具无缝集成，实现 AI 应用的快速开发和部署。此外，云原生提供了丰富的计算（如 CPU 和 GPU）、网络和存储能力，并提供隔离和受控共享机制，加速了 AI 应用开发的效率和性能，并降低了企业的成本。另一方面，AI 也可以从调度资源、安全等方面增强云原生。在涉及多个优化标准的情况下，AI 可以分析集群的历史使用情况并预测未来工作负载模式和资源可用性，更好地调度云基础设施资源，进而降低能源消耗和使用成本。在安全方面，AI 可以分析大规模数据集并预测系统中的潜在威胁或弱点。用于检测异常网络行为的AI模型可以轻松地用于保护工作负载或在边缘部署中的一组集群，加强企业对

9、新兴网络威胁的防御。本白皮书重点关注云原生 AI 基础设施层支持 AI 开发和使用，结合云原生开源生态发展现状和行业实践，深入分析云原生 AI 技术落地所面临的技术挑战并给出具体的技术指导方案。03云原生 AI 技术架构白皮书云原生 AI 基础设施发展和挑战042.1云原生 AI 技术的演进2.2算力诉求井喷，AI 产业面临挑战云原生 AI 基础设施发展和挑战02PART云原生 AI 技术架构白皮书云原生 AI 基础设施发展和挑战05云原生技术本质上是基础设施云化和与之配套的服务（例如 CI/CD 就是如何在云化的基础设施部署软件）的技术。这在云原生 AI 里也是一样的，云原生 AI 基础设施

10、是云原生 AI 技术最为基础的一环。云原生AI 基础设施向上为 AI 训练作业、推理服务及模型开发等各类 AI 业务提供任务编排和调度能力，向下对多数据中心的异构硬件设备统一纳管并提供高效、可靠的资源供应能力。这一章将简短地回顾一下云原生 AI基础设施的技术演变历程，我们会看到如今云原生 AI 技术面临的挑战的来源。2.1云原生 AI 基础设施的演进2018 年图灵奖获得者计算机体系结构泰斗约翰轩尼诗(John Hennessy)和戴维帕特森(David Patterson)，在颁奖典礼上发表了题为“计算机体系结构的新黄金时代”(A New Golden Age for computer

11、Architecture)的演讲，指出摩尔定律(Moore s Law)和登纳德定律(Dennard Scaling Law)走到了尽头，处理器的晶体管密度和单位面积功耗已接近极限，处理器的性能提升不再遵循摩尔定律，后摩尔定律时代到来。AI 技术的发展和新的软硬件接口抽象为云原生基础设施带来了新的挑战和机遇，以面向特定领域体系结构(Domain-Specific Architecture,DSA)处理器为代表的新架构能够提供更高的性能，更低的成本和更优的能效。2022 年 11 月 30 日 OpenAI 公司推出了智能聊天机器人 ChatGPT，在发布后的 2 个月内用户数量就突破 1 亿，

12、成为史上用户增长最快速的现象级应用。ChatGPT 表现出的对文本的超凡理解力和生成能力，让工业界对 AGI 从学术研究走进实际的商业应用有了前所未有的信心，各类基于 Transformer 架构的 AIGC 大模型应用如雨后春笋，国内也出现了百模大战的态势，更进一步出现了 Stable Diffusion 和 Sora 等多模态大模型。在近几年的大模型研究和工程实践中，业界发现模型的训练数据、参数量和计算量越大，模型的效果越好，模型规模与模型效果呈现显著的正相关，虽然学术界存在争议，但大模型的 Scaling Law 仍然是业界的基本共识。为应对大模型对算力、存储（带宽、容量）需求，必须把大

13、量加速卡和服务器节点通过高速总线和网络连接起来，利用节点内总线（Scale-Up）和节点间网络（Scale-Out）的层次化扩展能力，构建大规模 AI集群以提供充足的算力供应，随着模型尺寸的持续增长，AI 集群的规模也越来越大。典型的 AI 集群具有两个或三个网络平面及一个高速总线平面，分别是：前端网络平面，用于集群管理和 AI 作业的调度发放；后端网络（Scale-out 或 Back-end）平面，用于扩展多 AI 服务器节点，通过高性能网络 Infiniband 或以太网 https:/ AI 技术架构白皮书云原生 AI 基础设施发展和挑战06把不同节点的 GPU/NPU 卡通过 RDM

14、A 协议连通起来，主要用于模型参数的数据同步（注：也有厂商称之为参数平面）；存储网络，通过专用的存储网卡和交换机将训练节点和存储设备连接起来，用于训练数据读取和模型快照（Checkpoint）存取；高速总线（Scale-Up link）平面，通过高带宽高可靠的片间总线（如：PCIe/NVlink 等）将节点内加速卡互联起来，用于大模型训推过程中的梯度更新等数据同步。2.2算力诉求井喷，AI 产业面临挑战OpenAI/Meta/字节跳动等公司近期所披露出的 AI 集群的规模都超过万卡，在他们的研究报告和相关的学术论文中提出大量当前 AI 业务在使用大规模算力集群过程中遇到的挑战和问题，这里我们列

15、举几个核心问题：线性度问题相对于单卡和单计算节点的计算效率，AI 计算任务在多卡多节点上的执行是否能够达到线性的收益目标，特别是随着集群规模的扩展，线性度能够持续保持。以模型训练为例，模型训练的吞吐（样本数/秒）=单卡训练吞吐（样本数/秒）*加速卡数量*线性度，理想的线性度是趋近于 1。通过高性能总线将多个节点的加速卡连接起来的超节点（SuperPOD）,打破了传统节点的模型，如英伟达 DGX H100 支持将 32 个节点的 256 个 GPU 组成一个超节点，超节点内的 GPU HBM 和 CPU 内存统一编址，支持更大参数规模的模型加载。这超出了传统节点资源和拓扑模型的表达能力。而在 S

16、cale-Out 扩展方面，一般采用二层或三层 Spine-leaf 拓扑模型，通过无带宽的收敛 InfiniBand或以太网络将加速卡节点连接成 AI 集群。要保持 AI 算力集群中 AI 任务的线性度，需要综合作业节点间的网络拓扑和 AI 任务的并行策略及其通讯需求进行作业任务的层次化调度，这对集群的调度器提出了新的要求，即：要感知集群的资源的网络拓扑和（超）节点拓扑，并根据 AI 任务的并行模式和通讯要求，将任务切分并调度到合适的节点和卡上，目前云原生 AI 调度器方案在拓扑感知及作业并行策略表达及调度算法方面存在明显的能力缺口。大模型训练的主要并行模式和通信需求如下，通信模式具有显著特

17、征：1.2.3.周期性强，每轮迭代的通信模式一致；流数量少，单流带宽大，同步突发。通信量大，带宽需求高。云原生 AI 技术架构白皮书云原生 AI 基础设施发展和挑战07表 2-2-1 大模型并行模式和通信需求并行模式特征通信需求Tensor 并行(TP)通信量巨大（百 GB），通信时间不可掩盖节点内 allreduce超高带宽Pipeline 并行(PP)通信量较大（模型相关，百 M-GB 级），通信时间不可掩盖/流水可掩盖跨节点 P2P中带宽数据并行(DP)通信量大（GB 级），通信时间计算可大部分掩盖跨节点 allreduce高带宽MOE 并行通信量大，通信时间不可掩盖跨节点alltoa

18、ll/allreduce高带宽集群可用度和资源利用率问题：是 AI 集群使用者和供应者共同关注的问题，集群的可用度直接关系到 AI 任务能否在预期的时间内完成，而可用度和资源利用率对企业内的 AI 基础设施部门或公有云厂商则意味着服务 SLO 能否达成，能否通过压低 AI 集群的资源成本取得盈利AI 大模型支持通过保存快照（CheckPoint）加速故障恢复，避免训练进度丢失。提升 Checkpoint 的存取性能，及时发现故障并快速恢复都有待云原生 AI 中的存储、故障和检测恢复组件的提供更加完备和高效的方案。考虑到集群内运行不同租户（公有云）、不同规格、不同运行时长的 AI 任务，容易产生

19、资源碎片，需要能够平衡集群资源利用率和 AI 任务性能目标，这要求云原生 AI 的重调度和快速任务迁移协同解决。对于 AI 开发者而言，AI 基础设施首先应该屏蔽底层基础设施的细节，使 AI 开发者可以聚焦在数据质量的提升和模型架构的优化。加速卡有不同的型号和参数、加速卡间通过不同的网络拓扑通信，不同的网络平面也有各自的带宽限制，如果 AI 任务部署前还需要考虑这些硬件因素，一方面增加了 AI 开发者的学习成本，另一方面也会耗费他们额外的精力，降低 AI 开发者的产出效率。云原生 AI 技术架构白皮书云原生 AI 技术概论083.1云原生 AI 资源管理系统建设要点3.2云原生 AI 训练系统

20、建设要点3.3云原生 AI 推理系统建设要点3.4云原生 AI 边缘云系统建设要点3.5弹性伸缩，应对 AI 任务浪涌挑战云原生 AI 技术概论03PART云原生 AI 技术架构白皮书云原生 AI 技术概论09如前文所述，云原生 AI 技术包含了很多方面，从底层的硬件和数据中心，到容器集群管理，编排调度系统，再到上层的云原生 AI 应用。而云原生 AI 由于技术较新，很多企业在构建云原生 AI 的时候仍面临很多问题，本章将对现今云原生 AI 面临的热点技术问题，给出前沿的技术指导。3.1云原生 AI 资源管理系统建设要点云原生 AI 资源管理系统涵盖了 AI 资源管理、矩阵算力基础设置管理、云

21、原生资源管理、资源画像、垂直弹性、水平弹性以及智能 HPA（Horizontal Pod Autoscaling）等多个方面，它们共同构建了一个灵活、高效、智能的 AI 资源调度与管理框架，是驱动现代企业和组织智能化转型的核心动力。1、现状与问题AI 算力资源发展至今，从传统的 CPU 到 GPU，再到百家齐鸣的 NPU、TPU、DPU 等等，AI 云计算已经进入了一个高速发展的 XPU 时代。在 AI 算力业务蓬勃发展的时代背景下，AI 算力诉求急剧膨胀，从最开始的单机单卡、单机多卡，到现在的千卡、万卡集群，这也引出了一系列的问题和挑战：集群规模快速膨胀，AI 资源管理复杂度上升。随着 AI

22、产品的大众化、规模化，搭载商业级算力芯片的大规模算力集群，成为了各个科技型企业的必图 3-1-1 云原生 AI 技术架构云原生 AI 技术架构白皮书云原生 AI 技术概论10备武器，AI 算力集群规模也日益膨胀，这就带了不可避免的问题：如何能更高效的管理成千上万的 AI 算力资源。AI 芯片种类繁多，对于 AI 资源管理的可扩展性有了更高要求。无论是现今一家独大的英伟达，还是厚积薄发的华为、谷歌、AMD，都在推出 AI 场景算力芯片，例如英伟达的 GPU、华为的昇腾 NPU 及谷歌的 TPU。AI 算力云厂商或是 AI 型企业，面对各家算力厂商迥异的架构，也急需有一套可扩展性更好的 AI 资

23、源管理架构。参数面网络等新型 AI 资源，对于 AI 资源管理提出了新的挑战。大模型、自动驾驶、AIGC 的横空出世，大规模的算力参数面互访网络成为了必需品，参数面网络提供的超高带宽，发展出了计算机超节点架构，计算机超节点是一个由多个和多种计算(CPU/NPU)，内存，IO设备等计算机资源单元，高速互联紧耦合在一起的集群计算系统，是生成式 AI 时代的产物。区别于传统以服务器中心松耦合架构，超节点是去中心化的紧耦合架构。随着技术的进一步演进，未来超节点内所有服务器的设备可做到灵活组合成为各种算力单元，也可被称为矩阵式算力。为了能够有效利用超节点内的资源，相关联的算力参数面网络设备及其拓扑的管理

24、，也就成为了 AI 算力资源管理的新课题。XPU 计算吞吐能力快速提升，I/O 瓶颈越发严重。当前 CPU 与 XPU 的发展出现严重错位；XPU 的算力虽然远超 CPU，CPU 拥有的内存容量是 XPU 无法比拟的；这就导致在海量数据训练的过程中，数据不得不同时分布在 CPU 和 XPU 的内存上，而为了最大限度发挥 XPU 算力的效率，数据必须能够尽快的被 XPU 访问到而不是浪费时间等待数据；随着 AI 大模型参数的指数级增长，AI 大模型训练和推理越来越面临内存墙和 IO 传输墙的挑战，即 XPU 内存容量和 IO 带宽的增长跟不上 AI 模型大小的增长速度。因此我们需要构建可扩展的数

25、据管道以高效地将数据传输到 XPU 计算设备至关重要。在云上多租业务场景下，我们需要注意并确保 I/O 瓶颈不会出现在重要业务场景比如对性能要求极高的推理场景。Google和 Microsoft的研究表明，高达 70%的模型训练时间被 I/O 占用。字节跳动在 MegaScale Jayashree Mohan,Amar Phanishayee,Ashish Raniwala,and Vijay Chidambaram.2021.Analyzing and mitigating data stalls in DNN training.Proc.VLDB Endow.14,5(January 2

26、021),771784.https:/doi.org/10.14778/3446095.3446100 Derek G.Murray,Jir simsa,Ana Klimovic,and Ihor Indyk.2021.Tf.data:a machine learning data processing framework.Proc.VLDB Endow.14,12(July 2021),29452958.https:/doi.org/10.14778/3476311.3476374 Jiang,Ziheng,et al.MegaScale:Scaling Large Language Mod

27、el Training to More Than 10,000 GPUs.arXiv preprint arXiv:2402.15627(2024).云原生 AI 技术架构白皮书云原生 AI 技术概论11的最新研究表明可以达到 55.2%的模型 FLOP 利用率，换句话说，XPUs 有接近一半的时间的时间处于闲置状态，造成的大量的时间和金钱的浪费。现在，由于 AI 大模型需要的算力和数据实在过大，很多中小型 AI厂商无法获得足够的计算和存储资源来训练和优化模型，所以不得不在云数据中心购买资源。在云上，数据分布在不同的地理位置，数据集大小已经远远超出了本地和单个 XPU 存储容量，云上 AI 训

28、练和推理已经成为了新的范式。云上 AI 训练和推理过程涉及移动数据集或复制数据到 XPU 设备上，为了最大限度地提升AI 场景 XPU 效率，I/O 优化是云基础设施的重要环节。随着 AI 计算规模增大，例如大规模 AI 训练，需要多卡甚至多个节点同时参与一个任务的计算，其中一个关键点就是如何支持节点内和节点间算力的高速通信，以便他们可以作为一个巨大的加速器相互协作。2、AI 通用算力基础设施关键技术和价值面对以上的问题和挑战，作为 AI 云原生计算基座，kubernetes 的社区提供了针对 AI 资源设备的管理机制，Device Plugin 模式和 Dynamic Resource Al

29、location 模式。（1）大规模设备管理无论集群的 AI 算力规模如何膨胀，AI 算力设备终究需要依托在服务器节点上，这形成了一对多的关系，对于AI算力的管理也就演变成了针对算力节点的管理。kubernetes社区针对拥有AI算力资源的节点，推出了 Device Plugin 的插件框架（DP 模式），在每一个算力节点上运行 Device Plugin 进程。各个 Device Plugin 进程仅需要管理自身节点上的少量 AI 算力设备，并将可用算力设备数上报至集群数据中心侧，由kubernetes 的资源调度系统进行后续的调度使用。（2）设备管理的可扩展性Device Plugin 模

30、式，将设备管理抽象成了若干管理 API，包括：监听(ListAndWatch)、分配(Allocate)等等，kubernetes 以 GRPC 协议，在节点上与 Device Plugin 进程进行通信。所以 Device Plugin 进程自身的逻辑和 kubernetes 是解耦合的，算力厂商、第三方使用者仅需要实现极简的 Device Plugin 管理 API，进行各种异构算力芯片的扩展对接。（3）新型 AI 设备的管理Device Plugin 模式满足了绝大多数的基本算力管理场景，但对于一些新型的复杂 AI 设备，仍然有所欠缺，例如大规模模型训练场景的高性能网络设备(RDMA 设

31、备)，是依赖于网络拓扑感知的，就近分配资源才能避免长距离网络访问，避免 AI 训练效率降低。云原生 AI 技术架构白皮书云原生 AI 技术概论12而 Device Plugin 模式，存在上报资源格式单一、管理模式单一等缺陷，无法满足复杂的 AI 资源设备管理场景。针对这些问题，Kubernetes 社区提出了动态资源分配(DRA:Dynamic Resource Allocation)的模式，其有以下功能特点：支持自定义资源参数：DRA 的资源分配管理采取 CustomResource(CR)的方式，CR 其高度可扩展的特征，允许开发者进行特殊 AI 设备的参数扩展；支持设备的初始化和清理过

32、程：设备的申请/注销是由中心侧控制器负责，Kubelet Plugin 则负责响应，进行设备的初始化/重置，这个过程是与 Pod 的生命周期解耦的。这个机制允许我们对于 AI 设备进行一些初始化操作；支持设备的部分分配：相较于 Device Plugin 的独占分配，DRA 支持通过 ResourceClaim 的方式，让设备在多个 Pod 或容器间的动态共享。相较于 Device Plugin 模式，DRA 有更加丰富的语义，可以满足更复杂的设备管理场景，但 DRA 带来了丰富语义和扩展性的同时，其管理成本的开销、效率也是有所增加，所以 DRA 的出现并不代表替换Device Plugin，

33、在一些传统的 AI 设备管理场景，Device Plugin 仍然是第一选择。3、矩阵算力基础设施关键技术与价值面对问题和挑战，作为 AI 云原生基础设施资源底座，kubernetes 构建了面向超节点架构的整套资源管理方案。虽然计算机超节点的 High-Speed Link 高速互联能够提供比传统互联更高的带宽，但单路径带宽仍无法匹配计算单元的吞吐，基础设施层通过构建全局多路径I/O加速技术，大幅提升了节点内与节点间I/O性能。为匹配 AI 行业所需的庞大算力需求，基础设施硬件从主从架构逐步演进至对等架构，传统的资源管理模型不再适用，需要构建面向对等架构的资源管理模型，实现资源的高效管理与合

34、理配置。（1）全局多路径 I/O 加速技术通过对比各代 GPU 的 GPU 算力和 CPU-GPU IO 带宽，不难发现传输墙的限制正在加剧，短期内不太可能得到解决。PCIe带宽非常有限，PCIe Gen3 的理论带宽是 32GB/s，PCIe Gen4 的理论带宽是64GB/s，而实测带宽大概分别是 24GB/s 和 48GB/s。在 AI 训练中，每完成一轮计算，都要同步更新一次参数，模型规模越大，参数规模一般也会更大，这样 GPU 之间通信（P2P）能力对计算效率影响就比较大。NVLink 的云原生 AI 技术架构白皮书云原生 AI 技术概论13目标是突破 PCIe 接口的带宽瓶颈，提高

35、 GPU 之间交换数据的效率。基于定制互连 NVLink，GPU 到 GPU的带宽明显快于 PCIe 带宽。另外，GPU 显存带宽（HBM、GDDR）是大模型推理的性能瓶颈。而 GPU 到CPU 之间的互连（PCIe）是瓶颈。典型的 x86 CPU 只能通过 PCIe 与 GPU 通信，而 NVLink-C2C 的带宽远超 PCIe 并具有缓存一致性的优势。目前在 GH200 和 GB200 等超级计算机中，NVLink 并开始应用于 GPU服务器之间的互连，进一步扩大 GPU（以及其显存）集群的规模。全局多路径加速是指我们可以利用单机内 CPU 与 GPU 等不同芯片的多路径，以及跨主机的多

36、路径提升 I/O 带宽，缩短数据的传输总时延；GLake 多路径通过利用 NvLink 和同一节点上的多个 PCIe 和 NVLink路径来加速 CPU-GPU IO 传输。但这远远不够，大语言模型（LLM）对显存容量的需求非常迫切，巨大的显存容量符合大模型的发展趋势。那么，这个前所未见的容量是通过大规模的机器互联来实现；在这种更大规模互联的场景下，集群内跨设备之间的 I/O 通信可以采用的路径也会越来越多，包括 CPU 与CPU，CPU 与 XPU，XPU 与 XPU 之间的高速互联；在未来超节点架构中，一个物理超节点是由很多计算和存储设备通过网络连接起来的集群；一个物理超节点可能会被拆分成

37、多个逻辑节点分配给不同租户的不同业务，这些业务可能会同时分布在多个计算单元上，这些计算不同业务对 I/O 的需求模式可能有区别。两个互相通信的设备之间可能存在不同时延，不同带宽的多条路径。如果将大量的 I/O-Intensive 负载放置到同一个物理设备上怎么样来动态选择 IO 传输路径，保证带宽的高效利用同时又能满足不同业务的 SLO 呢？有如下几个解决方法：路径规划：通过劫持底层I/O通信算子，并能够在跨集群场景下分布式劫持通信需求，结合全局拓扑，针对当前不同设备之间的通信需求快速地生成对应的可用路径；并根据每一条路径上的当前带宽和可用性规划传输的数据量大小并按需使用对应路径；在数据量传输

38、较大的场景还可以提高性能通过同时使用多个数据路径，AI 应用程序获得更高的数据传输吞吐。I/O 同时通过多条路径传输提高性能并降低延迟；我们不仅仅可以通过 XPU 之间的 High-Speed Link 还可以结合通用计算设备之间的 High-Speed Link进行 I/O 加速，从而充分利用构建起来的高速互联通道，实现价值最大化；感知业务特征和集群拓扑：通过持续在线监控和避免 I/O 负载瓶颈来简化多路径管理。当某一条路径I/O 带宽接近极限的时候或者发生故障的时候，能够通过其他路径来完成 I/O 任务，保证在多设备并行计算和数据传输过程中实现最佳性能和提升业务可用性；当路径过于饱和的时候

39、，可以根据业务优先级分配 I/O带宽，优先满足时延敏感型业务的 I/O 带宽需求，避免关键业务性能受损。云原生 AI 技术架构白皮书云原生 AI 技术概论14减少非必要数据传输：利用高性能缓存层或者在 XPU 可快速访存的内存中缓存常用的训练数据来加速I/O。与此同时也可以通过冷热数据分级分区存放，热数据尽量放在 I/O 访问时延较低的内存介质中，冷数据放在 I/O 访问较远的内存介质中，从而尽可能降低非必要的数据加载；在 AI 计算过程中，充分利用好多个 XPU 之间并行，并通过数据分片和调整 mini-batch size 来更好地利用好 XPU；（2）超节点资源管理模型传统资源管理模型的

40、基本算力单元为单台服务器，服务器模型内包含各种设备（CPU,内存以及 I/O 设备等），资源池模型由服务器模型聚合而成，其资源分配也是以服务器为基本粒度，云化场景下的云服务器也仅是设备数量存在差异，其基本建模均保持一致。超节点为去中心化的架构，虽然物理设备仍依托于服务器之上，但超节点内配备有超高速互联网络，其内所有设备均可以灵活组合成不同的算力单元，超节点架构基本算力单元不再是单台服务器，传统资源管理模型已不再适用。面向超节点架构，Google 的 TPU服务构建的层次化的资源管理模型，是业界当前比较成熟的解决方案。超节点资源管理模型与资源切片：超节点资源管理模型包含三个基本算力单元模型：XP

41、U、CPU 和内存，其他设备均建模为附属模型。在资源管理模型中将基本模型又被抽象为资源节点 Node，超节点的高速互联被抽象为连接资源节点之间边 Edge，一个超节点被抽象为一个 SuperPoD，多个 SuperPoD 组成一个集群 Cluster，资源池就是集群的聚合。SuperPoD 的资源分配模型是 XPU、CPU 和内存的组合，称为超节点资源切片 slice。其中 XPU 的资源分配粒度为设备，CPU 为 CPU Core，内存为容量。Edge 作为资源组合的约束，对资源的组合形式进行限制。比如客户申请一个 64XPU，320CPU Core,1024GB 内存的 slice，超节点

42、资源调度器不仅要调度足量的XPU、CPU 和内存资源，还要通过图匹配算法确保被调度的资源节点之间存在直连 Edge。基本算力单元之外的设备不参与资源调度过程，而是通过规格预定义的方式进行管理，在 AI 场景下这些设备的分配量一般与 XPU 资源量锚定，按照不同的 XPU 请求量划分为若干档位。超节点资源拓扑感知：AI 业务场景下所需的通信量非常大，其通信算法都会根据基础设施网络拓扑进行编排优化，以达到充分利用网络带宽的目的。为了有效利用超节点的高速互联网络，客户也需要感知到超节点内部的拓扑结构来优化通信算法。然而算力服务提供商出于安全和保密方面的考虑，一般不会对客户暴露物理信息，而是通过抽象方

43、式隐藏物理信息。AWS 提供了一套网络拓扑的抽象建模思路能够在满足通信算法优化需求的同时隐藏物理信息。超节点资源拓扑感知模型将不同的网络设备抽象为虚拟的网络节点 NN（network node），并为每一个 NN 进行逻辑编号，如 NN001，NN002。客户在查询超节点 slice 的设备拓扑时，接口会返回每一个设备所属的每个层级的 NN，客户可以根据 NN 的逻辑编号是否相同来确定云原生 AI 技术架构白皮书云原生 AI 技术概论15设备间高速互联的拓扑结构。超节点资源高可用：高可用能力是大规模集群系统必须具备的基本能力，基础设施层的高可用能力之一是故障设备替换。故障设备替换指的当客户正在

44、使用的设备出现故障时，使用一个正常设备将其替换掉，帮助客户快速恢复业务。在超节点架构下，由于超节点内的设备之间具备高速互联网络，所以可用于替换的设备必须在超节点内部，不能跨超节点进行设备替换。在超节点架构下执行故障设备替换时，资源管理平台会约束调度系统的调度范围不能超出设备所在的超节点。此外，由于超节点规模有限，为了确保超节点内存在可用于替换的设备，资源管理平台会在每个超节点内预留部分设备作为保底手段。在故障替换时会优先选择非预留的空闲设备，在非预留空闲设备不满足替换需求时才会动用预留资源。在某个预留设备被使用后，预留设备池的容量随之减少，资源管理平台会周期性的扫描超节点内设备使用状态，若存在

45、被释放的设备则将其加入预留池，以实现预留池容量的轮转。同时，资源你管理平台也会通知运维人员及时维修故障设备。在 AI 场景下，为了与 Checkpiont 机制相配合，资源管理平台会对外暴露设备替换接口。AI作业管理平台在保存好现场后调用此接口进行故障设备替换，替换成功后再通过读取checkpoint恢复业务。除设备故障外，网络断连也是典型的故障场景，超节点资源管理平台采用借轨通信的方案解决此类问题。借轨通信是指在设备 A 与 C 的当前互联路径中断的情况下，由于设备 A 和 C 仍然与设备 B 保持通信连接，设备 A 可选择从设备 B 跳转的方式与设备 C 实现通信。跳转节点通过路径规格算法

46、进行优选。3.2云原生 AI 训练系统建设要点云原生 AI 训练能力集成了 AI 调度加速、AI 训练存储加速、AI serverless 训练以及 AI 故障自愈等多项关键功能。这些能力不仅极大地提升了 AI 模型训练的效率和性能，也为企业的智能化转型提供了强有力的支持。1、AI 调度加速（1）现状与问题在训练阶段，通过大量数据和算法，AI 模型学会识别和生成规律。有别于一般的通用业务场景，AI 大云原生 AI 技术架构白皮书云原生 AI 技术概论16模型训练对数据传输的带宽和性能有更高的要求。同时，随着大模型的出现，AI 训练/推理任务不再是单卡或单机的规模，通常表现为多个容器实例组成的分

47、布式任务负载，由此对 AI 任务智能调度能力提出了更多挑战。分布式调度死锁和忙等：一个分布式训练作业通常由一批相关联的 Pod 联合执行训练任务，比如TensorFlow 中的一组 PS 和 Worker，这些 Pod 会用到相同的资源执行相同的任务，并且通常都是同时起且同时停。当集群中并发提交多个训练作业，在资源有限的情况下，每个训练作业仅部分 Pod 被成功调度从而获取到集群资源，此时各训练作业均在等待更多资源以满足作业运行的条件，造成作业之间的资源死锁和忙等，训练作业无法有效执行。算力高效利用：在大模型任务训练场景，动辄需要几百甚至几千张 GPU 卡的算力，服务器节点多、跨服务器通信需求

48、巨大，处于同一个机架、Tor（Top of Rack）或者超节点内的节点之间通信效率各不相同，同一个超节点网络拓扑内卡之间的网络通信最高，Tor 内通信效率次之，最后为普通节点之间通信。在传统的分布式并行策略中，Tensor 并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）用来拆分模型，数据并行（data parallel）用来拆分训练样本，一般来说，数据并行和流水线的通信量较小，一轮迭代在 GB 级别，模型的通信量较大，一轮迭代在上百 GB 级别。任务调度过程中不同节点和卡的分配对训练作业性能影响较大，如何选择最优的资源分配模型是对 AI

49、任务调度的巨大挑战。资源碎片化：不同训练作业所需的资源不同，任务生命周期也各不相同，集群稳定运行一段时间后，不可避免出现较多资源碎片问题，导致在集群有空余资源的情况下，某些任务依旧无法运行。（2）关键技术和价值在 AI 训练和推理过程中，任务调度具有至关重要的作用，通过对任务进行合理调度，可以有效地提高计算资源的利用率，降低计算成本。云原生平台提供多种 AI 任务智能调度能力，通过组调度（Gang）能力避免不同训练作业之间资源死锁和忙等的问题；结合节点网络拓扑调度、Tor 亲和调度和超节点分组亲和调度能力，大幅度提升 AI 训练任务性能；装箱调度和重调度配合使用，缓解集群资源碎片过多的问题，提

50、高整体资源分配率。组调度（Gang）：组调度满足了调度过程中“All or nothing”的调度需求，避免 Pod 的任意调度导致集群资源的浪费。在 AI 训练场景中，如果某些训练的 Pod 没有被调度成功，已调度完成的 Pod 会继续空等，造成资源浪费、甚至资源死锁。Gang 调度会根据训练作业所需的最小资源量进行判断与调度，如果集群剩余资源不满足该作业所有 Pod 同时运行，该训练作业不被调度，直到集群资源满足该作业内所有 pod资源需求后，作业才会被真正调度与执行。节点网络拓扑感知调度：节点内卡与卡有多种通信方式，比如 GPU 卡之间的网络连接方式分别为云原生 AI 技术架构白皮书云原

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2024 原生 AI 技术架构白皮书

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【宇***】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。