2024年云原生AI技术架构白皮书.pdf
《2024年云原生AI技术架构白皮书.pdf》由会员分享,可在线阅读,更多相关《2024年云原生AI技术架构白皮书.pdf(67页珍藏版)》请在咨信网上搜索。
1、白皮书编制组华为云计算技术有限公司叶坤奇张琦张永明蔡智源王雷博魏鹏程陶希陈佳敦朱佳玮马红伟左鹏飞付森波张超盟范恒龙鲍玥冯绍宝朱磊中国信息通信研究院云计算与大数据研究所刘如明杜岚行吟信息科技(上海)有限公司徐瑞文胡伟琪余奕陈磊熊峰第四范式(北京)技术有限公司李孟轩远盟康健科技有限公司杨宇陈浩复旦大学彭鑫沈立炜陈碧欢01背景和前言1.1大模型开创智能时代的新纪元,AI 产业迎来新一轮创新浪潮021.2云原生助力AI产业突破发展瓶颈,云原生AI成为产业发展新范式0202云原生 AI 基础设施发展和挑战2.1云原生AI技术的演进052.2算力诉求井喷,AI 产业面临挑战0603云原生 AI 技术概论3
2、.1云原生AI资源管理系统建设要点093.2云原生AI训练系统建设要点153.3云原生AI推理系统建设要点263.4云原生AI边缘云系统建设要点303.5弹性伸缩,应对 AI 任务浪涌挑战3204云原生 AI 技术应用4.1云原生AI跨地域多集群协同384.2云原生AI算力效能优化414.3云原生AI云边协同计算464.4大模型云原生化解决方案494.5云原生AI设备驱动管理5105云原生 AI 行业实践5.1社交平台 RB 云原生 AI 平台应用加速实践545.2AI 解决方案提供商 FP 多场景 AI 云原生化实践585.3医疗科技公司 HL 云原生 AI 智能医疗实践60目录目录CONT
3、ENTS 云原生 AI 技术架构白皮书背景和前言011.1大模型开创智能时代的新纪元,AI 产业迎来新一轮创新浪潮1.2云原生助力 AI 产业突破发展瓶颈,云原生 AI 成为产业发展新范式背景和前言01PART云原生 AI 技术架构白皮书背景和前言021.1大模型开创智能时代的新纪元,AI 产业迎来新一轮创新浪潮AI 软件及应用市场持续增长,AI 大模型成为产业主要增长点。据 IDC 估计,2026 年中国人工智能软件及应用市场规模将达到 211 亿美元,各行业的 AI 需求极大地推动着 AI 市场增长。随着数字经济、元宇宙等概念的逐渐兴起,人工智能进入大规模落地应用的关键时期,但其开发门槛高
4、、应用场景复杂多样、对场景标注数据依赖等问题开始显露,阻碍了规模化落地。以 ChatGPT 为代表的 AI 大模型的横空出世改变了这一局面。凭借其优越的泛化性、通用性、迁移性,AI 大模型为人工智能大规模落地带来新的希望。面对人工智能的各种挑战,AI 大模型的出现提供了通用化解决方案,从无标注数据中通过自监督学习获取大量“知识”,实现用更统一的方式推动人工智能产业落地。广泛智能需求驱动 AI 产业不断创新,大模型助力各行业生产力变革。随着办公、制造、金融、医疗、政务等场景中降本增效、生产自动化、降低风险、提高诊断准确率、提高政务服务效率等多方面的AI智能需求,AI产业迎来了井喷式的创新和发展。
5、凭借在文字、语音、图像、视频等多模态处理能力上的跃迁,AI 大模型摇身变为“助理”、“专家”走入办公室、制造车间、金融市场、医疗机构、政务大厅,结合传统软件使得各个行业更加智能化、自动化。AI 大模型已然改变了我们的生活和工作的方方面面,成为各个行业不可或缺的重要助手。1.2云原生助力 AI 产业突破发展瓶颈,云原生 AI 成为产业发展新范式AI 产业面临数据、算法、算力等多方面发展瓶颈。据 IDC 统计,中国数据规模将从 2021 年的 18.51ZB增长至 2026 年的 56.16ZB,年均增长速度 CAGR 为 24.9%,增速位居全球第一。随着数据量的高速增长,数据特征高维、模态格式
6、多样的趋势也逐渐明显,对数据的 AI 建模也相应地更加复杂,计算复杂度会随之呈指数增加,数据标注难度也会增加。同时,海量的数据将不可避免带来更大的数据噪声问题、数据偏见风险。与此同时,AI 应用场景更加多元化、复杂化,往往需要对多个任务进行深度融合和统一建模,这意味着厂商需要针对不同场景、不同任务开发大量的算法和模型,增加了 AI 应用的开发难度。算力方面,需要针对不同的场景和高性能计算能力进行拓展融合,满足研发企业的多芯部署、分布式优化、高性能计算等需求,这涉及了计算资源的灵活调度和统一运营管理,给企业 AI 创新带来了额外的成本。云原生 AI 成为 AI 产业发展的新范式。为了突破 AI
7、产业的发展瓶颈,云原生 AI 技术应运而生。一方面,云原生技术为 AI 应用运行提供了一个可扩展、高可靠的平台,更好地支持 AI 开发和使用。目前,基于Kubernetes 的云原生可以有效管理各类网络、存储和计算资源,已逐步演变为实际上的云操作系统,服务云原生 AI 技术架构白皮书背景和前言03于私有云、公有云以及混合云环境。基于其高可用特性,云原生系统可通过自动故障恢复机制在故障发生时迅速恢复服务,确保 AI 应用的稳定运行。其次,利用 Kubernetes 自动伸缩功能带来的出色扩展性,云原生可以根据 AI 应用需求快速增加或减少计算资源,满足不同场景下的计算需求。同时,云原生具备良好的
8、兼容性,可以与各种 AI 框架和工具无缝集成,实现 AI 应用的快速开发和部署。此外,云原生提供了丰富的计算(如 CPU 和 GPU)、网络和存储能力,并提供隔离和受控共享机制,加速了 AI 应用开发的效率和性能,并降低了企业的成本。另一方面,AI 也可以从调度资源、安全等方面增强云原生。在涉及多个优化标准的情况下,AI 可以分析集群的历史使用情况并预测未来工作负载模式和资源可用性,更好地调度云基础设施资源,进而降低能源消耗和使用成本。在安全方面,AI 可以分析大规模数据集并预测系统中的潜在威胁或弱点。用于检测异常网络行为的AI模型可以轻松地用于保护工作负载或在边缘部署中的一组集群,加强企业对
9、新兴网络威胁的防御。本白皮书重点关注云原生 AI 基础设施层支持 AI 开发和使用,结合云原生开源生态发展现状和行业实践,深入分析云原生 AI 技术落地所面临的技术挑战并给出具体的技术指导方案。03云原生 AI 技术架构白皮书云原生 AI 基础设施发展和挑战042.1云原生 AI 技术的演进2.2算力诉求井喷,AI 产业面临挑战云原生 AI 基础设施发展和挑战02PART云原生 AI 技术架构白皮书云原生 AI 基础设施发展和挑战05云原生技术本质上是基础设施云化和与之配套的服务(例如 CI/CD 就是如何在云化的基础设施部署软件)的技术。这在云原生 AI 里也是一样的,云原生 AI 基础设施
10、是云原生 AI 技术最为基础的一环。云原生AI 基础设施向上为 AI 训练作业、推理服务及模型开发等各类 AI 业务提供任务编排和调度能力,向下对多数据中心的异构硬件设备统一纳管并提供高效、可靠的资源供应能力。这一章将简短地回顾一下云原生 AI基础设施的技术演变历程,我们会看到如今云原生 AI 技术面临的挑战的来源。2.1云原生 AI 基础设施的演进2018 年图灵奖获得者计算机体系结构泰斗约翰 轩尼诗(John Hennessy)和戴维 帕特森(David Patterson),在颁奖典礼上发表了题为“计算机体系结构的新黄金时代”(A New Golden Age for computer
11、Architecture)的演讲,指出摩尔定律(Moore s Law)和登纳德定律(Dennard Scaling Law)走到了尽头,处理器的晶体管密度和单位面积功耗已接近极限,处理器的性能提升不再遵循摩尔定律,后摩尔定律时代到来。AI 技术的发展和新的软硬件接口抽象为云原生基础设施带来了新的挑战和机遇,以面向特定领域体系结构(Domain-Specific Architecture,DSA)处理器为代表的新架构能够提供更高的性能,更低的成本和更优的能效。2022 年 11 月 30 日 OpenAI 公司推出了智能聊天机器人 ChatGPT,在发布后的 2 个月内用户数量就突破 1 亿,
12、成为史上用户增长最快速的现象级应用。ChatGPT 表现出的对文本的超凡理解力和生成能力,让工业界对 AGI 从学术研究走进实际的商业应用有了前所未有的信心,各类基于 Transformer 架构的 AIGC 大模型应用如雨后春笋,国内也出现了百模大战的态势,更进一步出现了 Stable Diffusion 和 Sora 等多模态大模型。在近几年的大模型研究和工程实践中,业界发现模型的训练数据、参数量和计算量越大,模型的效果越好,模型规模与模型效果呈现显著的正相关,虽然学术界存在争议,但大模型的 Scaling Law 仍然是业界的基本共识。为应对大模型对算力、存储(带宽、容量)需求,必须把大
13、量加速卡和服务器节点通过高速总线和网络连接起来,利用节点内总线(Scale-Up)和节点间网络(Scale-Out)的层次化扩展能力,构建大规模 AI集群以提供充足的算力供应,随着模型尺寸的持续增长,AI 集群的规模也越来越大。典型的 AI 集群具有两个或三个网络平面及一个高速总线平面,分别是:前端网络平面,用于集群管理和 AI 作业的调度发放;后端网络(Scale-out 或 Back-end)平面,用于扩展多 AI 服务器节点,通过高性能网络 Infiniband 或以太网 https:/ AI 技术架构白皮书云原生 AI 基础设施发展和挑战06把不同节点的 GPU/NPU 卡通过 RDM
14、A 协议连通起来,主要用于模型参数的数据同步(注:也有厂商称之为参数平面);存储网络,通过专用的存储网卡和交换机将训练节点和存储设备连接起来,用于训练数据读取和模型快照(Checkpoint)存取;高速总线(Scale-Up link)平面,通过高带宽高可靠的片间总线(如:PCIe/NVlink 等)将节点内加速卡互联起来,用于大模型训推过程中的梯度更新等数据同步。2.2算力诉求井喷,AI 产业面临挑战OpenAI/Meta/字节跳动等公司近期所披露出的 AI 集群的规模都超过万卡,在他们的研究报告和相关的学术论文中提出大量当前 AI 业务在使用大规模算力集群过程中遇到的挑战和问题,这里我们列
15、举几个核心问题:线性度问题相对于单卡和单计算节点的计算效率,AI 计算任务在多卡多节点上的执行是否能够达到线性的收益目标,特别是随着集群规模的扩展,线性度能够持续保持。以模型训练为例,模型训练的吞吐(样本数/秒)=单卡训练吞吐(样本数/秒)*加速卡数量*线性度,理想的线性度是趋近于 1。通过高性能总线将多个节点的加速卡连接起来的超节点(SuperPOD),打破了传统节点的模型,如英伟达 DGX H100 支持将 32 个节点的 256 个 GPU 组成一个超节点,超节点内的 GPU HBM 和 CPU 内存统一编址,支持更大参数规模的模型加载。这超出了传统节点资源和拓扑模型的表达能力。而在 S
16、cale-Out 扩展方面,一般采用二层或三层 Spine-leaf 拓扑模型,通过无带宽的收敛 InfiniBand或以太网络将加速卡节点连接成 AI 集群。要保持 AI 算力集群中 AI 任务的线性度,需要综合作业节点间的网络拓扑和 AI 任务的并行策略及其通讯需求进行作业任务的层次化调度,这对集群的调度器提出了新的要求,即:要感知集群的资源的网络拓扑和(超)节点拓扑,并根据 AI 任务的并行模式和通讯要求,将任务切分并调度到合适的节点和卡上,目前云原生 AI 调度器方案在拓扑感知及作业并行策略表达及调度算法方面存在明显的能力缺口。大模型训练的主要并行模式和通信需求如下,通信模式具有显著特
17、征:1.2.3.周期性强,每轮迭代的通信模式一致;流数量少,单流带宽大,同步突发。通信量大,带宽需求高。云原生 AI 技术架构白皮书云原生 AI 基础设施发展和挑战07表 2-2-1 大模型并行模式和通信需求并行模式特 征通信需求Tensor 并行(TP)通信量巨大(百 GB),通信时间不可掩盖节点内 allreduce超高带宽Pipeline 并行(PP)通信量较大(模型相关,百 M-GB 级),通信时间不可掩盖/流水可掩盖跨节点 P2P中带宽数据并行(DP)通信量大(GB 级),通信时间计算可大部分掩盖跨节点 allreduce高带宽MOE 并行通信量大,通信时间不可掩盖跨节点alltoa
18、ll/allreduce高带宽集群可用度和资源利用率问题:是 AI 集群使用者和供应者共同关注的问题,集群的可用度直接关系到 AI 任务能否在预期的时间内完成,而可用度和资源利用率对企业内的 AI 基础设施部门或公有云厂商则意味着服务 SLO 能否达成,能否通过压低 AI 集群的资源成本取得盈利AI 大模型支持通过保存快照(CheckPoint)加速故障恢复,避免训练进度丢失。提升 Checkpoint 的存取性能,及时发现故障并快速恢复都有待云原生 AI 中的存储、故障和检测恢复组件的提供更加完备和高效的方案。考虑到集群内运行不同租户(公有云)、不同规格、不同运行时长的 AI 任务,容易产生
19、资源碎片,需要能够平衡集群资源利用率和 AI 任务性能目标,这要求云原生 AI 的重调度和快速任务迁移协同解决。对于 AI 开发者而言,AI 基础设施首先应该屏蔽底层基础设施的细节,使 AI 开发者可以聚焦在数据质量的提升和模型架构的优化。加速卡有不同的型号和参数、加速卡间通过不同的网络拓扑通信,不同的网络平面也有各自的带宽限制,如果 AI 任务部署前还需要考虑这些硬件因素,一方面增加了 AI 开发者的学习成本,另一方面也会耗费他们额外的精力,降低 AI 开发者的产出效率。云原生 AI 技术架构白皮书云原生 AI 技术概论083.1云原生 AI 资源管理系统建设要点3.2云原生 AI 训练系统
20、建设要点3.3云原生 AI 推理系统建设要点3.4云原生 AI 边缘云系统建设要点3.5弹性伸缩,应对 AI 任务浪涌挑战云原生 AI 技术概论03PART云原生 AI 技术架构白皮书云原生 AI 技术概论09如前文所述,云原生 AI 技术包含了很多方面,从底层的硬件和数据中心,到容器集群管理,编排调度系统,再到上层的云原生 AI 应用。而云原生 AI 由于技术较新,很多企业在构建云原生 AI 的时候仍面临很多问题,本章将对现今云原生 AI 面临的热点技术问题,给出前沿的技术指导。3.1云原生 AI 资源管理系统建设要点云原生 AI 资源管理系统涵盖了 AI 资源管理、矩阵算力基础设置管理、云
21、原生资源管理、资源画像、垂直弹性、水平弹性以及智能 HPA(Horizontal Pod Autoscaling)等多个方面,它们共同构建了一个灵活、高效、智能的 AI 资源调度与管理框架,是驱动现代企业和组织智能化转型的核心动力。1、现状与问题AI 算力资源发展至今,从传统的 CPU 到 GPU,再到百家齐鸣的 NPU、TPU、DPU 等等,AI 云计算已经进入了一个高速发展的 XPU 时代。在 AI 算力业务蓬勃发展的时代背景下,AI 算力诉求急剧膨胀,从最开始的单机单卡、单机多卡,到现在的千卡、万卡集群,这也引出了一系列的问题和挑战:集群规模快速膨胀,AI 资源管理复杂度上升。随着 AI
22、 产品的大众化、规模化,搭载商业级算力芯片的大规模算力集群,成为了各个科技型企业的必图 3-1-1 云原生 AI 技术架构云原生 AI 技术架构白皮书云原生 AI 技术概论10备武器,AI 算力集群规模也日益膨胀,这就带了不可避免的问题:如何能更高效的管理成千上万的 AI 算力资源。AI 芯片种类繁多,对于 AI 资源管理的可扩展性有了更高要求。无论是现今一家独大的英伟达,还是厚积薄发的华为、谷歌、AMD,都在推出 AI 场景算力芯片,例如英伟达的 GPU、华为的昇腾 NPU 及谷歌的 TPU。AI 算力云厂商或是 AI 型企业,面对各家算力厂商迥异的架构,也急需有一套可扩展性更好的 AI 资
23、源管理架构。参数面网络等新型 AI 资源,对于 AI 资源管理提出了新的挑战。大模型、自动驾驶、AIGC 的横空出世,大规模的算力参数面互访网络成为了必需品,参数面网络提供的超高带宽,发展出了计算机超节点架构,计算机超节点是一个由多个和多种计算(CPU/NPU),内存,IO设备等计算机资源单元,高速互联紧耦合在一起的集群计算系统,是生成式 AI 时代的产物。区别于传统以服务器中心松耦合架构,超节点是去中心化的紧耦合架构。随着技术的进一步演进,未来超节点内所有服务器的设备可做到灵活组合成为各种算力单元,也可被称为矩阵式算力。为了能够有效利用超节点内的资源,相关联的算力参数面网络设备及其拓扑的管理
24、,也就成为了 AI 算力资源管理的新课题。XPU 计算吞吐能力快速提升,I/O 瓶颈越发严重。当前 CPU 与 XPU 的发展出现严重错位;XPU 的算力虽然远超 CPU,CPU 拥有的内存容量是 XPU 无法比拟的;这就导致在海量数据训练的过程中,数据不得不同时分布在 CPU 和 XPU 的内存上,而为了最大限度发挥 XPU 算力的效率,数据必须能够尽快的被 XPU 访问到而不是浪费时间等待数据;随着 AI 大模型参数的指数级增长,AI 大模型训练和推理越来越面临内存墙和 IO 传输墙的挑战,即 XPU 内存容量和 IO 带宽的增长跟不上 AI 模型大小的增长速度。因此我们需要构建可扩展的数
25、据管道以高效地将数据传输到 XPU 计算设备至关重要。在云上多租业务场景下,我们需要注意并确保 I/O 瓶颈不会出现在重要业务场景比如对性能要求极高的推理场景。Google和 Microsoft的研究表明,高达 70%的模型训练时间被 I/O 占用。字节跳动在 MegaScale Jayashree Mohan,Amar Phanishayee,Ashish Raniwala,and Vijay Chidambaram.2021.Analyzing and mitigating data stalls in DNN training.Proc.VLDB Endow.14,5(January 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 原生 AI 技术 架构 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。