2023面向AI大模型的智算中心网络演进白皮书.pdf
《2023面向AI大模型的智算中心网络演进白皮书.pdf》由会员分享,可在线阅读,更多相关《2023面向AI大模型的智算中心网络演进白皮书.pdf(29页珍藏版)》请在咨信网上搜索。
面向 AI 大模型的智算中心网络演进白皮书(2023 年)中国移动通信研究院中国移动通信研究院目目 录录前 言.31.AI 业务发展趋势.41.1.人工智能技术发展趋势.41.2.人工智能业务发展趋势.61.3.人工智能政策发展趋势.72.AI 大模型对网络的需求.82.1.超大规模组网需求.82.2.超高带宽需求.92.3.超低时延及抖动需求.102.4.超高稳定性需求.102.5.网络自动化部署需求.113.当前网络能力与业务需求的差异点.113.1.规模差距分析.123.2.带宽差距分析.133.3.稳定性差距分析.143.4.时延、抖动差距分析.153.5.自动化能力差距分析.164.面对差异网络应对举措.174.1.大规模组网关键技术.174.1.1 网络设备硬件本身改进.174.1.2 端网协同的流控改进.194.2.超高带宽关键技术.204.2.1 网络-应用协同设计释放算力.204.2.2 链路负载均衡优化技术.204.2.3 低功耗的 400G/800G 互联方案.224.3.超高稳定性关键技术.224.3.1 基于硬件的快速感知能力.234.3.2 基于硬件的快速收敛能力.234.3.3 层次化的网络故障自愈能力.234.4.超低时延关键技术.244.4.1 集合通讯算法和网络拓扑协同.244.4.2 DPU 硬件卸载.244.4.3 静态转发时延优化.254.5 自动化关键技术.255.总结和展望.26术语定义.27缩略词表.27前前 言言人工智能是数字经济的核心驱动力,AI 大模型是人工智能的新引擎。AI 大模型指通过在海量数据上进行预训练,能够适应多种下游任务的模型,具有强大的泛化能力、自监督学习功能和精度突破性能。其已经在自然语言处理、计算机视觉、气象预报等多个领域取得了令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新范式。近年来,随着 ChatGPT 等生成式人工智能(AIGC)的突飞猛进,全球范围内的经济价值预计将达到数万亿美元。尤其在中国市场,生成式 AI 的应用规模有望在 2025 年突破 2000亿元。这一巨大的潜力不仅吸引着业内领军企业竞相推出万亿、10 万亿参数量级别的大模型,而且对底层 GPU 支撑规模提出了更高的要求,达到了万卡级别。然而,如何满足如此庞大规模的训练任务,对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。以 GPT3.5 为例,其训练过程依赖于微软专门建设的 AI 超算系统,由 1 万个 V100 GPU 组成的高性能网络集群,总计算力消耗约为 3640 PF-days。在这种情况下,寻求提供极致高性能网络已成为人工智能领域的重要研究方向之一。本白皮书将从 AI 业务发展的历程出发,深入研究大模型对网络能力的需求,分析当前网络与业务需求的差距,并探索网络技术发展趋势以弥补这一差距。我们希望,通过本白皮书的研究和分析,为未来面向 AI 大模型的智能计算中心网络发展提供有益的参考和启示。本白皮书由中国移动研究院牵头编制,联合编制单位:华为技术有限公司、锐捷网络股份有限公司、思博伦通信科技(北京有限公司)、中兴通信股份有限公司、上海云脉芯联科技有限公司、星云智联科技有限公司、中科驭数(北京)科技有限公司、博通公司、是德科技(中国)有限公司、北京大禹智芯科技有限公司本白皮书的版权归中国移动研究院所有,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。1.AI 业务发展趋势业务发展趋势1.1.人工智能技术发展趋势人工智能技术发展趋势人工智能(AI)是一种使计算机和机器能够表现出智能和类似人类思维的能力的技术和方法论。它通常包括学习与推理、语言和语音识别、视觉感知、自动化控制等多个领域。自从 20 世纪 50 年代,人工智能的研究开始以来,AI 已经走了一个漫长的历程,经历了许多发展与进步,也经历了漫长的寒冬。图 1-1 人工智能发展时间轴符号主义与专家系统(1956 年-1980 年),AI 领域的创始人之一约翰麦卡锡在 1956年提出了“人工智能”这一术语后,AI 的符号推理阶段就正式开始了。符号推理阶段的主要发展是建立起了人工智能的推理基础。在这个阶段,人们将人类智能中的逻辑进行了形式化,创造了一种称为“推理形式”的数学表示方法。联接主义与机器学习(1980 年-2012 年),AI 开始了一些深度学习和神经网络方面的探索,这两种技术是使用机器学习算法进行自动学习和推理的两种方式。1986 年,Rumelhart和 McClelland 的研究进一步加强了神经网络代表的连接主义观点,这标志着 AI 进入了“连接主义时代”。深度学习(2012 年-2017 年),20 世纪 50 年代,人们开始尝试模拟人脑的神经网络,以解决一些计算机视觉和语音识别问题。后来的时间,神经网络由于计算复杂度和可解释性等问题,经历了长时间的寒冬。直到 2012 年,Hinton 等人提出了深度学习中一种新的神经网络结构-卷积神经网络,并在 ImageNet 图像识别竞赛中获得了显著的成果。卷积神经网络具有重大的意义,推动了计算机视觉和深度学习的发展,并开拓了探索神经网络的新领域。2016 年基于深度学习的 AlphaGo 战胜围棋世界冠军,再次点燃人们对深度学习探索的热情。Transformer 模型预训练(2017 年-2022 年),2017 年谷歌发布论文 Attention Is All YouNeed,Transformer 模型引入了一种新的机制注意力机制(Attention),用于学习不同位置的词汇之间的关联关系,从而更好地表征大型语言文本中的语义和词法关系。在Transformer 中,可以使用多头注意力机制来学习输入序列中不同的信息,并根据这些信息进行分类、生成或其他任务。Transformer 架构由多个堆叠的自注意力层和前馈神经网络层组成,这种设计使得它在构造大型深度神经网络时具有巨大优势。自注意力机制解决了长序列输入的信息传递问题,允许不同位置的单词或符号与其他单词或符号之间产生交互,从而更好地捕捉序列之间的依赖关系。这意味着 Transformer 可以处理极长的文本序列,而不会产生梯度消失或爆炸问题。同时,Transformer 架构具有并行计算的能力,可以同时处理输入序列的不同部分。这样可以更快地训练和推理大型深度神经网络,尤其是在使用分布式计算和 GPU 并行计算的情况下。由于它的特殊结构和设计,Transformer 架构适合构造大型神经网络,由此开启了深度学习大模型时代。大模型也被称为基础模型(Foundation Model),其通常定义为:参数规模较大(亿级)并使用 Transformer 结构,在大规模无标注语料进行自监督训练后,可以赋能一系列下游任务的模型。BERT 和 GPT 是两种最知名的基于 Transformers 的自然语言处理模型。虽然都是基于Transformers,但 GPT 只使用了 Transformer 的解码器部分,而 BERT 使用了双向 Transformer的编码器部分;GPT 是从左到右建模文本,确保下一个预测是来自上下文的正确,而 BERT是双向建模文本,不仅考虑上下文,还考虑了文本的未来信息。由于建模方式的不同使得GPT 更适用于自然语言生成任务,如文本摘要、对话生成等,而 BERT 更适用于下游任务,如自然语言理解、文本分类、问答系统等。2018 年 10 月,Google 团队发布了 BERT 模型。2019 年 7 月,华盛顿大学研究团队在BERT 模型上进行了改进,提出了 RoBERTa 模型。RoBERTa 采用了更大的训练数据集和更长的训练时间,并且修改了模型的 Mask 机制,取得了更好的效果。2020 年 2 月,Google团队提出了 ALBERT 模型,这是 BERT 模型的一个轻量级变体。ALBERT 通过参数共享和跨层参数连接的方式减少了模型大小,同时在性能上与 BERT 相当甚至略有提升。BERT 模型经过不断的改进和迭代,逐渐成为现代自然语言处理领域中的基础和标准之一。2018 年,OpenAI 团队发布了 GPT-1,它使用了 Transformer 架构,采用了无监督学习的方法进行训练,其目标是预测下一个词语。该模型使用了 8 个 Transformer 编码器层和 12个 Transformer 解码器层。它被证明在自然语言生成任务中比较有效。2019 年,GPT-2 被提出,相比 GPT-1,GPT-2 具有更多的参数和更高的预测能力。它使用了 48 个 Transformer 编码器层和 12 个 Transformer 解码器层,参数数量达到了 1.5 亿个。2020 年,OpenAI 团队提出了 GPT-3,它是目前最大的语言模型之一,拥有 1750 亿个参数。相比于 GPT-2,在生成文本的质量、多样性和准确性等方面都有明显提升。GPT-3 采用的是自回归的生成方式,通过预测下一个词来生成文本。ChatGPT 是 OpenAI 公司于 2022 年 11 月底上线的一款具有跨时代意义的大规模智能语言模型,它使用了 OpenAI 实验室开发的 GPT-3.5 和 GPT-4 系列大型语言模型,并采用了监督学习和强化学习等技术进行微调。具体而言,为了让预训练的语言模型更加智能和准确,可以在少量已标注的数据上进行调优。这种方法会使用已标注的数据训练一个有监督的策略,用于生成从给定的提示列表所需的输出。标注者们会对 SFT 模型输出结果进行打分,这样便可以创建一个由输出数据组成的打分(排序)数据集。然后,会在该数据集上进行训练一个打分模型。最后,使用近端策略优化进一步通过打分模型对语言模型进行调整,这种方法旨在提高 ChatGPT 生成输出时的准确性和自然度。ChatGPT 展现的语言能力令人印象深刻,是具有跨时代意义的语言模型。由于大模型巨大的参数量,需要分布式计算、GPU/CPU 等异构技术及多种并行模式等方式进行训练与推理。而智算中心网络用于连接 CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能的提升对提升算力水平具有关键意义。1.2.人工智能业务发展趋势人工智能业务发展趋势中国的人工智能研究和发展方面已经取得了许多重大成就,包括在自动驾驶、机器人、语音识别和自然语言处理等领域。AI 能力已渗透多行业多环节,其中对话式 AI 产品已在部分行业进入规模化落地阶段,优化人机交互形式、流程与赋能方案,为企业“降本增效”。ChatGPT 的出现将助力对话式 AI 进一步对产业赋能。云服务提供商提供的三种基础服务模式为 SaaS、PaaS 及 IaaS。伴随着人工智能的发展,涌现出了人工智能即服务(AIaaS)和模型即服务(MaaS)。人工智能即服务,已经成为了中国 IT 行业的一个关键词。AIaaS 为企业和机构提供了一种创新的商业模式,使得他们能够更加便捷地获得人工智能服务,同时也促进了人工智能技术的进步与发展。可以提供 AIaaS 的企业数量也在持续增加,包括如华为云、百度云、阿里云和腾讯云等等。这些企业在 AI 领域投入巨大的资金和人力,为各行业提供了高品质的人工智能服务。AIaaS 的应用领域也不断拓展。AI 让传统的企业也能够通过数字化的方式创新发展。例如,金融和零售业领域的使用人工智能技术,使得他们能够更加准确的进行风险管理和发现消费者需求等。随着 AIaaS 市场的规模不断扩张,越来越多的企业也纷纷开辟了自己的人工智能服务领域。迫切需要 AI 赋能的领域包括教育、医疗、智慧城市和智能制造等。随着互联网和人工智能技术的融合,这些领域都会产生诸多的新的商业模式,从而带动整个行业的发展。模型即服务(MaaS)是基于云端提供预先训练好的机器学习模型,无需自己从头构建和维护模型。换句话说,MaaS 是为那些需要支持应用程序或工作流程的开发人员、数据科学家和企业提供预先构建好的模型的方式。MaaS 平台方通过大量数据 L0 层的基础大模型,再结合行业数据训练 L1 层的行业模型,用户通过 API 或模型压缩的方式获得 L2 层的垂直领域模型。MaaS 提供商通常提供经过大量数据集训练和优化的模型,以支持特定的用例,例如图像识别、自然语言处理、预测分析和欺诈检测,这些模型用户可以通过多方式(API、在线部署)进行使用并获得推理结果。这种方法有多个好处,包括减少开发时间和成本,以及降低那些可能没有构建自己的模型所需资源或专业知识的组织的门槛。此外,MaaS 提供商通常通过提供按需付费的定价模型,使扩展变得更加容易。一些 MaaS 提供商包括 Amazon SageMaker、Microsoft AzureMachine Learning、百度文心大模型和华为云 ModelArts 等。1.3.人工智能政策发展趋势人工智能政策发展趋势中国一直非常关注人工智能,并将其列为国家发展计划的优先领域之一。在过去一段时间,中国多部门分别发布了多项人工智能的规划性和政策性文件,目标加速人工智能在我国的发展脚步。2017 年国家工信部颁布了 促进新一代人工智能产业发展三年行动计划(2018-2020 年)的未来三年规划性文件,文件指出需要将人工智能和制造业深度赋能作为发展基础,将全新的人工智能技术的大规模落地作为发展重心,推动智慧工厂的发展,使我国未来制造业具备竞争力。2017 年 7 月国务院全新公布了政策性文件新一代人工智能发展规划,文件中明确了构建以人工智能为主研究方向的创新机构、会逐步提升人工智能的投入、大力培养人工智能全才等指导性方案,目标加快人工智能在我国的前进脚步。2018 年 9 月,国家科技部推出了“新一代人工智能开放创新平台”的新一批名单,在名单上的企业被称为“人工智能国家队”,并且数量已经增至 15 家。2020 年 8 月,国家五大部门联合发布了新一代人工智能的建设指引文件国家新一代人工智能标准体系建设指南,文件的目标是指定人工智能的标准,未来需要将重点工作投入在数据层面、算法层面、系统层面等,并优先将既有的成果应用于制造业、智慧交通、智慧金融、智慧安防等重点民生行业,并构建人工智能统一的评价平台。2023 年 2 月 24 日,国家科技部官员陈家昌发表讲话,介绍国家科技部已经将人工智能视为中国的战略性新兴技术,作为经济发展的催化剂,国家各部门后续将给予人工智能发展更多政策和资金上的支持。在刚刚 2023 年的两会报告中,ChatGPT(大模型)的人工智能词汇多次被提及,并且提出了深入产业领域的核心建议和提案,重点关注数据安全和提升产业质量。2.AI 大模型对智算中心网络的需求大模型对智算中心网络的需求从 Transformer 问世至 2023 年 ChatGPT 爆火,人们逐渐意识到随着模型参数规模增加,模型的效果越来越好,且两者之间符合 Scaling law 规律,且当模型的参数规模超过数百亿后,AI 大模型的语言理解能力、逻辑推理能力以及问题分析能力迅速提升。同时,随着模型参数规模与性能提升后,AI 大模型训练对于网络的需求相比于传统模型也随之产生变化。为满足大规模训练集群高效的分布式计算,AI 大模型训练流程中通常会包含数据并行、流水线并行及张量并行等多种并行计算模式,不同并行模式下均需要多个计算设备间进行集合通信操作。另外,训练过程中通常采用同步模式,需多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。因此,在 AI 大模型的大规模训练集群中,如何设计高效的集群组网方案,满足低时延、高吞吐的机间通信,从而降低多机多卡间数据同步的通信耗时,提升 GPU 有效计算时间占比(GPU 计算时间/整体训练时间),对于 AI 分布式训练集群的效率提升至关重要。以下将从规模、带宽、时延、稳定性及网络部署角度分析 AI 大模型对于网络的需求。2.1.超大规模组网需求超大规模组网需求AI 应用计算量呈几何级数增长,算法模型向巨量化发展,人工智能模型参数在过去十年增长了十万倍,当前 AI 超大模型的参数目前已经达到了千亿万亿的级别。训练这样的模型,毫无疑问需要超高算力。此外,超大模型对于显存的需求页很高。以 1T 参数模型为例,使用 16bit 精度存储,首先需要消耗 2TB 的存储空间。除此之外,在训练过程中,前向计算产生的激活值、反向计算产生的梯度、参数更新需要的优化器状态等中间变量均需要存储,且中间变量在单次迭代中也会不断增加。一个使用 Adam 优化器的训练过程,峰值会产生 7 倍于模型参数量的中间变量。如此高的显存消耗,意味着需要几十上百个 GPU 才能完整存储一个模型的训练过程。可是,仅仅有了大量 GPU,仍然无法训练出有效的大模型。合适的并行方式才是提升训练效率的关键。目前超大模型主要有三种并行方式:数据并行、流水线并行、张量并行。在千亿万亿级别的大模型训练时,以上三种并行都会存在。训练超大模型需要数千GPU 组成的集群。表面上看,这和云数据中心当前已经达到数万服务器的互联规模相比,还处于下风。但实际上,几千节点的 GPU 互联,比数万服务器的互联更具有挑战,因为网络能力和计算能力需要高度匹配。云数据中心使用 CPU 计算,网络需求一般在10Gbps100Gbps,并且使用传统 TCP 传输层协议。但 AI 超大模型训练使用 GPU 训练,算力比 CPU 高好几个数量级,互联网络需求在 100Gbps400Gbps,此外使用了 RDMA 协议来减少传输时延,提升网络吞吐。具体来说,数千 GPU 的高性能组网,在网络规模上有以下问题需要考虑大规模 RDMA 网络遇到的问题,例如链路头阻、PFC 死锁风暴网络性能优化,包括更高效的拥塞控制、负载均衡技术网卡连接性能问题,单主机受到硬件性能限制,如何构建数千 RDMA 的 QP 连接网络拓扑选择,是传统 Fat Tree 结构更好,还是可以参考高性能计算的 Torus,Dragonfly 等组网2.2.超高带宽需求超高带宽需求在 AI 大模型训练场景下,机内与机外的集合通信操作将产生大量的通信数据量。从机内 GPU 通信角度看,以千亿参数规模的 AI 模型为例,模型并行产生的 AllReduce 集合通信数据量将达到百 GB 级别,因此机内 GPU 间的通信带宽及方式对于流完成时间十分重要。服务器内 GPU 应支持高速互联协议,且其进一步避免了 GPU 通信过程中依靠 CPU 内存缓存数据的多次拷贝操作。从机间 GPU 通信角度看,流水线并行、数据并行及张量并行模式需要不同的通信操作,部分集合通信数据将达到百 GB 级别,且复杂的集合通信模式将在同一时刻产生多对一与一对多的通信。因此机间 GPU 的高速互联对于网络的单端口带宽、节点间的可用链路数量及网络总带宽提出了高要求。另外,GPU 与网卡间通常通过 PCIe 总线互联,PCIe 总线的通信带宽决定网卡单端口带宽能否完全发挥。以 PCIe3.0 总线(16lane对应单向 16GB/秒带宽)为例,当机间通信配备 200Gbps 的单端口带宽时,机间的网络性能将无法完全被使用。2.3.超低时延及抖动需求超低时延及抖动需求在数据通信传输过程中产生的网络时延由静态时延和动态时延两个部分构成。静态时延包含数据串行时延、设备转发时延和光电传输时延,静态时延由转发芯片的能力和传输的距离决定,当网络拓扑与通信数据量确定时,此部分时延通常为固定值,而真正对网络性能影响比较大的是动态时延。动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞和丢包引起。以 1750 亿参数规模的 GPT-3 模型训练为例,从理论估算模型分析,当动态时延从 10us提升至 1000us 时,GPU 有效计算时间占比将降低接近 10%,当网络丢包率为千分之一时,GPU 有效计算时间占比将下降 13%,当网络丢包率达到 1%时,GPU 有效计算时间占比将低于 5%。如何降低计算通信时延、提升网络吞吐是 AI 大模型智算中心能够充分释放算力的核心问题。除时延外,网络变化因素引入的时延抖动也对训练效率产生影响。训练过程中计算节点的集合通信过程一般可以拆解成多个节点间并行执行 P2P 通信,例如 N 个节点间 RingAllReduce 集合通信包含 2*(N-1)次的数据通信子流程,每个子流程中所有节点均完成 P2P通信(并行执行)才可结束这个子流程。当网络出现波动时,某两个节点间的 P2P 的流完成时间(FCT)将明显变长。因网络抖动引入的 P2P 通信时间变化可理解为木桶效率的最弱一环,将会导致其所属的子流程的完成时间也随之变长。因此,网络抖动导致集合通信的效率变低,从而影响到 AI 大模型的训练效率。2.4.超高稳定性需求超高稳定性需求Transformer 诞生以后,开启了大模型快速演进的序章。过去 5 年时间,模型从 61M,增长到 540B,翻了近 1 万倍!集群算力决定了 AI 模型训练速度的快慢,单块 V100 训练GTP-3 需要 335 年,10000 张 V100 的集群,集群系统完美线性扩展需要 12 天左右时间。网络系统的可用性是作为基础来决定整个集群的计算稳定性。一方面,网络故障域大,集群中一个网络节点的故障可能会影响数十个甚至更多的计算节点的连通性,降低系统算力的完整性;另一方面,网络性能波动影响大,网络作为集群共享资源相较于单个计算节点不容易被隔离,性能波动会导致所有计算资源的利用率都受影响。因此在 AI 大模型训练任务周期中,维持网络的稳定高效是极其重要的目标,对网络运维带来了新的挑战。在训练任务期间一旦发生故障,可能需要容错替换或者弹性扩缩容的方式来处理故障节点。一旦参与计算的节点位置发生了变化,导致当前的通信模式或许就不是最优的,需要通过作业重新排布和调度,以此来提升整体训练的效率。另外,一些网络故障(例如静默丢包)的发生是不可被预期的,一旦发生不仅会导致集合通信效率降低,同时还会引发通信库超时,造成训练业务长时间卡死,很大程度上影响训练效率。因此需要通过获取细粒度的业务流吞吐、丢包等信息,可避障自愈的耗时控制在秒级别内。2.5.网络自动化部署需求网络自动化部署需求智能无损网络的构建往往基于 RDMA 协议及拥塞控制机制,但与之相伴随的是一系列复杂多样化的配置。其中任一个参数配置错误都可能会影响到业务的性能,还有可能会引出些许不符合预期的问题。据统计,超过 90%的高性能网络故障是由配置错误导致的问题,出现这一问题的主要原因是网卡配置参数多,其中参数量取决于架构版本、业务类型和网卡类型。由于 AI 大模型训练中集群规模大,进一步增大配置的复杂度。因此,高效或自动化部署配置能够有效的提升大模型集群系统的可靠性和效率。自动化部署配置需要能够做到多台并行部署配置的能力,自动选择拥塞控制机制相关参数以及根据网卡类型和业务类型选择相关配置。同样的,在复杂的架构和配置条件下,在业务运行过程中可快速准确地故障定位,能够有效保障整体业务效率。自动化的故障检测一方面可以快速定界问题,精准推送问题至管理人员,另一方面可以减少问题定位成本,快速定位问题根因并给出解决方案。3.当前网络能力与当前网络能力与业务业务需求的差异点需求的差异点根据前面的分析可知,AI 大模型对网络的需求主要体现在规模、带宽、稳定性、时延/抖动以及自动化能力 5 个方面。从当前数据中心网络的实际能力来看,完全匹配 AI 大模型的需求在技术上仍然有一定的差距。3.1.规模差距分析规模差距分析AI 大模型分布式机器学习场景的集群规模通常在 10K 级别以上,且要求在规模组网环境下实现稳定的高传输性能,相比之下,当前数据中心网络存在以下的明显不足:(1)网络性能需求制约着组网规模的增长单纯从 AI 集群规模来看,10K+节点规模相对于采用数据中心多级 CLOS 组网架构完全可以胜任。但多级 CLOS 架构下避免拥塞并维持稳定的时延、抖动以及吞吐性能保障却是当前数据中心网络能力所不具备的。由于 AI 网络特有的流量模型(低熵、高带宽利用率、少数大象流、同步效应等),传统数据中心所采用的负载均衡技术(通常使用 ECMP 或者LAG 等)以及微突发应对策略(通常采用较低的带宽利用率预留 Headroom)在该场景中的能力不足会导致 AI 业务性能受损,从而制约着 AI 集群的规模。(2)网卡资源不足限制了集群规模的增长RDMA 技术可以大幅提升通信节点之间的数据访问性能并降低 CPU 的负荷,在 AI/HPC集群中有着广泛的应用,是面向应用开发者高性能通信库的底层支撑技术。而原生 RDMA 协议中通常采用可靠面向连接的传输方式,RDMA 网卡需要为每一个连接维护大量的协议状态,进而消耗掉大量的片上缓存。综合来看需要占用网卡缓存资源的信息主要包括:QP Context 上下文信息:用于缓存 QP 对应上下文信息,经验值每个 QP 需要缓存 200B以上的内容内存地址翻译表(MTT):内部逻辑地址与主机内存物理地址的映射表内存保护表(MPT):用于本地和远端 RDMA 访问时做鉴权功能拥塞控制/流控状态:每一个拥塞控制/流控组都会对应维护一组拥塞控制/流控的状态信息以及对应的限速或窗口数据,通常这些数据会随着部署规模的增加而需要更多的缓存空间,也是影响大规模 QP 部署的主要因素由于在芯片设计时有限面积对应的 RAM 空间终究也是有限的,通常分配到如上缓存类别中,整体规模都不会太大,进而网卡的资源限制了网卡可以支持的 QP 对数量,考虑到大模型训练的集群规模,如何减少 QP 需求以及优化 QP 可支持数量是当前迫切需要解决的问题。(3)拥塞控制算法能力不足是限制集群规模的重要因素根据 AI 大模型训练的组网规模需求,网络中的通信节点可达数千卡规模,且训练过程中包含多种并行模式,通信数据模型呈现多点互相通信与“大象流”的特性。而当前网络的交换容量与缓存空间有限,易产生网络拥塞和丢包问题。当前 RoCEv2 网络中最常用的拥塞控制算法为 DCQCN 算法,该算法在在 10K+节点级的 AI 大模型网络中存在明显的性能不足问题,主要包含以下 3 点:流控调参复杂度高:主流的拥塞控制算法都基于启发式算法,涉及众多的算法参数的配置和调优。不同参数的组合对特定物理网络中业务的性能影响较大。调参的复杂性在AI 大模型网络中显得尤为突出,进而成为制约网络规模的重要因素。以典型的 DCQCN算法为例,实际生产系统中算法参数的调整涉及 Alpha 因子更新、降速阶段、升速阶段以及拥塞通知等 15+算法参数的设置。此外网络设备侧的参数含 ECN/PFC 水线、QoS策略等可变参数,流控调参工作的复杂性自是不言而喻。实践表明,即便在小规模 ROCE网络中,流控调参工作往往需要专业人士持续投入数周的时间,其高昂的精调成本和经验在 AI 大模型网络中显然不具备可复制性。PFC 协议有缺陷:当前几乎所有的拥塞控制算法均将 PFC 作为拥塞控制失效场景下的最后一道屏障,然而,由于 PFC 协议本身的局限性,导致依赖 PFC 协议的网络规模受限。首先,在高度冗余的网络拓扑中(如多级 CLOS 网络),传统的 PFC 协议容易出现死锁问题,可导致网络性能急速归零,而通过 Watchdog 等技术手段预防死锁也会导致协议配置的复杂化。其次,由于 PFC 协议仅支持接口队列级流控,这种粗颗粒度的流控机制极易引发头端阻塞和流间公平性问题,目前尚没有一种拥塞控制算法能完美地解决这些问题。在 AI 大模型网络中,高吞吐和低时延抖动需求的叠加要求网络最大限度避免 PFC 以及报文排队现象的发生,这对当前拥塞控制算法的能力提出了更高的要求;水线调节不灵活:为了配合端侧拥塞控制算法的实施,网络设备涉及到 ECN、PFC 等协议的水线配置和灵活调整。这些水线的合理设置对于网络的整体性能影响极大,其具体的取值与业务流量模型、网络设备架构、网络拓扑、网络规模等信息息息相关。传统小规模网络中基于人工的配置方式显然不满足 AI 大模型网络规模化建设和运维的需求,需要一定的自动化水线调节甚至 AI 智能水线能力的建设和积累。3.2.有效带宽差距分析有效带宽差距分析在带宽需求方面,一方面 AI 大模型对网络的互联带宽有明确的要求,另一方面需要在高互联带宽的前提下保持 AI 应用通信的吞吐性能。这些需求虽然在传统数据中心中也有体现,但在面向 AI 业务的网络中仍然呈现出不同的特征,具体分析如下:(1)负载均衡能力不足带来的挑战在传统数据中心网络中,数量较多的小流使得传统基于流的负载均衡技术虽然不感知网络的实际状态,却仍然可以达到较好的负载均衡和拥塞避免的效果。而 AI 场景流量特征的巨大差异导致传统负载均衡技术失效,其本质原因是基于流的负载均衡技术并不能感知上下游网络实际的利用率和拥塞状态,引发链路极化进而导致频繁的拥塞、丢包以及时延抖动指标的劣化。有测试数据表明,在不产生拥塞的情况下,ECMP 流级负载均衡导致约有 10%的应用流完成时间指标是理想状态下的 1.5 倍以上,最坏的情况下甚至达到 2.5 倍,应用性能劣化明显。因此在面向 AI 的网络中,需要网络基于实时状态信息支持更细颗粒度的负载均衡能力。(2)RDMA 拥塞控制算法的挑战分布式高性能应用的特征是多对一通信的 Incast 流量模型,对于以太网的设备,Incast流量易造成设备内部队列缓存的瞬时突发拥塞甚至丢包,带来应用时延的增加和吞吐的下降,从而损害分布式应用的性能。解决网络拥塞丢包实际上是要防止过多的数据注入到网络中造成拥塞,使设备缓存或链路容量不会过载。DCQCN 目前是 RDMA 网络应用最广泛的拥塞控制算法,也是典型的被动拥塞控制算法。其发送端根据接收到的 ECN 标记报文,利用 AIMD 机制调整发送速率。由于 1 个比特的 ECN 信号只能定性不可定量地表示拥塞,端测需要探测式调整发送速率,导致收敛速度慢,引起网络吞吐性能下降。(3)超高互联带宽的挑战AI 服务器当前采用的普遍是 PCIE4.0,、5.0,目前正在向 6.0 的规格发展。相比 PCIe 4.0相比,PCIe 5.0 速率提升 1 倍,带宽最大支持 x16,可支撑更高性能的业务。AI 集群当前普遍采用单卡 100GE/200GE 的高性能网卡,高端网卡已经达到 400G 接口,对于网络接入层的盒式交换机,其也需要在接入端配套为 100G/200G 甚至更高速率的 400G 交换机,汇聚端需要 800G 交换机,这对交换机设备容量的需求提出了挑战。3.3.稳定性差距分析稳定性差距分析当 AI 集群规模达到一定量级后,如何保障集群系统的稳定性,是除了性能外必须面对的另一个挑战。网络的稳定性一方面决定了整个集群的计算稳定性,另一方面其引发的影响具有放大效应,根本原因在于:网络故障域大:相比单点 GPU 故障只影响集群算力的千分之几,网络故障会影响数十个甚至更多 GPU 的连通性,只有网络稳定才能维持系统算力的完整性。网络性能波动影响大:相比单个低性能 GPU 或服务器容易被隔离,网络作为集群共享资源,性能波动会导致所有计算资源的利用率都受影响。对比当前数据中心在稳定性方面的能力,在如下几个方面仍然略显不足:(1)故障收敛时间过长导致业务性能受损在 AI 大模型场景下,网络故障收敛时间越长,算力损失越大,性能敏感业务体验也越差。然而可靠性再高的网络仍然不可避免出现链路级以及节点级的故障,网络规模越大,出现故障的概率越大。在大规模网络环境中,网络节点和链路数量激增的同时也带来了故障事件的增加(典型云数据中心交换机的硬件故障率通常在 0.15 左右)。当链路故障发生时,传统收敛技术依赖控制面的动态路由协议的信息交互和重新选路,收敛时间较长,通常达到秒级甚至十秒级,即便采用数据面故障快速检测恢复技术(如 BFD 检测,主备路径切换),其故障收敛性能仍然在几十毫秒以上,其收敛时长均远大于 AI 高性能网络的 RTT 时延。网络故障发展成为性能损伤事件基本是必然且不可接受的。如何提升网络在故障场景中的收敛性能是当前网络亟待解决的问题之一。(2)缺乏高效的端网协同机制导致算侧无法快速响应网络故障当前数据中心网络故障通常依靠网络本身的收敛能力或者运维手段实现故障隔离和恢复,对于丢包、时延不敏感的业务流量而言已经足够。在传统的无损网络中,ECN/PFC 等粗颗粒度端网协同机制也可以有效实现拥塞避免。然而,在 AI 高性能网络中,业务对丢包、时延以及抖动性能都异常敏感,如果网络侧故障不能快速准确地传递到端侧(智能网卡/DPU)并进行精准合理的源端行为控制(包括速率调节和路径控制等),拥塞导致的丢包、时延抖动以及吞吐性能下降则是必然的结果。由此可见,支持高效的端网协同机制是 AI 网络稳定性的重要一环,也是当前网络的主要能力短板。3.4.时延、抖动差距分析时延、抖动差距分析AI 大模型应用对端到端通信时延和抖动性能提出了较高的要求,通常要求平均时延需要控制在数 us,长尾时延控制在 10us 及以下。对比当前的网络能力,存在如下差距:(1)网络拥塞导致的动态时延是实现低时延通信的主要障碍典型数据中心交换机的硬件转发时延(静态时延)通常在 500ns-10us 之间,在 AI 业务节点端到端通信时延(通常都在几十甚至上百 ms)中的占比较小,而由拥塞导致的排队时延(动态时延)可以达到几十 ms 甚至亚秒级,是导致时延指标不达预期的主要原因。由前面的分析可知,当前主流的拥塞控制算法在 AI 高性能网络中均无法避免局部拥塞的问题,需要更精准、及时的拥塞控制机制实现 AI 业务低时延的基本需求。(2)集合通信的流同步效应导致抖动成为影响应用性能的关键因素AI 场景中常用的集合通信具有明显的流同步效应,这种同步效应要求网络不仅要做到低时延,且时延抖动要尽可能降到最低。由于木桶效应,集合通信会放大长尾时延对应用性能的影响,因而抖动的控制相比时延的平均值而言更具挑战性。即便无拥塞丢包,不合理的负载均衡、随机的排队时延依然会让抖动指标劣化,进而导致应用性能的下降。相关测试数据表明,在 AI 场景中,对比传统基于流的负载均衡技术,逐包负载均衡带来时延抖动下降的同时,应用 JCT 指标可以获得高达 40%的性能增益。由此可见,对时延抖动的有效控制是 AI 高性能网络的重要需求,需要合理的技术手段来弥补当前网络抖动控制能力的不足。(3)机内和机间网络缺乏协同导致整体通信性能受限当前机内节点间通信通常以 PCIE、NVLink、UPI、CXL 等高速互联总线技术为主,机间通信则由网卡和网络设备组成高性能网络。机内互联总线具有带宽高性能好的优势,但总体扩展能力有限且容易出现局部性能瓶颈。机间通信虽然性能方面略逊一筹,但扩展性好。当前机内网络和机间网络缺少灵活的协同机制,容易出现局部热点导致端到端通信性能受限,需要通过合理的软件、机内、机间网络的协同设计实现硬件资源的高效利用。3.5.自动化能力差距分析自动化能力差距分析SDN 已经诞生近 10 年时间,相关的自动化技术也相对成熟。但传统的 SDN 自动化主要是建立在通用计算网络之上,通过网络设备部署 VXLAN 特性,将业务平面与物理网络状态解耦。网络控制器在自动化部署、变更时只需要编排业务网络,映射到基础物理网络就是建立 IP 可达的隧道,自动化管理能力简单、高效。在 AI 大模型训练场景下,当大规模 AI 网络或者对安全隔离有独特的需求时,网络建设可以引入 VXLAN 特性,传统网络控制器具备自动化编排能力。但多数情况下 AI 参数面网络是一个封闭的专用网络。基于训练效率考虑,一种典型的网络架构是 Underlay 直接承载 AI 训练任务,不再划分 Overlay 平面。同时为了充分利用设备转发能力,设备组间不再配置 M-lag,GPU 使用单归方式接入网络。最后,由于 AI 训练场景下,网流动辄 100G,200G 乃至 400G,传统的智能流分析技术已经无法解决 AI 训练场景下的可视化问题。隐患识别和故障预测、闭环一定程度上依赖可视化- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 面向 AI 模型 中心 网络 演进 白皮书
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文