运营商大模型硬件基础设施创新及RDMA流量控制技术研究.pdf
《运营商大模型硬件基础设施创新及RDMA流量控制技术研究.pdf》由会员分享,可在线阅读,更多相关《运营商大模型硬件基础设施创新及RDMA流量控制技术研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、E0运营商大模型硬件基础设施创新及 RDMA流量控制技术研究车碧瑶1张永航2廖怡2唐剑2樊小平2赵继壮1陆钢1(1.中国电信股份有限公司研究院,北京 102209;2.中国电信天翼云科技有限公司,北京 100007)摘要:从业界大模型硬件基础设施创新的主要模式出发,论述了电信运营商在该领域自主创新的路线选择考虑。基于实际组网环境和业务场景提出需求,设计了一种支持 NO-PFC、交换机免配置的拥塞控制算法,使用 RTT 作为拥塞感知信号,控制交换机队列长度,实现低延迟。关键词:RDMA 拥塞控制;大模型基础设施创新;运营商数据中心网络中图分类号:TP30;F124 文献标志码:A引用格式:车碧瑶
2、,张永航,廖怡,等.运营商大模型硬件基础设施创新及 RDMA 流量控制技术研究J.信息通信技术与政策,2024,50(2):26-32.DOI:10.12267/j.issn.2096-5931.2024.02.0050 引言“真正认真对待软件的人应该自己制造硬件”1。经过十几年的发展,云计算已经走到了硬件创新成为行业主要驱动力的阶段。随着 2022 年底大模型时代的开启,全球头部云服务商 2023 年除了推出自己的各种大模型,也坚定地在大模型硬件基础设施上进行了自主研发。本文首先对电信运营商在大模型硬件基础设施领域自主创新的路线选择进行了分析和研究,然后重点论述了基于中国电信云网融合大科创实
3、验装置在远程直接内存访问(Remote Direct Memory Access,RDMA)拥塞控制方面的研究进展。1 运营商大模型硬件基础设施创新路线图大模型硬件基础设施创新主要包括以下 3 个层面。一是研发人工智能(Artificial Intelligence,AI)算力芯片。2023 年,AWS 推出第二代 AI 芯片 Trainium 2,微软推出 Maia 100,谷歌推出 TPUv5p,这些产品均选择走可对特定 AI 业务场景加速的专用集成电路(Application Specific Integrated Circuit,ASIC)芯片路线,而不是通用图形处理器(Graphic
4、s Processing Unit,GPU)路线。二是研发数据处理单元(Data Processing Unit,DPU)。例如,AWS 的 Nitro、谷歌的 IPU、阿里巴巴的CIPU、中国电信的紫金 DPU 等。DPU 设备是云服务商的根本技术所在,云主机最重要的虚拟化、网络通信、存储、安全功能全部下沉到此设备中;与过去智能网卡只能提供部分软件卸载不同,现在整个基础架构软件堆栈都可以在 DPU 上实现,中央处理器(Central Processing Unit,CPU)释放后可给最终用户售卖更多核;头部云服务商自研 DPU 的产品路线上均选择对能够体现自身架构独特性的功能进行强化;因功能
5、非常复杂且需要嵌入云服务商各自独特的功能,故产业界62N510 DPU 标准化程度还不高。三是研发运行在数据中心专用通信硬件上的实时处理逻辑。例如,嵌入高速网卡中的 RDMA 拥塞控制逻辑、网络负载均衡逻辑和交换机上的定制化协议处理逻辑等。第一、二层面硬件自主研发的商业价值主要体现在:一方面,自研芯片可给云服务商加持其他公司难以复制的核心竞争力,如 AWS 的 IPU Nitro;另一方面,大幅降低云服务商采购第三方先进芯片的投资额,可以预估一旦谷歌原生多模态大模型 Gemini 的领先效果被业界广泛认可,则训练 Gemini 的谷歌张量处理器(Tensor Processing Unit,T
6、PU)会一改以前只是自用的局面,外部客户也会从通用 GPU 转向更便宜的谷歌自研芯片 TPU,谷歌会大大降低外购 GPU 成本。但第一、二层面的硬件研发需要巨大的投入和时间积累并且失败风险很高,目前的实现路径有以下几种模式。一是与大型芯片公司联合研发,既可解决自身能力不足问题,又提高了项目的成功率。例如,微软组建数百人的独 立团队,与 AMD 联合 开 发 代 号 名 为Athena 的 AI 芯片,此项目预估已投入 20 亿美元以上;谷歌 TPU v1v4 均由博通共同设计,除了芯片设计之外,博通公司还为谷歌提供了关键的知识产权,并负责了制造、测试和封装新芯片等步骤,以供应谷歌的新数据中心,
7、博通公司还与其他客户(如 Facebook、微软和AT&T 等公司)合作设计 ASIC 芯片。二是收购半导体设计公司,走独立自主的芯片设计路线。例如,亚马逊多年前收购 Annapurna Labs,设计出的 AI 推理/训练和网络芯片均已规模部署。三是收购初创公司获得完整知识产权(Intellectual Property,IP)和 人 才,如 微 软 收 购 DPU 初 创 公 司Fungible。四是组建设计团队,直接购买第三方完整 IP 修改后定制出自己的芯片,但除了因符合云服务商定制化需求的 IP 供应商很少外,商务合作模式也受限于运营商标准化采购流程比较难以操作。五是与已经成功流片的
8、小体量的初创设备商合作进行上层功能定制,快速推出自己的芯片。六是基于现场可编程门阵列(Field Programmable Gate Array,FPGA)开展核心 IP 完全自主可控的产品研发,逐步积累芯片研发经验,时机成熟启动流片,最后实现低成本芯片规模化部署;微软早在 2010 年就启动了以 FPGA 路线为主的硬件研发;由于 FPGA 在信息通信网络设备中广泛存在,运营商在云中选择同样的 FPGA 路线可实现 IP 的复用;针对高端云网设备(高速 DPU+高速交换机)极难解耦的困境,运营商端侧的 FPGA 设备可以实现异构厂家交换机协议的兼容,保持运营商对网络的核心掌控力。综上所述,结
9、合运营商自身业务场景、实际需求和研发现状,对硬件基础设施创新 3 个层面分析如下:芯片研发耗时漫长,投资巨大,见效慢,且流片失败风险极高。选择上层功能定制合作模式的自研芯片见效快,但由于运营商研发人员没有真正深度参与 IP 设计,从长远看不利于核心竞争力的掌控。因此,在第三层面研发嵌入到特殊硬件中的硬件逻辑则相对周期较短,风险可控,实现独有技术架构的可能性较大。例如,随着业界 100 G 以上高速网卡在需求方引导下逐步开放可编程接口,研发面向大模型智算场景运行在高速网卡上的 RDMA 流量控制逻辑是一种性价比较高的选择。RDMA 流量控制技术是保证大模型训练网络性能的关键技术之一。RDMA 流
10、量控制技术主要包括RDMA 拥塞控制与 RDMA 多路径负载均衡两种技术:RDMA 拥塞控制技术用于调控各个计算端服务器向数据中心网络的发送数据的速度;RDMA 多路径负载均衡技术的目标是让流入网络的报文公平且最大化地利用组网中所有物理链路,尽快完成流传递,避免出现一部分链路过载而另一部分链路利用率不高的情况。这两种技术现阶段都需要在符合特定规范的硬件中嵌入运营商自主研发的控制逻辑,才能在 100 G、200 G、400 G 甚至未来 800 G 的高速网卡和高速交换机中发挥作用。2023 年,中国电信股份有限公司研究院与中国电信天翼云科技有限公司紧密协同在 RDMA 拥塞控制方面持续发力,结
11、合运营商智算网络规模大、可靠性要求高等特征确定研发目标:重点关注可部署性,尽可能破除对基于优先级的流量控制(Priority-Based Flow Control,PFC)的依赖,简化交换机配置,避免繁琐的显式拥塞通知(Explicit Congestion Notification,ECN)水线调优,得到高速、NO-PFC、NO-ECN、Zero Queuing 的72E0拥塞控制算法。基于大科创装置仿真实验平台和物理实验平台,通过方法创新不断挑战性能曲线,自主研发拥塞 控 制 技 术(Chinatelecom Congestion Control,CTCC),在 Incast 场 景、全
12、闪 存 储 场 景、混 合 专 家(Mixed of Expert,MoE)大模型训练场景实测结果有明显对比优势。2 RDMA 流量控制技术业界研究现状2.1 主流技术路线随着大模型算力性能飞速提升,为实现更高的GPU 计算加速比,云主机网络带宽从主流通用云计算的单端口 25 G 演进到单端口 400 G,此时基于软件的网络堆栈已经无法发挥出网卡的全部性能。头部云服务商在高算力数据中心的各种业务中开始广泛采用RDMA 技术,将网络堆栈卸载到网卡硬件中,实现数据直接传输。但 RDMA 网络在协调低延迟、高带宽利用率和高稳定性方面面临着挑战。由于网络丢包对业务(尤其是大模型训练业务)影响较大,避免
13、网络拥塞并发挥网络全链路负载是保证算网协同场景性能的关键,云服务提供商都在此领域积极布局自主研发创新。数据中心网络拥塞主要由 Incast 流量和流量调度不均导致,为应对这两类场景,提高 RDMA 网络的性能和可靠性,业界采用拥塞控制算法和流量路径负载均衡两种技术路线。前者致力于提出高效的拥塞控制协议,感知链路拥塞状态后进行流级别控速;后者调整进入网络的各种流量路径避免拥塞,特别是解决在大模型训练业务场景下复杂的组网架构、通信模式极易引起的局部链路过载等问题。主流拥塞控制算法主要通 过 ECN、往返 时延(Round-Trip Time,RTT)、带 内 网 络 遥 测(In-band Net
14、work Telemetry,INT)等信号感知链路拥塞,并做出微秒级响应。当前业界最普遍采用的、基于 ECN 信号的代表性算法是微软和 Mellanox 联合研发的数据中心量化拥塞通知(Data Center Quantized Congestion Notification,DCQCN)算法2,需要交换机在拥塞时标记数据包,并由接收侧反馈到发送侧网卡进行速率控制。基于 RTT 的方案依赖网卡硬件实现高精度的时延测试,不需要交换机参与,部署相对容易,谷歌提出的 TIMELY 和 SWIFT 算法3-4均采用该路线;基于INT 信号的方案依赖链路中交换机记录的出口速率和队列深度等信息精确控制飞
15、行流量,要求交换机支持特定格式的 INT 报文5-6。在流量路径负载均衡控制方面,业界主流技术路线包括动态负载均衡和多路径传输两种。动态负载均衡感知链路故障或拥塞状态,修改数据包头中生成负载均衡哈希(Hash)算法 Key 值的相关字段,实现自适应路由,腾讯提出端网协同的快速故障自愈 Hash DODGING 方案7采用该路线,网卡和交换机上采用基于 Hash 偏移的网络路径控制方法,感知故障后终端修改数据包头的服务类型字段值实现重新选路;多路径传输路线的主要设计思路是包级别甚至信元(Cell)级别的负载均衡实现方案,以解决传统等价多路径(Equal Cost Multipath,ECMP)算
16、法在长/短流混合场景负载分配不均导致长尾时延的问题。AWS 的 SRD协议8实现逐包转发的负载均衡技术,依赖自研芯片Nitro 完 成 乱 序 重 排。谷 歌 提 出 新 型 网 络 架 构Aquila9,定制 TiN(ToR-in-NIC)芯片实现网卡和交换机硬件级的紧耦合改造,采用私有 L2 Cell Based 协议GNet 提供 Cell 级交换能力。博通公司采用分布式分散式机箱(Distributed Disaggregated Chassis,DDC)组网方案10,提出基于网卡的全网端到端 Cell 改造以及仅在叶脊网络(Leaf-Spine)之间进行 Cell 改造的实现方案。目
17、前,先进的负载均衡方案大多依赖端网协同,需要交换机和网卡提供各种定制化能力。由于尚未形成统一的标准,设备商基于各自独有技术提供能力支持,现阶段开放性不足,难以异厂家设备组网,在运营商现网环境中大规模应用存在阻碍。端到端拥塞控制算法可以在不进行业务软件、网络硬件设备更新的前提下优化网络拥塞和时延,是提升大规模集群网络通信性能最具成本效益的方法。结合现网环境和业务场景,运营商可先着手于短期内能落地、易部署的高效拥塞控制算法,在数据中心改造升级过程中结合实际情况探索端网协同的负载均衡策略,提出更完备的流量控制解决方案。2.2 面临挑战与优化目标DCQCN 是标准网卡中默认的 RDMA 拥塞控制算法,
18、只有当交换机队列累积至超过 ECN 水线才能感知拥塞,导致在大规模 Incast 场景拥塞缓解速度慢,收敛前持续触发 PFC。此外,DCQCN 算法超参数数量过82N510 多,性能与参数选择强相关,在实际部署中调参困难。此外,DCQCN 算法完全依赖于路径中交换机标记ECN 拥塞后 对端返 回 给 发 送 端 的 拥 塞 通 知 报 文(Congestion Notification Packet,CNP)调速,此方案有如下优劣势。在各个发送端,由于一台交换机下所有发送端收到的拥塞信号接近,很容易导致各个流以相同的计算公式在同等输入条件下得到的速度相近,吞吐波形图中体现为各条流曲线基本重合。
19、通过大科创装置的物理实验平台,观测到 DCQCN 吞吐量接近链路带宽且各条流曲线公平性非常好。ECN 信号无法反馈准确的交换机队列长度,拥塞情况下极易导致队列累积触发 PFC。如果一条链路上出现多种流量混跑,因为交换机每个端口的优先级队列只有 8 条,超过 8 个业务时必然存在多个业务共享一个交换机优先级队列的情况。各个业务的流量模型不同时,可能出现共享队列的流彼此影响,触发 PFC时端口暂停导致受害者流的问题。调速应同时考虑交换机链路和主机处理速度双重因素,但交换机的 ECN 信号无法反映对端主机上的业务处理速度。F1 1 /RTT#ACK/NACK/RTT FRTT#9RTTF)NACKF
20、LF FACK/NACK#FRTT 图 1 CTCC 拥塞控制算法实现框架综合考虑运营商现网设备现状与实际业务需求,从业务性能、网络可靠性、成本等方面出发,提出自主可控的 CTCC 拥塞控制算法 2023 年设计目标:一是降低业务延迟,满足 RDMA 网络高吞吐、低时延的需求。算法基于端到端的 RTT 信号监控网络拥塞状态,快速做出响应,控制交换机队列长度,减少数据包在网络中的排队延迟和抖动。二是支持 NO-PFC。算法能够在NO-PFC 配置下正常工作,避免持续丢包降低网络性能,保证网络可靠性。三是简化部署步骤。工业级网络实践中往往强调可部署性,新的拥塞控制方案应当不需要对网络设备进行任何修
21、改,主要在网卡上实现和配置,降低部署的成本和复杂度。3 中国电信自研 RDMA 拥塞控制算法交换机队列长度是网络拥塞状态的直接反应,维持稳定的低交换机队列能够同时实现低延迟和高吞吐。排除软件侧时延抖动,RTT 大小主要受数据包经过交换机的排队延迟影响,能够快速反应网络拥塞状态的变化。随着硬件性能的提升,网卡能够提供更高的时钟精度和更准确的时间戳功能。这使得通过网卡进行高精度延迟测量成为可能,为基于 RTT 信号的数据中心 RDMA 拥塞控制协议的设计与实现提供了前提条件。针对 DCQCN 基于 ECN 信号调速导致队列累积、对网络拥塞反应滞后、PFC 依赖程度较高等问题,考虑使用 RTT 信号
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运营商 模型 硬件 基础设施 创新 RDMA 流量 控制 技术研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。