确定性光传输支撑广域长距算力互联.pdf
《确定性光传输支撑广域长距算力互联.pdf》由会员分享,可在线阅读,更多相关《确定性光传输支撑广域长距算力互联.pdf(7页珍藏版)》请在咨信网上搜索。
1、邮电设计技术/2024/02收稿日期:2024-01-160 引言2022年1月,国务院印发 “十四五”数字经济发展规划,提出加快建设信息网络基础设施,有序推进基础设施智能升级,加快实施“东数西算”工程的要求。随着国家东数西算战略的推进,越来越多的算力协同场景以及跨地域大数据搬移场景开始涌现。数据和算力已经不再局限于单一的数据中心,更多的新型计算任务和大量数据需要在多个算力中心间流转并进行算力协同,算力中心间的长距高性能传输能力已成为影响业务性能的关键因素。算力互联意味着将算力中心内部的DCN网络进行延伸,典型的DCN网络覆盖范围在10 km以内,且高性能计算DCN网络当前主流的协议为远程内存
2、直接访 问(Remote Direct Memory Access,RDMA),由 于RDMA协议要求无损传输,当将DCN网络扩展到广域百公里至千公里的范围时,会导致超长的链路传输时延,进而导致网络状态反馈滞后。然而,现有的传输层协议的拥塞控制算法存在不足之处(例如,在长距离传输中,Cubic算法的带宽利用率低,丢包现象较为严重),无法有效地利用带宽。为了应对超长距传输的挑战,满足高性能算力互连的需求,承载网必须具备长距无损确定性传输能力,并且需要与终端侧进行协同,以确保高性能协议的传输效率。因此,如何构确定性光传输支撑广域长距算力互联Deterministic Optical Transmi
3、ssion for Wide Area andLong-distance Computing Power Interconnection关键词:长距 RDMA;全光网;OTN;OXCdoi:10.12045/j.issn.1007-3043.2024.02.002文章编号:1007-3043(2024)02-0007-07中图分类号:TN913文献标识码:A开放科学(资源服务)标识码(OSID):摘要:高性能算力产业的需求随着人工智能应用的普及和不断发展而持续增加,出现了越来越多的算力协同场景。介绍了算力互联、数据传输中,影响RDMA长距吞吐量的因素,提出了超大带宽及确定性体验的网络解决方案,
4、以实现高性能算力互联。Abstract:The industrial demand for high-performance computing has been increasing continuously with the development and popular-ization of artificial intelligence applications,and more and more computing collaborative scenarios have emerged.It introducesthe key factors that affect RDMA lo
5、ng-distance throughput in computing power interconnection and data transmission,and anetwork solution with ultra-high bandwidth and deterministic experience is proposed to acheive high-performance comput-ing interconnection.Keywords:Long-distance RDMA;All-optical network;OTN;OXC王光全1,满祥锟1,徐博华1,吕福华2,孟
6、万红2(1.中国联通研究院,北京 100048;2.华为技术有限公司,广东 深圳 518129)Wang Guangquan1,Man Xiangkun1,Xu Bohua1,L Fuhua2,Meng Wanhong2(1.China Unicom Research Institute,Beijing 100048,China;2.Huawei Technologies Co.,Ltd.,Shenzhen 518129,China)王光全,满祥锟,徐博华,吕福华,孟万红确定性光传输支撑广域长距算力互联本期专题Monthly Topic引用格式:王光全,满祥锟,徐博华,等.确定性光传输支撑广域
7、长距算力互联 J.邮电设计技术,2024(2):7-13.072024/02/DTPT建大带宽的确定性网络以实现千公里级RDMA的无损传输是当前广域算力互联领域的研究热点。1 RDMA现状及应用于广域算力互联的挑战1.1 RDMA 技术介绍传统的TCP/IP存在着网络传输和数据处理延迟过大、多次数据拷贝和中断处理、复杂的TCP/IP协议处理等问题。RDMA1-2支持本端节点“直接”访问远端节点内存的操作,本端节点可以像访问本地内存一样,绕过传统以太网中复杂的TCP/IP网络协议栈读写远端内存。由网卡直接进行内存读写操作,能够释放CPU算力并降低数据的传输时延,这是一种为了解决网络传输中服务器端
8、数据处理延迟问题而产生的技术。RDMA有3种传输模式:RDMA Send、RDMA Read和RDMA Write。如图1所示,其协议传输的主要特征是:以数据块为单元,一次把所要传输数据根据PMTU大小进行切片,直到所有数据块传输完毕;采用 PSN系列号机制确认数据的完整性,如果有丢包,则进行重传;可以配置多队列、多数据块请求、调整PMTU大小、设置网卡队列缓存大小等参数,提升RDMA的传输效率。针对丢包,采用Go Back N重传机制,检测到PSN序列号丢失时,则请求从该PSN序列号之后的报文全部重传。目前RDMA协议不支持选择性重传,因此,一旦网络有丢包,则无法保证RDMA协议的传输效率。
9、RDMA 技术主要包括IB、RoCE和iWARP。IB(InfiniBand):基于 InfiniBand 架构的 RDMA 技术,需要专用的IB网卡和IB交换机。RoCE(RDMA over Converged Ethernet):基于以太网的RDMA技术,需要交换机支持无损以太网传输,此时要求服务器使用RoCE网卡。iWARP(Internet Wide Area RDMA Protocal):基于TCP/IP协议的RDMA技术,由IETF标准定义,目前使用较少。目前,IB 主要在 DC 内应用,因为其链路层采用Credit机制,所以无法实现满速率的长距传输。因此,本文主要讨论 RoCE
10、对网络的要求及相应的解决方案。在RoCE网络中,为了确保网络传输过程中不丢包,需要构建无损以太网。目前,主要采用2种机制:PFC机制和ECN机制3。PFC机制是交换节点逐级向上游设备反压,上游设备缓存报文,若 Buffer 达到阈值,则会继续向上游反压;ECN机制是报文在网络节点中发生拥塞并触发ECN时,使用IP报文头的ECN字段标记数据包,这表明该报文遇到网络拥塞,并将它发送给源端服务器,源服务器收到后,通过降低相应流发送速率,缓解网络设备拥塞,从而避免丢包。1.2 RDMA 应用于广域算力互联的主要挑战RDMA技术最典型的落地业务场景是高性能计算(HPC/AI)。为了满足超长距高性能算力互
11、连要求,传统广域基于TCP/IP传输协议的互联网络,面临3个方面的挑战:首先,高性能计算互联单次突发数据量为MB/GB级别的大流,而TCP/IP机制需要把数据切分为小分片(MTU默认1 500),导致有效载荷低;其次,互联网网络采用逐层收敛结构,业务传输跳数多,网络上的数据突发和拥塞都会造成不可预知的时延、抖动和丢包。为保证业务端到端可靠传输,RDMA的丢包重传机制额外耗费了网络带宽,降低了业务吞吐率,进一步导致性能下降。第三,原生RDMA技术对丢包敏感,难以直接用于有损的广域网络传输,因此,需要设计高品质无收敛的网络互联架构与技术,让RDMA数据流可以直接承载在具有确定性品质的无损网络上,中
12、间不再经过多级交换汇聚设备,以减少拥塞,提升吞吐率;考虑到算力互联间带宽以100G400G的大颗粒为主,适合在源点和宿点之间构筑波长级的一跳直达连接,以避免网络拥塞和丢包导致的效率降低;而广域拉远带来的传输时延是客观存在的,通过确定性的传输时延,与端侧RDMA协议协同调整RDMA传输参数,也是提升RDMA广域传输效率的有效手段。因此通过架构、技术、协议等多方面的优化和改进,可以有效提高RDMA跨广域传输吞吐率。2 RDMA在广域算力互联的影响因素研究RDMA的吞吐率受到诸如距离、丢包、QP数量和传输块大小等多种因素的影响。本文基于全光网络图1RDMA 3种传输模式对比RDMA SendRDMA
13、 WriteRDMA Read请求方响应方请求方响应方请求方响应方王光全,满祥锟,徐博华,吕福华,孟万红确定性光传输支撑广域长距算力互联本期专题Monthly Topic08邮电设计技术/2024/02的长距环境,对RDMA的吞吐量进行了研究。验证环境的组网如图2所示,通过OTN全光无损网络提供低于10-15误码率的高质量长距传输链路,包括2条不同长度(200 m和600 km)的光纤链路,这2条链路的带宽均为100 Gbit/s。基于这条OTN链路使用性能测试工具(IB write)进行吞吐量测试。2.1 距离/时延对长距RDMA吞吐量的影响为了测试长距带来的时延对 RDMA 吞吐量的影响,
14、采用OMSP保护方式,构建2条不同长度的光路,一条为200 m,另一条为600 km,默认将OMSP保护组工作在短路由上,即服务器1和服务器2之间的业务流工作在短距离连接上,链路误码率为10-15,服务器1和服务器2通过IB write打流,链路最高吞吐量为100Gbit/s。具体如图3所示。然后,通过触发 LOS 将工作路由切换到长路径上,再次用IB write打流测试。结果显示,吞吐量只有原来的1/10,即约10 Gbit/s。这表明,随着传输距离的增加,ACK回复变慢,导致网卡出口缓存被占满,业务吞吐率下降。在调整 IB write 参数的情况下,增大RDMA 块大小或者 QP 数量,R
15、DMA 在 600 km 长距离下达到满速100 Gbit/s(百分百吞吐量)。因此,在链路无损的情况下,RDMA协议需要根据传输距离设置合适的QP数量或块大小,以保证长距离吞吐量不下降(见图4)。2.2 丢包对长距离RDMA吞吐量的影响长距离丢包的主要原因有2类,一类是以太客户侧的丢包,例如尾纤和连接器出问题时导致的丢包,另一类是光线路侧的丢包。长距离传输虽然会出现误码,但是相干系统自带FEC纠错功能,所以光线路侧丢包主要是由瞬断导致的。以太客户侧的丢包主要原因有:尾纤问题和连接器问题。a)尾纤问题:尾纤是用于传输电信号的光纤,如果尾纤质量不佳或者使用不当,就会在信号传输过程中出现丢失、反射
16、、噪声等问题,从而导致丢包。例如尾纤损坏或者有污点,都可能在信号传输过程中出现丢失现象,从而导致丢包。b)连接器问题:连接器是用于连接尾纤和设备的接口,如果连接器质量不佳或者使用不当,就会在信号传输过程中出现丢失、反射、噪声等问题,从而导致丢包。例如连接器损坏或者有污点,都可能在信号传输过程中出现丢失现象,从而导致丢包。光纤瞬断是光线路侧丢包的典型问题,常见的瞬断原因包括如下3种。a)光纤质量问题。光纤质量问题是导致光纤瞬断的主要原因之一,光纤的质量直接影响其传输能力和可靠性。如果光纤存在质量问题,如损坏、污染、弯曲度过度过大等,就会导致光纤传输过程中出现短期中断。b)环境因素。环境因素包括温
17、度、湿度、光照等。在某些环境下,如高温、低温、高湿度、低光照等,光纤的传输性能会受到影响,从而导致光纤瞬断。c)人为因素。人为因素包括光纤的意外弯曲、拉断、碰撞等,这些因素可能会导致光纤出现短期中断。由于RDMA对丢包敏感,一旦光纤瞬断导致丢包图4RDMA协议中对应QP数量或块大小调整示意块变大N倍单队列或N个队列图2RDMA吞吐量影响测试连接图3不同距离下对长距离RDMA影响测试短路径=200 m长路径=600 kmRoCE交换机TOR服务器1仪表1仪表2服务器2RoCE交换机保护 长路径600 kmRoCE交换机服务器1RoCE交换机服务器2RoCE交换机服务器1RoCE交换机服务器2工作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 确定性 传输 支撑 广域 长距算力互联
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。