数据中心智能无损网络白皮书.pdf
《数据中心智能无损网络白皮书.pdf》由会员分享,可在线阅读,更多相关《数据中心智能无损网络白皮书.pdf(44页珍藏版)》请在咨信网上搜索。
1、 数据中心智能无损网络 白皮书 编号 ODCC-2021-05001 开放数据中心委员会 2021-09-15 发布 ODCC-2021-05001 数据中心智能无损网络白皮书 i 目目 录录 前 言.iii 版权说明.iv 数据中心智能无损网络白皮书.1 1.介绍.1 1.1.范围.1 1.2.目的.1 2.让数据中心焕发生机.1 2.1.一个到处都是数据的新世界.1 3.数据中心需求和技术不断提升.3 3.1.原有数据中心桥接标准.3 3.2.需求演化.4 3.3.AI 计算的特点.5 3.3.1.模型并行计算.6 3.3.2.数据并行计算.6 3.4.技术演进.8 3.4.1.SSDs
2、和 NVMeoF:高吞吐量低时延网络.8 3.4.2.GPU:用于并行计算的超低时延网络.11 3.4.3.SmartNICs.12 3.4.4.远程直接内存访问(RDMA).14 ODCC-2021-05001 数据中心智能无损网络白皮书 ii 3.4.5.GPU DirectRDMA.16 4.当今数据中心网络面临的挑战.19 4.1.平衡高吞吐量和低时延.19 4.2.无死锁无损网络.21 4.3.大规模数据中心网络的拥塞控制问题.23 4.4.拥塞控制算法的配置复杂性.26 4.4.1.自适应 PFC Headroom 计算.26 4.4.2.动态 ECN 阈值设置.27 5.解决新数
3、据中心问题的新技术.28 5.1.低时延和高吞吐量的混合传输.28 5.2.基于拓扑识别的 PFC 死锁预防.30 5.3.改善拥塞的通知.32 5.3.1.反应点(RP).33 5.3.2.阻塞点(CP).33 5.3.3.通知点(NP).33 5.4.解决拥塞控制算法的配置复杂性.35 5.4.1.优化缓存区以降低 PFC headroom 配置的复杂性.35 5.4.2.智能 ECN 阈值优化.35 6.结论.37 ODCC-2021-05001 数据中心智能无损网络白皮书 iii 前前 言言 由中国信通院云大所、百度、腾讯、美团、京东、移动、电信、华为、思科、博通、英伟达等 ODCC(
4、开放数据中心委员会)成员单位联合编制的智能无损数据中心网络白皮书 正式发布。该白皮书内容翔实,分别从数据中心的重要性、应用发展需求、网络面临的挑战、相应的解决方案和标准化工作进展等方面开展了介绍。2017 年起,ODCC 牵头制定无损网络技术标准以及测试规范等,相继发布行业标准、技术报告等 10 多项成果,得到了产业界的广泛参与,搭建起一个 DCN技术热点讨论平台,相关技术的标准化推动工作也在紧锣密鼓进行当中。在国家高度重视新基建的环境下,白皮书发布为我国数据中心技术、产品和服务走出去打下了良好的基础。起草单位:中国信息通信研究院(云计算与大数据研究所)、百度在线网络技术(北京)有限公司、中国
5、移动通信集团有限公司、中国电信集团有限公司、深圳市腾讯计算机系统有限公司、华为技术有限公司、NVIDIA(英伟达)中国有限公司、思科(中国)有限公司、博通公司、北京三快在线科技有限公司、北京京东世纪贸易有限公司 起草者:郭亮、李洁、高峰、顾戎、赵继壮、程传胜、殷悦、宋庆春、刘军、何宗应、孙黎阳、唐广明、权皓、陶春雷、王少鹏、赵精华 ODCC-2021-05001 数据中心智能无损网络白皮书 iv 版权说明版权说明 ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会
6、”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。ODCC-2021-05001 数据中心智能无损网络白皮书 1 数据中心智能无损网络白皮书 1.介绍介绍 1.1.范围范围 白皮书研究了支持现代数据中心网络需求的网络技术,包括高性能计算和人工智能应用,提出了需求演变和新时代技术挑战的解决方案。1.2.目的目的 白皮书旨在为现代数据中心网络存在的问题和面临的挑战,提供高层次解决方案。白皮书梳理了数据中心的建设现状和技术演进,介绍了数据中心发展过程中面临的问题,并基于分析研究,提出增强数据中心网
7、络能力和运营效率的技术解决方案,契合持续变化的应用需求。2.让数据中心焕发生机让数据中心焕发生机 2.1.一个到处都是数据的新世界一个到处都是数据的新世界 数字化转型正在改变着我们的个人生活和职业生活。工作流程和人际交往正转向基于云、移动设备和物联网的数字化流程和自动化工具。支撑数字化转型的技术是人工智能(AI)。数据中心在运行拥有海量数据的人工智能应用程序时,要将这些数据重新转换为相关性信息、自动化人工交互和细致化决策制定(如图1)。在增强现实、语音识别和上下文搜索需求强劲的当今世界,满足数据中心实时交互需求比以往任何时候都更加重要。为满足实时需求,数据中心网络必须具备更强大的性能、规模和可
8、靠性。ODCC-2021-05001 数据中心智能无损网络白皮书 2 图 1 AI 时代的数字化转型 云时代的数据中心专注于应用转型和服务的快速部署。在 AI 时代,数据中心提供了实现数字化生活所需的信息和算法。高速存储和人工智能分布式计算的结合,将大数据转化为快速数据,供人、机、物访问。高性能、大规模、无丢包的数据中心网络对数字转换的顺利进行至关重要。人工智能、网络性能等高性能应用的关键指标包括吞吐量、时延和拥塞。吞吐量是指快速传输大量数据的网络总容量。时延是指跨数据中心网络事务的总延迟。当流量超过网络容量时,会发生拥塞。丢包是严重影响吞吐量和时延的因素。当前,各行业正在加速数字化转型。据估
9、计,有 64%的企业已经成为数字转型的探索者和实践者1。在 2000 家跨国公司中,67%的 CEO 将数字化作为企业战略的核心2。现实世界中的数字化转型趋势正在引领数据中心网络支持“以数据为中心”的计算模式。数字化过程中产生的大量数据成为核心资产,人工智能应用也随之出现。根据华为全球产业展望的预测,到 2025 年,新增数据量将达到 180ZB3。然而,数据并不是“自我终结”。从数据中获取的知识和智慧拥有永恒价值。非结构化数据(如原始语音、视频、图像数据)的比例不断增加,未来将占到所有数据的 95%(如图 2)。现有的大数据分析方法无法适应数据的快速增长,需要进行性能优化,从原始数据中挖掘更
10、多价值。基于深度学习的人工智能方法可以过滤掉大量 1 Orange,“Finding the competitive edge with digital transformation,”03 June 2015.Online.Available:https:/www.orange- Wiles,J.,“Mobilize Every Function in the Organization for Digitalization,”Gartner,03 December 2018.Online.Available:https:/ 10 June 2020.3 Huawei,“Touching an
11、 Intelligent World,”Huawei,2019.Online.Available:https:/ 15 March 2021.ODCC-2021-05001 数据中心智能无损网络白皮书 3 无效数据,并自动提取有用信息,提供更有效的决策建议和行为指导。图 2 新兴的 AI 应用 总体来说,云数据中心架构提高了应用性能,扩大了应用规模。云平台允许IT 资源快速分配,创建以应用程序为中心的服务模型。在 AI 时代,应用程序需要消耗前所未有的数据量,必要的性能创新增强了云数据中心架构的负载处理能力。在现有的云数据中心中,很难实现性能创新和新人工智能应用程序的无缝衔接。知道如何根据人工
12、智能应用的需求实现数据有效处理,至关重要。实现成功的关键因素是有机结合应用程序的存储资源和计算资源之间的数据流。3.数据中心需求和技术不断提升数据中心需求和技术不断提升 3.1.原有数据中心桥接标准原有数据中心桥接标准 在 10Gbps 以太网的早期,ODCC 工作组就开始关注数据中心桥接(DCB)。DCB 任务组针对数据中心环境中所用的以太网、网桥和相关协议定义了一组增强功能。使用案例和重点应用是集群和存储区域网络,使用了传统的专用技术,如 InfiniBand和光纤通道4。以太网的重要目标是消除拥塞造成的损失,并在链路上为特定流量分配带宽。数据中心桥接的关键参数包括:优先级流量控制(优先级
13、流量控制(PFC):):一种链路层流量控制机制,消除了数据包丢失风险,可以独立应用于各种流量。增强型传输选择(增强型传输选择(ETS):):一种队列调度算法,允许流量带宽分配。4 InfiniBand 是 InfiniBand贸易协会的商标和服务标志。ODCC-2021-05001 数据中心智能无损网络白皮书 4 拥塞通知:拥塞通知:一种检测拥塞的二层端到端拥塞管理协议,通过跨二层网络的信号来限制发送端的传输速率,避免丢包。数据中心桥接能力交换协议(数据中心桥接能力交换协议(DCBX):):一个识别和性能交换协议,与链路层发现协议(LLDP)共同作用,用于传输上述参数的功能和配置。这些参数对于
14、将以太网扩展到集群计算和存储区域网络的专业市场非常重要。然而,随着环境和技术的变化,还需要不断优化。目前,使用三层协议和高度协调管理系统的数据中心已经实现规模部署。以太网链路已经从 10Gbps 提高到 400 Gbps,并计划将速度提高到 Tbps 范围。人工智能等新应用程序的出现,对基础设施提出了新的要求,推动了体系结构变化。为进一步扩大以太网在现代数据中心中的应用范围,还需要继续创新。3.2.需求演化需求演化 人工智能应用给数据中心网络带来了压力。自动驾驶汽车的人工智能训练就是一个例子。深度学习算法严重依赖海量数据和高性能计算技术。每天收集的训练数据接近 PB 级(1PB=1024TB)
15、,如果使用传统硬盘存储和普通 CPU 来处理数据,可能至少需要一年才能完成训练。这显然是不切实际的。为了提高人工智能的数据处理效率,需要在存储和计算领域进行革命性的变革。例如,存储性能需要提高一个数量级才能实现每秒 100 万次以上的输入/输出操作(IOPS)5。为了满足实时数据的访问要求,存储介质已经从硬盘驱动器(HDD)发展到固态驱动器(SSD),再到存储类内存(SCMs),存储介质延迟缩短了 1000 倍以上。如果在网络延迟方面没有类似的改进,这些存储优化就无法实现,只能简单地将瓶颈从介质转移到网络上。对于网络固态硬盘(SSD),通信时延占端到端存储总时延的 60%以上。如果转向存储类内
16、存(SCMs),除非网络性能得到改善,否则这一比例可能会增加到 85%。这就造成了存储介质有一半以上的时间处于闲置状态。同时优化存储媒介和 AI 计算处理器,会使得通信时延占总时延的 50%5 Handy,J.and T.Coughlin,“Survey:Users Share Their Storage,”12 2014.Online.Available:https:/www.snia.org/sites/default/files/SNIA%20IOPS%20Survey%20White%20Paper.pdf.Accessed 14 May 2020.ODCC-2021-05001 数据
17、中心智能无损网络白皮书 5 以上,限制技术进步,造成资源浪费6。人工智能应用程序和应用场景的范围和复杂性持续增加。例如 2015 年微软的 Resnet 实现 7 百亿亿次计算,有 6000 万个参数。2016 年百度在训练深度语音系统时,实现 20 百亿亿次计算和 3 亿个参数。2017 年谷歌 NMT 实现 105 百亿亿次计算和 87 亿个参数7。AI 计算的新特性对数据中心网络的发展提出更高要求。传统协议已经不能满足日常生活中新应用程序的服务需求。举个简单的例子,美团线上外卖业务增长在过去 4 年里大约增长了 5 倍8。仅在用餐高峰期的几个小时里,交易量就从 21.49 亿增加到 12
18、3.6 亿。美团智能调度系统为用户、商家和超过 60 万名外卖员设计了一个复杂的多人多点实时决策过程。该系统每天更新 50 亿次定位数据,这些数据为外卖员计算可选路径并在 0.55 毫秒内选择最佳路线。当后端服务器使用 TCP/IP 协议时,内核缓存区、应用缓存区和网卡缓存区之间的数据量副本使得 CPU 和内存总线资源紧张,导致延迟增加,无法满足应用程序的需求。新远程直接内存访问(Remote Direct Memory Access,RDMA)协议消除了数据副本,释放了 CPU 资源,能够完成路径选择和取出顺序计算。RDMA 效率的提高给网络带来了更大的压力,将瓶颈转移到数据中心网络基础设施
19、上,低时延和无损行为成为了新的必要需求。3.3.AI 计算的特点计算的特点 传统的数据中心服务(web、数据库和文件存储)是以事件为基础,计算结果通常是确定的。对于这样的任务,单个事件和相应网络通信之间几乎没有相关性或依赖性。传统事件的发生和持续时间是随机的。然而,AI 计算并非如此。这是一个迭代收敛的优化问题。它导致数据集和计算算法之间存在高度的空间相关 6 Huawei,“AI,This Is the Intelligent and Lossless Data Center Network You Want!”13 March 2019.Online.Available:https:/ 1
20、4 May 2020.7 Karuppiah,E.K.,“Real World Problem Simplification Using Deep Learning/AI,”2 November 2017.Online.Available:https:/ 14 May 2020.8 Yanqin,D.,“The“Ultra Brain”weapon behind Meituans delivery of 30 million orders in a single day,”19 September 2019.Online.Available:https:/ 15 March 2021.ODCC
21、-2021-05001 数据中心智能无损网络白皮书 6 性,在通信流之间形成时间相关性。AI 计算用于大数据,要求快数据。为了满足这一点,它必须与“分而治之”的问题并行运作。计算模型和输入数据集较大(例如 100MB 节点条件下,10K 规则的 AI 模型需要超过 4TB 的内存)。单个服务器无法提供足够的存储容量和处理资源,使得问题无法按顺序解决。需要 AI 计算和存储节点并行,缩短处理时间。这种分布式 AI 计算和存储要求需要快速、高效和无损的数据中心网络,该网络构建起两种不同的并行计算模式模型并行计算和数据并行计算。3.3.1.模型并行计算 模型并行计算中,每个节点承担了整个算法的一部分
22、计算。每个节点处理相同的数据集,不同的算法部分,完成了对不同参数集的估计。通过节点交换算法估计,得到收敛于所有数据参数的最佳估计。模型并行计算最初是将公共数据集分布到分布式节点,然后把来自每个分布式节点的单个参数进行集合。图 3 显示了在并行操作模式下,整个模型的参数如何分布在计算节点上。图 3 并行计算模型9 3.3.2.数据并行计算 在数据并行计算中,每个节点都承载了整个 AI 算法模型,但只处理部分输 9 Dean,Jeffrey,Greg S.Corrado,Rajat Monga,Kai Chen,Matthieu Devin,Quoc V.Le,Mark Z.Mao,MarcAur
23、elio Ranzato,Andrew Senior,Paul Tucker,Ke Yang,Andrew Y.Ng,Large Scale Distributed Deep Networks,Google Inc.,Mountain View,CA.Available:https:/ 19 May 2021.ODCC-2021-05001 数据中心智能无损网络白皮书 7 入数据。每个节点都试图使用不同的数据视图来估计相同的参数集。当一个节点完成一轮计算时,由公共参数服务器加权并聚合参数,如图 4 所示。更新加权参数要求所有节点同步更新信息。图 4 数据并行计算9 无论采用哪种并行计算方法,数
24、据中心网络都要承受更大的通信压力。当网络成为瓶颈时,计算资源的等待时间会超过工作完成时间的 50%10。对于所有的 AI 应用程序,计算模型都在不断迭代,且存在一个会造成网络incast 拥塞的同步步骤。图 5 显示了 AI 训练中发生 incast 堵塞的方式。训练过程在不断迭代,在每次迭代都会产生很多同步参数。应用程序在下载模型时会同步将下一次计算得到的结果(M)上传到参数服务器。上传到参数服务器中的过程会造成 incast。应用新兴计算技术能够缩短计算时间,但网络压力和由此产生的 incast 也会随之增加。10 Cardona,O.,“Towards Hyperscale High P
25、erformance Computing with RDMA,”12 June 2019.Online.Available:https:/pc.nanog.org/static/published/meetings/NANOG76/1999/20190612_Cardona_Towards_Hyperscale_High_v1.pdf.Accessed 14 May 2020.ODCC-2021-05001 数据中心智能无损网络白皮书 8 图 5 训练期间的周期性 incast 拥塞 工作节点和参数服务器间的通信构成了相互依赖的网络流集。分布式 AI 计算的迭代过程中,大量突发流量会在几毫秒内
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 智能 无损 网络 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。