高通量数据网架构与关键技术白皮书.pdf
《高通量数据网架构与关键技术白皮书.pdf》由会员分享,可在线阅读,更多相关《高通量数据网架构与关键技术白皮书.pdf(35页珍藏版)》请在咨信网上搜索。
1、高通量数据网架构及关键技术白皮书高通量数据网架构及关键技术白皮书2023 年 08 月前 言前 言算力网络的愿景,是让用户像使用水电一样实现对算力资源的随取随用。2020 年 5 月,中国科学院计算所启动实施“信息高铁”计划。2022 年 2 月,国家全面启动了“东数西算”工程。2022 年 5月,鹏城实验室推出中国算力网计划。2023 年 4 月,科技部发起成立国家超算互联网联合体。一系列的产业动作均旨在推动算力资源、业务和数据高效流动,助力算力网络发展。算力网络与水网、电网的不同之处在于,算力网络运输的不是算力资源,而是把数据资源运输到算力资源节点。在算力大发展的背景下,需要运输的数据资源
2、体量也在高速增长,根据 IDC 预测,到 2025年全球数据规模将突破 175ZB,如何实现海量数据的高效传输是算力网络需要解决的重要问题,亟待能够最大化提升网络有效传输能力的高通量解决方案。本白皮书从网络承载、智能管控、端侧优化三个方面提出了高通量网络的演进方向,提升网络的承载质量,增强管控层调度能力,优化端侧传输层软件平台,实现算力数据任务式调度、高效率传输,赋能东数西算,助力超智算业务发展。高通量数据网架构及关键技术白皮书目录目录1.背景1.背景.11.1.算存运三力协同助力数字经济蓬勃发展1.1.算存运三力协同助力数字经济蓬勃发展.11.2.算力时代海量数据迁移新需求1.2.算力时代海
3、量数据迁移新需求.22.高通量数据网基本概念2.高通量数据网基本概念.63.高通量数据网架构3.高通量数据网架构.93.1.基础设施层3.1.基础设施层.93.1.1.应用终端.103.1.2.承载网.103.1.3.算力中心.113.2.高通量协议层3.2.高通量协议层.113.2.1.高通量网络协议.113.2.2.高通量传输协议.113.2.3.高通量应用算法.123.3.高通量管控层3.3.高通量管控层.123.3.1.端侧管控.123.3.2.网侧管控.123.3.3.云侧管控.123.4.服务运营层3.4.服务运营层.133.4.1.用户服务订阅.133.4.2.用户操作平台.13
4、3.4.3.云网信息资源库.134.高通量数据网关键技术4.高通量数据网关键技术.144.1.广域流量调度技术4.1.广域流量调度技术.144.1.1.SRv6 网络编程技术.144.1.2.流量识别与引流.164.1.3.广域拥塞感知与控制.164.2.智能管控技术4.2.智能管控技术.174.2.1.可用带宽资源实时感知.174.2.2.流量智能调度.184.3.传输协议优化技术4.3.传输协议优化技术.19高通量数据网架构及关键技术白皮书4.3.1.基于 TCP 的传输协议优化.194.3.2.其他传输协议的优化.204.4.数据智能压缩技术4.4.数据智能压缩技术.214.4.1.数据
5、压缩技术概述.214.4.2.压缩算法选择策略.224.5.数据传输安全保障技术4.5.数据传输安全保障技术.224.5.1.流量按需安全隔离.224.5.2.网络层安全防护.235.高通量数据网应用场景5.高通量数据网应用场景.245.1.东数西算业务5.1.东数西算业务.245.2.超智算海量数据传输5.2.超智算海量数据传输.245.3.科技项目数据汇交5.3.科技项目数据汇交.255.4.企业数据上云备份与灾备5.4.企业数据上云备份与灾备.256.总结与展望6.总结与展望.277.缩略语列表7.缩略语列表.288.参考文献8.参考文献.30高通量数据网架构及关键技术白皮书-1-1.背
6、景1.背景1.1.算存运三力协同助力数字经济蓬勃发展1.1.算存运三力协同助力数字经济蓬勃发展“十四五”数字经济发展规划提出到 2025 年,数字经济迈向全面扩展期,数字经济核心产业增加值占 GDP 比重达到 10%1。加快新型基础设施建设,推动数字经济和实体经济融合发展,推进重点领域数字产业发展,是数字经济的重要组成部分。数字经济的飞速发展带来的海量数据需要先进的算力、存力和运力服务来发挥数据的高效价值,进一步助力数字经济发展。根据国家互联网信息办公室数字中国发展报告(2022 年)统计显示,我国数据资源规模快速增长,2022 年数据产量达 8.1ZB,同比增长 22.7%,全球占比达10.
7、5%,位居世界第二2;截至2022年底,我国数据存储量达724.5EB,同比增长 21.1%,全球占比达 14.4%3。数字经济带来的海量数据需要先进的数据存力服务、算力服务和运力服务,数据存得好、算力算得快、网络传得稳,数字基础设施才能充分发挥大数据的要素价值45。海量数据是互联网世界的“石油”和“金矿”,也是算力时代最具价值的资源,其价值转化需要算力、存力和运力的一体化协同,实现大数据从“可用”走向“实用”。为了满足千行百业数字化转型、数字技术与生活场景加速融合所带来的海量存储和计算需求,国家提出东数西算工程,将数据中心选址在可再生能源丰富、气候适宜、绿色发展潜力大、综合能效优势明显的西部
8、,把东部地区的非实时算力需求以及大量生产生活数据输送到西部地区的数据中心进行存储、计算并反馈,最大化实现数据中心产业绿色集约发展,推动资源统筹利用和西部数字经济建设发展。“东数西存”、“东数西渲”、“东数西算”通过优化数据中心布局,实现东西部存力、算力等资源供需关系的合理匹配,支撑千行百业的高质量发展6。高通量数据网架构及关键技术白皮书-2-运力上联算力存力(供给端),下联企业家庭(需求端),需要综合考虑各地的算力、存储等资源,针对不同用户对算力的不同诉求,提供最优的资源服务与网络连接,为所有用户提供严格保障的业务质量。三者协同发展,数字基础设施才能充分发挥大数据的要素价值。图 1算力、存力、
9、运力协同发展1.2.算力时代海量数据迁移新需求1.2.算力时代海量数据迁移新需求信息和数据的产生、传输和处理成为数字经济时代推动经济增长和创新的重要要素。算力作为数字经济时代核心生产力,已经成为衡量地方数字经济发展程度的代表性指标。传统的计算能力有限,面临着存储、运算和处理大规模数据的挑战。算力经济充分利用云计算、大数据、人工智能等技术,将计算能力从传统的个体或机器的局限中释放出来。通过云计算平台和算力资源的共享,实现按需获取和灵活使用计算资源,从而提高效率和降低成本。在算力迁移的过程中,同步伴随着用户侧海量数据的迁移需求。如何将用户侧海量的大数据以合理的成本、合理的时效传输到存力/算力基础设
10、施成为算力经济发展的新需求。(一)东数西算(一)东数西算按照数据处理对实时性的要求,可分为热数据、冷数据以及介于二者之间的温数据。对于工业互联网、自动驾驶、远程医疗、灾害预警等需要被计算节点频繁访问、实时性要求较高的“热数据”,不适合远距离进行“西算”。而对于后台存储、批量备份等对存力要求高,但对网络时延要求不高的“冷数据”以及介于两者之间的“温数据”,则非常适合进行“西存”。那么如何将这些“冷数高通量数据网架构及关键技术白皮书-3-据”或“温数据”以合理的成本、合理的时效传输到西部存储节点是目前急需解决的问题7。图 2 东数西算冷温数据传输(二)超智算承载(二)超智算承载随着网络游戏、影视媒
11、体等业务的快速发展,云游戏 XR、视频媒体制作等视频渲染需求日益旺盛,需要通过传输网络数据实时传送到远端算力节点进行演算,再将结果返回到用户侧,进行调取使用。此类业务对存力、算力要求高,传输数据量大。此外,随着人工智能的发展,需要将海量的数据资源与各领域的知识模型、机理模型相结合,形成基于人工智能的新应用、新场景,如智能制造、无人驾驶、数字孪生等。为降低算力资源的使用成本,需要将训练数据和训练任务通过网络调度到智算中心进行处理。在超算与智算服务场景下,数据传输通常包括两种需求:1)智算中心之间、超算中心之间、智算中心与超算中心之间的训练数据传输,由于带宽需求大、连接稳定性高,通常采用光网络承载
12、。2)用户到智算中心/超算中心之间的训练数据传输和结果回传,由于突发性强,成本敏感,因此可以适合通过 IP 网络进行承载。高通量数据网架构及关键技术白皮书-4-图 3 超算/智算承载场景海量数据的迁移可以有效整合数据资源和算力资源,但是同时也对传输网络提出的新的挑战。目前海量大数据迁移主要有两种方式:1)通过快递存储介质线下迁移通过线下快递硬盘等存储介质,是目前解决大数据迁移问题主要途径,也即是目前“卡车比光纤快”的真实解决方案。2017 年业界已上线了基于硬盘邮寄的数据快递服务8,凭借完善的物流体系,硬盘快递的方式可在一定程度上缓解成本和效率的两难问题。但是仍然存在着运输成本高、时效性不足、
13、拷入拷出复杂繁琐等问题,同时因为硬盘等存储介质离线搬运,通过航空、铁路、公路等途径搬运,面临数据损毁、数据泄露等安全风险。2)通过运营商网络线上迁移通过三千兆接入(千兆宽带、5G、WiFi6)及高速骨干网络,中国联通构建了立体泛在的新型 ICT 基础设施。但是在 TBEB 级大数据迁移面前,传统网络技术存在以下问题:问题 1:用户通过互联网传输或租用低带宽专线方式,传输成本企业可承担。但是在应对周期性、临时性大规模数据迁移任务时,通常所需时长又无法满足企业需求。同时现有数据传输方案在长距离、大带宽传输场景下,存在传输效率受限等问题。问题 2:用户通过租用大带宽(如 1G 以上)专线,能在一定程
14、度上提升数据传输速率,但对大部分企业而言,数据传输通常为任务制需求,即周期性、临高通量数据网架构及关键技术白皮书-5-时性的大数据量迁移需求,而非全天候、规律性的,租用大带宽专线成本过高而无法承担。表 1 不同数据量在不同带宽情况下的理论传输时长数据量数据量带宽带宽100M 带宽1G 带宽10G 带宽10TB10TB12 天29 小时3 小时100TB100TB121 天12 天29 小时1PB1PB1243 天125 天12 天高通量数据网架构及关键技术白皮书-6-2.高通量数据网基本概念2.高通量数据网基本概念“东数西算”、超智算承载等场景下的海量数据传输均存在长距离、大带宽、任务突发的特
15、点。但现有的网络在承载该类型业务时,存在网络承载能力、传输协议、现有业务影响等多方面的挑战。解决算力时代的大数据迁移问题,需要基于现有网络进行技术和商业模式创新,全面挖掘网络潜力,全面提升网络资源利用率,全面增强网络传输能力,基于不同用户对传输时间、传输成本的综合考量,提供任务式大数据迁移服务,解决算力时代的瓶颈问题,助力数字经济飞跃发展。本白皮书提出高通量数据网的概念。为了满足对大规模数据进行快速处理和传输的需求,高通量数据网能够同时处理和传输大量的数据,用于科学研究、云计算、大数据处理等领域。通量一词最早出现在物理学中,是指单位时间内通过某个面积的物质或能量的总量。通量的概念可以应用于不同
16、领域,如物理学、工程学、生物学等,主要用于描述能量传递的速度和量度。中国科学院计算所于 2022 年提出高通量低熵算力网的概念9,高通量计算的性能指标是通量,即保质任务吞吐率,也就是单位时间完成的保质任务数。同理,在数据网络中,可以将数据流量看做是一种特殊的流量,数据流量所通过的面积也即是分配给该数据业务的可用有效带宽,单位时间、单位带宽内完成的数据流量总量受到数据传输实际效率的影响。高通量数据网的核心理念,为通过增高通量数据网的核心理念,为通过增大有效带宽,提高单位带宽下的数据传输体量,以增大数据通量。大有效带宽,提高单位带宽下的数据传输体量,以增大数据通量。高通量数据网面向算存运高效协同,
17、从网络承载、智能管控、端侧优化三方面提升数据承载效率,有如下主要目标:1.有效带宽最大化:有效带宽最大化:高通量数据网面向东数西存、超算/智算训练数据上传与下载等典型场景,大部分业务属于时效性要求业务,而不一定是实时性要求业高通量数据网架构及关键技术白皮书-7-务。因此在满足时效性要求的前提下,高通量数据网可以通过充分利用网络带宽潮汐特征,以及网络多路径能力提升网络总吞吐,实现有效带宽最大化。2.传输效率最大化:传输效率最大化:在网络有效带宽一定的前提下,传输效率越高,单位数据量完成传输的时间越短,为用户提供的传输服务质量越高。高通量数据网通过在网络层最小化网络丢包、在传输层优化 TCP/UD
18、P 协议、在应用层压缩任务数据量,全面提升端到端传输效率。以端侧传输层优化为例,在几百到几千公里的长距传输情况下,BDP(带宽时延乘积)增大,端侧 TCP socket buffer 可能会成为发送速率的限制因素。如图 4 所示,在 1000km 的远距离现网测试场景下,接口可用带宽 8Gbps,叠加 30%背景业务流,受限于服务器 socket buffer,叠加数据迁移任务时,速率仅能达到 3.3Gbps,无法充分发挥网络带宽潜力。图 4 中国联通现网长距大数据迁移(1000km)带宽利用率测试3.网络丢包最小化:3.网络丢包最小化:以大数据传输为承载目标的高通量数据网络对时延的要求并不苛
19、刻,但由于 TCP 传输特性的存在,承载网络侧丢包会造成传输速率的下降。该问题一方面通过端侧传输机制的优化解决,另一方面需要通过承载网络侧传输路径调优、负载均衡等技术实现最小化网络丢包。4.现网影响最小化:4.现网影响最小化:运营商网络中承载的业务除了超算、智算、东数西算类型业务以外,还有运营商传统业务。面向新兴业务发展演进的需求,对网络的改造需要一定的影响范围内。同时新型算力业务带宽大的特性很可能对现网业务产生影响。高通量数据网架构及关键技术白皮书-8-现网测试验证显示,在背景流基础上叠加大数据迁移任务,大数据流可以获取剩余带宽,背景流对数据迁移流无特殊影响,但背景流自身完成时间明显增大。如
20、图 5 所示:数据迁移流导致背景流中小流的平均流完成时间增长 41%79%,导致大流的平均流完成时间平均增长 1427 倍。如何避免数据迁移任务对背景流量的影响,保证业务公平性是面临的重要挑战。由于数据迁移业务非固定的特点并不完全适合通过刚性管道的方式来保障公平性,因此如何最小化对现网现有业务的影响,需要从技术、网络配置等多维度综合考虑。图 5 中国联通现网大数据迁移对背景流影响测试高通量数据网架构及关键技术白皮书-9-3.高通量数据网架构3.高通量数据网架构高通量数据网通过构建服务运营、高通量管控、高通量协议和基础设施四层架构,提供高通量大数据传输能力,满足算力时代各种应用场景下的数据迁移、
21、同步、协作等需求,实现效率与成本的最佳匹配,其主要的技术框架图 6 所示。图 6 高通量数据网架构3.1.基础设施层3.1.基础设施层基础设施层提供支撑高通量数据传输所需的端侧、网络侧、云侧等软硬件资源,是运力的物理载体。基础设施层在用户和算力、存力间构建起一张随需互联、弹性敏捷的运力网络,支撑算力/存力的灵活调度,针对不同用户对算力、存力的需求,提供并匹配最佳的资源和服务。通常情况下,高通量数据网中的数据业务流量走向有三种主要形式:端-云数据业务:由云数据中心负责提供存力/算力,末端企业侧作为需求方和使用者,发起从端侧向云侧的数据迁移(如:数据备份、数据导入等),或者发起从云侧向端侧的数据迁
22、移(如:备份恢复、共享下载、数据导出等);端-端数据业务:末端企业侧作为需求方和使用者,向企业内部另一末端高通量数据网架构及关键技术白皮书-10-企业或合作伙伴侧发起 P2P 的数据迁移(如:数据拷贝、数据共享等);云-云数据业务:末端企业作为需求方和使用者,发起云与云间的数据迁移(如:本地数据中心向公有云的混合云灾备流量、公有云的跨 region灾备服务等)。图7高通量数据网业务流3.1.1.应用终端3.1.1.应用终端应用终端是指发起数据迁移的个人电脑、服务器等硬件设备和与数据迁移相关的软件、工具、容器等软件资源,用于实现企业内部或与外部合作伙伴间的可控、可靠的大数据迁移。数据迁移软件应具
23、备如下功能:高效可控的大文件、海量小文件的传输功能;本地与服务器存储的上传下载、点到点传输、单双向同步传输、断点续传等传输功能;文件校验、加密传输等安全功能,传输层协议优化、压缩算法执行等均在应用终端侧实现。3.1.2.承载网3.1.2.承载网承载网是为大数据迁移提供高效率的灵活连接、高通量的数据传输、高可靠的网络保护、高灵活的弹性伸缩能力的基础网络,为不同用户匹配并提供最佳的运力资源和服务。承载网包含网络中的 CPE、PE 等。其中 CPE 是大数据迁移业务的用户入网接入点,用户数据通过此接入点接入数据迁移服务。PE 设备对接云算力/存力资源,配合协同控制器的调度,快速实现业务开通及后续调整
24、。高通量数据网架构及关键技术白皮书-11-3.1.3.算力中心3.1.3.算力中心算力中心包括超算中心、智算中心、数据中心等,可提供集中式存储、分布式存储等供给形态的存力服务,以及裸金属、虚拟机、容器等供给形态的算力服务。通过部署 DC-GW 或 vGW 可实现承载网与存力/算力服务的有效协同,存力/算力服务调用 NaaS 服务实现最优运力匹配,运力服务通过云网信息资源库推荐算法匹配最佳的算力、存力资源,算力、存力、运力三者协同,共同发挥大数据的要素价值。3.2.高通量协议层3.2.高通量协议层3.2.1.高通量网络协议3.2.1.高通量网络协议高通量数据迁移服务依托网络层基础设施,构建随需互
25、联、高效传输、弹性敏捷的高吞吐运力网络,针对不同用户需求匹配并提供最佳的资源和服务。构建高通量数据迁移服务,需要网络层具备以下能力:(一)增强网络精准感知能力,包括网络资源实时感知、网络状态实时感知等,实现网络带宽资源充分利用;(二)增强流量动态调整能力,包括网络多路径编排、网络动态调优、网络拥塞控制等,实现网络高吞吐。(三)构建基于任务的智能管控调度能力,包括基于不同用户对传输时间、传输成本的综合考量,实现任务按需拆分、任务与资源自适应匹配、任务分发。3.2.2.高通量传输协议3.2.2.高通量传输协议在构建高品质运力网络层的基础上,还需要在传输协议控制层采取优化措施,以确保数据的可靠和高效
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通量 数据 网架 关键技术 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。