算网一体及其网络技术问题探索.pdf
《算网一体及其网络技术问题探索.pdf》由会员分享,可在线阅读,更多相关《算网一体及其网络技术问题探索.pdf(18页珍藏版)》请在咨信网上搜索。
1、算网一体及其网络技术问题探索孙滔中国移动研究院2023.10目 录算力网络及算网一体01几个网络问题探索02智算DSN展望032常规内容页标题 微软雅黑 30号字算力网络迎接智算时代我国数据中心规模近五年年均增速达到近30%;截至2023年8月,我国在用标准机架超过760万架,算力总规模达197EFLOPS,位居全球第二(工信部 2023.10 世界5G大会)中国移动对外可用IDC机架47.8万架,累计投产算力服务器超80.4万台,算力规模达到9.4EFlops(半年报2023.8)2022年2月,“东数西算”工程正式全面启动,8个国家算力枢纽节点,规划10个国家数据中心集群算力网络从未来网络
2、的技术名词成为产业发展的旗帜,3端侧算力20ms骨干时延圈枢纽算力省级/区域算力城市边缘算力枢纽算力5m省域时延圈1ms地市时延圈打造“1-5-20ms”三级算力时延圈连续两年财报公布算力规模中国移动呼和浩特智算中心,总能力将达到5.8EFLOPS,万片级AI加速芯片单位/EFLOPS2022年报2023半年报89.4建设亚洲最大单体智算中心哪些“东数”要“西算”?4是否存在一个量化的指标,来指导“东数西算”仍然是待研究的问题数据传输时延不敏感 短视频、电子游戏、网络即时通信等时延敏感应用,异地计算无法保障用户体验。数据交互不频繁西部东部 HPC天气预报等计算过程中不需要频繁交互的应用,可以异
3、地计算。当前,大模型训练往往是同一数据中心内跨框跨机架训练,不会涉及跨数据中心联合训练大模型训练方式大模型训练通信需求 训练过程中的数据同步延迟可能导致整体训练流程停滞 模型规模扩大造成通信量剧烈增长,需提供充足的网络带宽例如,在100Gbps网络下,在16 GPU之间执行128MB AllReduce需要至少消耗5ms;数据量进一步增加,理论传输时间会等比例上升。中电联中国电力行业年度发展报告2023报告显示2022年全国电力传输线损率4.82%量化指标 东数西算协同调度,需要考虑多种因素,如业务需求、时延、成本、能效等。F=A1Delay+A2Cost+A3Energy+.张量并行:将单个
4、数学运算拆分到不同的 GPU 上运行 流水线并行:在不同 GPU 上运行模型的不同层 数据并行:在不同 GPU 上运行不同的 batch data1 Jaeyong Song,Jinkyu Yim,Jaewon Jung,Hongsun Jang,Hyung-Jin Kim,Youngsok Kim,Jinho Lee,2023,Optimus-CC:Efficient Large NLP Model Training with 3D Parallelism Aware Communication Compression,https:/arxiv.org/pdf/2301.09830.pdf端
5、、边、云协同主要包括资源层面和服务层面的协同,不同协同模式在实际应用时均会面临挑战端边云协同是工程领域的难题5协同调度需要获取端、边、云的状态信息,跨域、跨主体信息获取难度大需找到开销和性能提升的平衡点,目标场景仍需明确协同带来了性能提升的同时也引入了额外的开销等,需进一步量化分析开销,寻求性能提升和开销的均衡点需仔细论证现有研究假设,如端侧、边侧资源不足需要协同或云侧提供服务无法满足时延需求等问题在现网中的实际情况,避免“为了协同而协同”,需继续明确协同场景服务协同需要改动已有服务支持服务分解,但服务改动驱动力不足对网络提出了新的需求,网络需增强服务能力同一个服务分散部署在端、边、云不同位置
6、的服务流量特点不同,需提供差异化的网络服务协同拉长了服务提供环节,任一个环节的状态变化都需要网络灵活反应,对网、端、边、云的融合与协同提出新需求,保障服务一致性和稳定性;且有隐私性和安全性问题协同将单个服务分解为多个子服务分散部署,对服务提出新需求缺乏协同对服务性能提升的有效量化机制,服务侧改动现有机制的驱动力不足需均衡考虑协同各参与方的目标诉求,在提升性能的同时均衡各方诉求,以驱动服务协同端、边、云分属不同信息域,信息域内存在不同资源供给主体打破不同信息域的信息边界缺乏需求驱动,缺乏实际机制屏蔽差异性统一获取状态信息如即便在云计算信息域内,存在多家大中型云计算提供商,且信息不互通,难以实现跨
7、资源供给主体的协同调度 算网一体算力网络技术发展的方向趋势:网络和计算需要一体化统筹考虑业务:网络和计算时延需求趋于同一数量级(10Gbps传输时延:20ms50ms网络复杂多样,无法完全无损链路层误码率不可避免大象流负载不均,存在拥塞丢包多流竞争,存在微突发丢包传统TCP协议在广域数据传输中吞吐受限,有效吞吐与链路时延、丢包率成反比TCP网络吞吐=1.22*MSSRTT*Sqrt(L)单流传输时,时延由1ms增加到10ms时,吞吐下降约10倍多流传输使得单流吞吐下降,且受主机CPU性能限制,同样存在吞吐瓶颈科学计算、影视制作,云间灾备等亟需广域超高吞吐传输RFC 3649:HighSpeed
8、 TCP for Large Congestion Windows1.如何设计匹配的协议?(2/2)9端网协同的广域高吞吐网络协议体系广域高通量网络云PE云PE 超算中心数据源(私有云/公有云)RoCE协议优化新型拥塞控制快速丢包恢复 智算中心 数据源(存储卡/磁盘)多路径传输贵州到北京数据快递测试贵州FAST北京国家天文台传输距离远:约2200km链路时延长:RTT约45ms链路带宽大:10Gbps网络类型复杂:云专网、传输网、城域网、DC网络长肥管道传统TCP协议单流435MbpsRoCE协议优化单流7.36GbpsRoCE协议优化是传统TCP协议吞吐的16倍数据传输测试结果端侧RoCE协
9、议优化,消除端侧吞吐瓶颈新型拥塞控制算法,提升网络有效利用率丢包快速恢复算法,降低数据重传尾时延端到端多路径传输,实现带宽聚合与均衡4个关键技术,实现广域高效数据传输2.路由转发中如何结合算力信息?(1/3)10在路由系统中引入计算因子,实现网络和计算的联合调度优化算力路由AR/VR 时延需要低于20ms保障用户体验,包括:传感器采样延迟:1.5ms(客户端)显示刷新延迟:7.9毫秒(客户端)GPU的帧渲染计算延迟5.5ms(服务器)网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络)观察1:计算延迟和网络延迟在同量级仅根据负载选择边缘站点1,总延迟22.4ms仅根据网络选择边缘
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一体 及其 网络技术 问题 探索
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。