多样化算力对服务器的散热挑战分析.pdf
《多样化算力对服务器的散热挑战分析.pdf》由会员分享,可在线阅读,更多相关《多样化算力对服务器的散热挑战分析.pdf(9页珍藏版)》请在咨信网上搜索。
1、E0多样化算力对服务器的散热挑战分析李建1阮迪2(1.北京三快云计算有限公司,北京 100102;2.中国信息通信研究院云计算与大数据研究所,北京 100191)摘要:多样化算力对于服务器散热设计提出严峻挑战,在对服务器散热问题进行解析之后,给出了通用算力和智算算力服务器散热受限的主要原因,并从工质是否相变的角度对常用的散热技术重新进行梳理与分类;对冷板式和浸没式液冷技术规模商用受限的核心限制因素进行分析与介绍;对常用的无源两相散热技术的问题和使用前景进行概述。最后,提出推动跨层级的合作会更有效的应对服务器散热挑战。关键词:多样算力;服务器;散热;液冷;无源两相散热;跨层级合作中图分类号:TN
2、929.11 文献标志码:A引用格式:李建,阮迪.多样化算力对服务器的散热挑战分析J.信息通信技术与政策,2024,50(2):46-54.DOI:10.12267/j.issn.2096-5931.2024.02.0080 引言随 着 云 计 算、大 数 据、人 工 智 能(Artificial Intelligence,AI)、自动驾驶等技术的快速发展,算力需求保持强劲的同时也出现明显分化。不同的业务需求促成了以通用算力、智算算力、边缘算力为代表的多样化算力载体,多样化算力也推动了中央处理器(Center Processing Unit,CPU)、图 形 处 理 器(Graphics Pr
3、ocessing Unit,GPU)、神经网络处理器、现场可编程逻辑门阵列等算力平台的快速发展1。在当前的算力分布中,通用算力和智算算力占据主导地位,通用算力以 CPU 为主要算力平台,智算算力以 GPU 为主要算力平台。在生成式 AI 技术取得突破之前,以 CPU 和GPU 为代表的算力芯片的性能发展趋势一直较为平稳,CPU 约 2.5 年翻一倍,GPU 约 2.25 年翻一倍2;生成式 AI 技术突破以后,GPU 的性能发展趋势明显加快。由摩尔定律可知,芯片性能的提升主要来源于晶体管数量的增加,参考芯片功耗的主要影响因素公式:PCNV2f。其中,P 为芯片功耗,C 为负载电容,N为芯片的晶
4、体管数量,V 为晶体管工作电压,f 为晶体管工作频率。晶体管数量与芯片的功耗成正比关系,虽然芯片的晶圆制程一直在迭代优化,但是对于芯片功耗控制的边际效应逐步显现,芯片功耗总体上仍呈明显上升趋势。根据相关芯片厂家的数据,以应用最为广泛的算力平台 CPU 和 GPU 为例,CPU 的功耗将从现在的 400 W 演进至 600 W 以上,GPU 的功耗将从700 W 演进至 1 000 W 以上,大功耗芯片散热成为服务器散热设计的主要挑战。1 多样化算力芯片散热挑战点分析不同算力芯片的功耗差异较大,如 CPU 比 GPU的功耗低很多,同样存在散热挑战的核心原因在于算力芯片所处的热边界条件不同。热边界
5、条件是指芯片64N510 所在的散热相关的约束条件,如芯片本身的尺寸、封装形式、功耗分布、温度规格,服务器的硬件架构、空间尺寸、使用环境,散热器的选型、风量大小、冷板设计、液体流量和进出温差等。对芯片散热设计产生约束的信息均属于热边界条件。以目前业界使用最广泛的2U 通用服务器和 AI 服务器为例,分析 CPU 和 GPU 芯片散热边界的差异。如表 1 所示,CPU 和 GPU 芯片的热边界条件存在较明显的差异,CPU 的散热主要受限于空间和芯片封装设计,而 GPU 的散热则主要受限于多卡级联和芯片封装设计。2 服务器散热技术分析2.1 散热机理解析在服务器散热场景下,根据散热工质是否存在相变
6、,散热技术可以分为单相散热技术和两相散热技术,两类散热技术的差异如表 2 所示。在实际使用中,一个服务器系统中可能出现多个技术混用的情况。例如,目前最常用的风冷换热本身属于单相传热技术,但是芯片使用的热管散热器中的热管部件属于两相散热技术;单相冷板技术也是在服务器风冷散热的基础上针对芯片单独使用的单相冷板散热技术,也属于多个散热技术混用的场景。表 1 CPU 和 GPU 芯片热边界条件对比热边界条件CPUGPU空间通用计算服务器的高度和深度空间限制 CPU 散热器的尺寸GPU 服务器的高度空间比较灵活硬件架构存算串联的通用计算架构的高流阻限制了系统风量8 卡与 16 卡串/并联限制了散热器的设
7、计GPU 卡的前后热级联效应芯片封装栅格阵列(Land Grid Array,LGA)的封装对散热器的高刚度要求限制了高性能传热技术的应用2.5D 或 3D 等多 DIE 合封带来的热流密度和温度规格不均的问题裸 DIE 芯片设计带来的散热器安装应力问题其他X86 架构芯片主要为 Intel 和 AMD,可选择性较少处于垄断地位的芯片厂商强势的商务策略,GPU散热方案不能自主设计,限制了风道的优化使用总结空间限制和芯片封装设计是主流 CPU 芯片散热受限的核心原因多卡级联和芯片封装设计是 GPU 芯片散热受限的核心原因表 2 单相和两相散热技术对比对比项单相散热技术两相散热技术传热类别显热工质
8、单相温度变化发生潜热伴随相变发生换热量及相关量Q显热=CpMT取决于流量、温差和工质本身的物性参数潜热 m:物性参数取决于两相循环的速度代表技术风冷换热单相冷板式单相浸没式环路热管技术、均温板技术热虹吸技术、脉动热管技术热管技术、两相冷板式两相浸没式优缺点优点:技术门槛相对较低,成熟度高缺点:效率相对较低优点:效率相对较高缺点:技术门槛相对较高74E02.2 不同散热技术性能对比单相和两相散热技术各有优缺点,考虑 CPU 或GPU 这类芯片呈现的高功耗和高热流密度特点,在实际使用中选择散热技术时,可以通过对比传热量和单点热流密度的能力来查看是否满足芯片的散热需求。以 2U 通用服务器 CPU
9、为例,主要散热技术的性能水平如图 1 所示。-/W3 2001 5001 8002 5404501501 1853 2003 200900/W/cm25003001007035502005001000.40100200300400500600 0 5001 0001 5002 0002 5003 000/W/cm2/W图 1 2U 通用服务器架构不同散热技术散热能力对比示意图3从图 1 可以得出以下结论。(1)2U 通用服务器架构下,单纯空气冷却的传热量和热流密度都是比较小的,所以实际使用中需要借助烧结型热管(两相散热技术)来提升散热器的热流密度和传热量。(2)冷板式和浸没式为代表的泵驱液冷技
10、术在传热量和热流密度方面相比空气冷却有大幅度的提升,这也是业界大力推广液冷技术的原因。(3)单相冷板的热流密度要高于单相浸没式,但是传热量指标低于单相浸没式。(4)环路热管性能与泵驱液冷技术性能相当,是一项非常有潜力的散热技术。3 服务器液冷技术分析由于单相冷板式和浸没式液冷技术的技术门槛相对较低,在汽车、电力等领域有着成熟和广泛的应用,因此,业界希望通过引入液冷技术来解决服务器芯片散热挑战,但看似成熟的液冷技术在服务器领域推广面临各种各样的问题,一直无法大规模部署商用,下面进行分析阐述。3.1 冷板式液冷技术分析服务器冷板式液冷技术方案的核心是充分利用冷板式液冷高热流密度的特点,针对性解决芯
11、片散热问题,工质通过管路与安装在芯片上的冷板内部的翅片换热来带走热量。常见的服务器冷板式液冷系统分为闭环式和开环式,其中开环式冷板式液冷系统是当前的主流方案(见图 2)。该方案液体工质会经过芯片和主板,所以工质泄露有可能导致短路;另外,相比传统的风冷散热器,液冷系统的复杂度变高,所以还会存在标准化和成本问题。总体而言,冷板式液冷技术的核心限制因素是可靠性和成本。可靠性问题的核心是服务器出现泄露时的故障半径和可维修时间的问题。漏液风险的衡量指标对应平均无 故 障 工 作 时 间(Mean Time Between Failure,MTBF),出现泄露以后维修时效的衡量指标对应平均维修时间(Mea
12、n Time To Repair,MTTR)。本文统计了目前我国 A 级数据中心的机架式服务器的可靠性指标水平(见表 3),可以看出,实际使用中 AI 服务器的故障率约是通用计算服务器的 35 倍,AI 服务器的主芯片数量约是通用计算服务器的 59 倍,风冷散热方案下的板卡维修相对简单,冷板式液冷方案下,大规模上量以后“维修”将成为一个必须考虑的问题。需要注意的是,不同的业务类型或者不同的调度水平对84N510 于可靠性指标的约束会存在比较大的差异,如何应对可靠性带来的问题需要根据实际情况综合考虑。冷板式液冷系统的成本分为显性成本和隐性成本,显性成本主要是指冷板式液冷散热方案的硬件成本,包含冷
13、板、管路、快接头、分水器、冷却液分配单元、阀门等,这部分成本非常显性,也是业界最为关注的,显性成本通过标准化、国产化等措施有机会降低至可接受水平。隐性成本较为隐蔽,主要是为了应对服务器宕机和维修时间拉长对业务需求造成影响而产生的额外成本支出,主要包含两部分,一部分是服务器的备用机数量增加产生的采购成本,与集群规模、冗余设计有关;另一部分是服务器生命周期内离线和维修带来的折旧成本,与集群规模、MTBF、MTTR、在线率要求等有关。总体上来看,冷板式液冷技术的规模商用问题,在产业链上的不同环节看到的限制因素存在巨大差异,服务器制造商认为服务器内部液冷散热方案的成本是主要限制原因,数据中心侧更关注兼
14、容性,而用户侧对可靠性更为关注,如何协同解决冷板式液冷面临的限制是后续业界必须面对的难题。3.2 浸没式液冷技术分析如图 3 所示,浸没式液冷技术是将服务器散热所用的工质从空气更换为绝缘液体。与冷板式的风液混合散热系统相比,浸没式液冷系统最大的优势就是系统简单,可靠性问题并非重点,所以浸没式液冷技术受限的核心问题是兼容性和成本。兼容性问题不是指浸没式液冷技术对应的材料兼容性问题,而是指服务器系统架构兼容性问题。从整个产业链来看,对于服务器设备供应商而言,风冷和冷板式服务器因为架构兼容,可以实现平滑演进,冷板式液冷技术是服务器设备供应商的必然选择;而浸没式服务器要对服务器系统架构进行重构,很难做
15、到和风冷散热架构的服务器实现归一化,从而带来服务器架构兼容性问题。浸没式液冷技术的成本主要体现在两部分。第一部分是资本支出,服务器因兼容性问题需要架构重构(a)(b)图 2 服务器冷板式液冷散热系统(a)和冷板(b)示意图表 3 服务器可靠性问题分析衡量指标具体指标通用计算服务器AI 计算服务器MTBF整机 MTBF/h110 00047 000年化整机故障率24365/MTBF8%18.6%实际年化整机故障率6%8%20%30%MTTRMTTR/h1N/A实际维修时效/h484894E0P IT P 图 3 单相浸没式液冷散热系统示意图4会导致成本增加,同时为适应浸没式液冷架构,机房、机柜需
16、要进行重构或重新设计,尤其是绝缘工质带来的成本,相比传统风冷数据中心会有明显的增长;第二部分是运营支出,包含机械吊臂、运维机器人、氟化液清洁、冷却工质的蒸发带来的补液成本、工质回收、环保问题等。从现有浸没式液冷技术的使用案例来看,浸没式液冷主要用于高性能计算、超算等对投入产出比不敏感的使用场景,在明确要求性价比的使用场景下,成本将是浸没式液冷技术规模应用的最大挑战。4 无源两相散热技术概述无源两相散热技术有两个核心技术点:相变传热和无源泵驱技术。相变传热主要是流体在发生相变的时候带走的相变潜热,所以对应流体的总换热量为Q总换热量=Q潜热+Q显热,相比无相变过程,换热量更大,对流换热系数更高(如
17、图 4 所示);无源泵驱技术是相对有源泵驱而言的,其最大的优点是不需要额外耗能,具有成本低、可靠性高、体积小等优点。在两相散热技术中,无源泵驱技术主要以重力、密度差、毛细力为主,其中毛细力是最常见的驱动技术。目前,无源两相传热技术主要包含热管、均温板、热虹吸、环路热管、脉动热管等,如表 4 所示。在目前服务器领域中,以热管和均温板应用最为广泛,热虹吸技术和环路热管有初步探索,但是没有规模落地使用,脉动热管因为技术特点,目前成熟度较低,属于 N+2代次技术,短时间内落地的可能性较小,所以本文主要/+图 4 相变传热示意图针对 N 代次和 N+1 代次的技术做介绍,对脉动热管技术不做详述。4.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多样化 服务器 散热 挑战 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。