面向3D生成对抗网络的频域加速器设计.pdf
《面向3D生成对抗网络的频域加速器设计.pdf》由会员分享,可在线阅读,更多相关《面向3D生成对抗网络的频域加速器设计.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 35 卷 第 6 期 计算机辅助设计与图形学学报 Vol.35 No.6 2023 年 6 月 Journal of Computer-Aided Design&Computer Graphics Jun.2023 收稿日期:2021-11-01;修回日期:2022-03-04.基金项目:计算机体系结构国家重点实验室开放课题(CARCHB202119);热能动力技术重点实验室开放基金(TPL2019C01).江卓燊(1996),男,硕士研究生,主要研究方向为计算机体系结构;刘博生(1988),男,博士,讲师,CCF 会员,主要研究方向为计算机系统结构;唐忆滨(1989),男,博士,CCF
2、会员,主要研究方向为嵌入式计算机系统;武继刚(1963),男,博士,教授,博士生导师,CCF 会员,论文通信作者,主要研究方向为移动智能计算、数据科学与云计算、高性能体系结构、容错计算.面向 3D 生成对抗网络的频域加速器设计 江卓燊1),刘博生1,2),唐忆滨3),武继刚1)*1)(广东工业大学计算机学院 广州 510006)2)(中国科学院计算技术研究所计算机体系结构国家重点实验室 北京 100190)3)(武汉数字工程研究所 武汉 430074)()摘 要:三维生成对抗网络(3D generative adversarial networks,3D GANs)广泛应用于模型预测、对象生成
3、等领域.针对当前 3D GANs 加速器存在计算开销高、访存能耗高等问题,提出一种基于快速傅里叶变换(FFTs)的 3D GANs 频域加速器设计(FAG).首先针对 3D GANs 加速器计算开销高的问题,提出支持频域 3D GANs 计算的硬件架构,利用频域低计算复杂度特性和频域反卷积中的零值模式以减少计算开销;其次针对 3D GANs 加速器访存能耗高的问题,提出支持 3D 卷积和反卷积计算的频域映射调度流,利用频域共轭对称特性和反卷积中的零值模式减少访存开销.基于ModelNet 数据集和 3 个 3D GANs 模型(3DGAN,3D-IWGAN 和 3D-PhysNet)的评估结果
4、表明,与具有代表性的频域加速器相比,FAG 可使性能提高 76%,能效提高 141%;与具有代表性的空间域加速器相比,FAG 的性能提高 6 倍,能效提高 46 倍.关键词:频域加速器;3D GANs;反卷积;数据重用;调度流 中图法分类号:TP391.41 DOI:10.3724/SP.J.1089.2023.19439 Frequency-Domain Acceleration for 3D Generative Adversarial Networks Jiang Zhuoshen1),Liu Bosheng1,2),Tang Yibin3),and Wu Jigang1)*1)(Sch
5、ool of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006)2)(State Key Laboratory of Computer Architecture,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190)3)(Wuhan Digital Engineering Institute,Wuhan 430074)Abstract:3D generative adversar
6、ial networks(3D GANs)are widely utilized in model prediction and object generation.To address the challenges of massive computation and significant energy consumption in acceler-ating 3D GANs,a novel fast Fourier transform based frequency-domain accelerator(called FAG)is proposed.Firstly,FAG provide
7、s a frequency-domain hardware architecture,which utilizes the compact computation complexity and the zero repeat pattern in deconvolution,to reduce the computation overhead in 3D GANs ac-celerators.Secondly,FAG exploits the frequency-domain characteristic of Hermitian symmetry and the zero repeat pa
8、ttern of deconvolution to significantly reduce data movements,and it utilizes the repeat pattern in de-convolution to significantly reduce data movements.Comprehensive evaluations based on the ModelNet data-set and three 3D GAN models(3DGAN,3D-IWGAN and 3D-PhysNet)show that,the performance and the e
9、nergy efficiency can be improved by 76%and 141%,respectively,compared with the frequency-domain base-line;FAG achieves 6 higher performance and 46 better energy efficiency compared with the spatial baseline.954 计算机辅助设计与图形学学报 第 35 卷 Key words:frequency-domain accelerator;3D generative adversarial net
10、works;deconvolution;data reuse;stream scheduling 三维生成对抗网络(3D generative adversarial networks,3D GANs)凭借其优越的性能已广泛应用于众多智能领域,如 3D 对象建模与合成、3D 模型预测等1-3.与有监督的深度学习网络相比,3D GANs能够有效地减少样本数据标注和注释方面大量耗时、耗力的工作量.然而,高精度的效果需要以大量卷积计算作为代价,阻碍了 3D GANs 的广泛应用.为解决上述问题,研究人员提出许多快速算法.例如,快速傅里叶变换(fast Fourier transforms,FFTs)
11、4-5通过将空间域卷积计算转换为更简单的频域卷积计算,可显著地减少乘加的计算规模6-8;与传统的空间域卷积计算相比,频域卷积针对典型网络计算可获得高达 23 倍的加速计算能力7.卷积和反卷积在3D GANs计算中占主导地位.研究人员已深入展开对频域卷积加速的研究,但对频域反卷积加速的研究较少.在传统的空间域反卷积中,零元素参与的乘加计算占总计算量的75%以上9-10.由于零值的计算并不贡献输出,冗余计算开销非常高.频域反卷积包括上采样和上采样后的频域卷积操作.为进一步减少计算量和数据移动,Ko 等11设计的频域加速器将频域计算中的固有共轭对称性应用在频域卷积计算中,可减少近一半的计算量12.类
12、似地,共轭对称性也可以应用于加速频域反卷积计算.但是,现有频域加速器11无法避免由上采样操作引起的大量频域/空间域转换和冗余数据移动.当前具有代表性的频域加速器在执行反卷积上采样操作时,需要将频域数据转为空间域数据后进行零元素插入操作,然后再将其转为频域数据,导致巨大的变换计算和数据移动开销.综上所述,目前尚未发现有效的加速频域卷积和反卷积的加速器.本文设计了一种频域卷积和反卷积加速器(frequency domain accelerator of 3D generative ad-versarial networks,FAG).与具有代表性的空间域加速器13不同,本文利用频域卷积计算中的直接
13、复数乘法来进一步提高计算性能.与具有代表性的频域加速器11相比,FAG 不仅采用频域固有的共轭对称性进行加速,而且利用反卷积在频域中的重复模式来减少变换的计算代价和数据移动开销.FAG 只需要将约 1/8 的频域输入特征加载到计算部件,剩余的频域输入特征通过利用频域数据的重复特征实现数据供给,减少内存访问量.FAG通过利用上采样零插入操作后的频域数据重复特征(4 部分数据均相同,只需要存储 1/414)和共轭对称的数据特征(只需存储约 1/2 数据)实现减少计算和访存规模.由于尚未见到针对 3D GANs 设计的频域加速器的报道,本文构建了一种基于具有代表性的频域加速器11的扩展 3D GAN
14、s 频域加速器基准.评估结果表明,与该频域基准相比,FAG 性能提高76%,能效提高 141%.与具有代表性的空间域加速器 Eyeriss*9相比,FAG的性能提高 6倍,能效提高 46 倍.因此,本文设计了一种新颖的适用于卷积和反卷积的频域加速器;提出一种适用于频域卷积和反卷积的调度流,可支持共轭对称性和频域反卷积中的零值重复模式,减少冗余计算量和数据移动.综合实验分别对共轭对称和重复模式的影响进行评估,结果表明,FAG 能有效地提高计算性能和能效.1 相关工作 1.1 空间域 3D 反卷积基础 图 1 所示为传统的空间域 3D 反卷积步骤.在空间域 3D 反卷积中,多帧连续数据被用于输入特
15、征进行计算(每帧输入特征数据尺寸为n,输入通道为I,总深度为D).空间域反卷积包括 2 个关键操作:上采样的零元素插入操作用于扩大输入特征尺寸;后续的卷积操作(沿,x y z方向).其中,上采样将特征图扩大至原来的 2 倍(如输入特征的深度大小D被扩展成2D),卷积操作后获得最终输出.图 1 空间域 3D 反卷积 1.2 频域卷积基础 在进行频域卷积计算时,以 2 个复数xa i b和iycd 为例,其复数乘法计算公式为 第 6 期 江卓燊,等:面向 3D 生成对抗网络的频域加速器设计 955 i izx ya cb da db cABBC (1)AabcBcdbCbad (2)其中,z表示计
16、算结果;i表示虚数单位;,A B和C表示中间变量.从式(1)(2)可以看出,一对复数乘法操作需要 3 个实数乘法.1.3 频域数据共轭对称性 频域卷积和反卷积数据具有共轭对称性.图 2所示为频域中输入特征FFTa与权重FFTw的反卷积计算,输出特征为FFTo;三者具有共轭对称性,其特征为一对共轭复数,实部数值相同,虚部数值为相反数.例如,FFTFFT,aXwY和 FFToZ(图中对应区域的深色部分)分别与FFTaX,FFTwY和FFToZ(图中对应区域的透明部分)共轭对称.图 2 频域 3D 反卷积 1.4 频域反卷积的重复模式 输入特征的上采样零插入操作在变换到频域空间后表现出重复特征14.
17、图 3 所示为频域反卷积中上采样零插入的重复模式.插入零值前的输入特征X经过 FFT 后的结果输出特征Y;输入特征X零插入为X后,X经过 FFT 得到的结果为Y.Y具有重复特征,即 123414YYYYY(3)其中,1Y,2Y,3Y和4Y表示Y中的 4 个子模块.1Y,2Y,3Y和4Y均等于Y,且这 4 个子模块均具有共轭对称性.1.5 频域加速器 FAG 建模 3D 频域卷积和反卷积沿z方向进行卷积计算时,每个输入特征和权重数据需要重复使用多次.在具有代表性的频域加速器11中,频域计算单元(frequency-domain processing element,FPE)需要多次加载同一个复数
18、数据,造成大量的冗余数据移 图 3 频域反卷积中上采样零插入的重复模式 动.文献15指出,片外访存的数据移动需要耗费大量能耗.尽管数据重用已经在空间域的卷积和反卷积加速计算中进行了广泛研究16-18,但对于不同的计算模式,传统的空间域数据重用方法不能直接应用于频域加速器.为了减少冗余数据访问,通过观察发现,加载后的输入特征和权重数据可以在随后的周期里再次被使用.为支持数据重用,在所设计的硬件结构中,同一列FPE共享同一个输入特征频域数据,输入特征频域数据从右列移动到左列,权重频域数据从左往右进行移动,实现重用.现有的频域加速器在反卷积的上采样前需要将频域数据转为空间域数据进行零插入操作,零插入
19、后再将空间域数据转为频域数据,这个过程需要 FFT/iFFT 计算;而 FFT/iFFT 要消耗大量的硬件资源,严重影响加速器的性能和能效.通过利用重复模式,上采样后频域数据可拆分为4部分相同的频域数据,且均与上采样前的频域数据相等,从而缩减计算规模.在卷积层中,使用共轭对称特性可以减少数据移动和计算量;而反卷积层中上采样后的4部分频域数据均具有共轭对称特性,使用共轭对称性可以有效地减少计算规模.然而,现有的频域加速器未利用重复模式特性,在反卷积层需要加载冗余的输入特征数据,造成过高的访存代价.通过研究发现,加速器利用频域数据在插入零值后表现的重复特性,可以有效地减少数据加载规模,如图3 所示
20、.为了有效地利用这些重复的数据特征,本文设计了灵活调度流,利用共轭对称性和反卷积的上采样零插入重复模式实现减少内存访问量.另外,部分研究利用数据稀疏特性进行计算加速设计(如 SCNN19),能够有效地减少数据搬运.本文利用频域数据特性减少数据访问与该类方法正交.956 计算机辅助设计与图形学学报 第 35 卷 2 加速器体系结构 2.1 FAG 架构 图 4 所示为本文提出的 FAG,包括片上缓存(weight buffer 和 activation buffer,WB 和 AB)、频域处理单元阵列(FPE 阵列)、变换组件(FFT/iFFT)和控制器(controller,Ctl).WB 存
21、储权重频域数据,AB 存储输入特征和输出特征频域数据;FPE 阵列的大小为mnTT,用于执行频域复数乘法和累加;FFT/iFFT 组件用于空间域和频域之间数据变换;Ctl 协调所有组件有序地进行工作,以得到正确的计算结果.图 4 FAG 图 5 所示为 FPE 阵列的 4 个关键操作.图 5a所示为 FPE 阵列最左列的 FPE 用于接收权重频域数据;图 5b 所示为每列 FPE 中的权重频域数据可移动到右列的 FPE 列以重用;图 5c 所示为加载输入特征的操作,在每个执行周期里,FPE 阵列中的1 列 FPE 被添加nT个输入特征;图 5d 所示为右列FPE 中的输入特征频域神经元数据移动
22、到左边FPE 列以重用.图 5 FPE 阵列的 4 个关键操作 2.2 调度流 2.2.1 卷积调度流 图 6a 所示为用于卷积的调度流.其中,输入特征FFTa大小为nnD,输入通道为I,权重FFTw大小为nnk,输出通道为M,输出特征FFTo大小为nnD.所使用的 FPE 大小为mnTT.在每个执行周期中,mT个权重频域数据被加载到最左列的 FPE(共mT行);其他列 FPE 通过右移操作来获得频域权重数据.图 6a 的特征图中,相同颜色点表示同一帧数据.nT个同一帧不同输入通道的输入特征被加载到一列 FPE 阵列中,并被同一列 FPE 所共享.相邻的 FPE 列则分别加载输入特征的相邻帧.
23、在每个执行周期中,每列 FPE 仅使用nT个数据中的 1 个(按顺序被使用).另外,右列 FPE 的输入特征频域数据可通过左移操作进行数据重用.图 6 大小为mnTT的 FPE 阵列中的调度流 卷积层的数据重用有 2 个方面:(1)通过左移输入特征操作,右列 FPE 中的输入特征将被移动到左列 FPE 中进行数据重用.(2)通过右移权重操作,左列 FPE 中的权重将被移动到右列 FPE 中进行数据重用.2.2.2 反卷积调度流 图 6b 所示为用于反卷积的调度流.其中,输入特征FFTa大小为nnD,输入通道为I,权重FFTw大小为22nnk,输出通道为M,输出特征FFTo大小为222nnD.频
24、域权重被拆分成 4 个子权重.输入特征分别与4个子权重进行频域卷积计算,而需要执行的卷积计算的调度流与第 2.2.1节的方式相同.反卷积层与卷积层的不同点如下:(1)通过重复模式,FAG 在反卷积层只需要加载 1/8 的频域输入特征,剩余部分通过重用实现数据供给.在卷积层中FAG需要加载1/2的频域输入特征.(2)在反卷积层中,1 个输入特征将分别与 4第 6 期 江卓燊,等:面向 3D 生成对抗网络的频域加速器设计 957 个子权重卷积计算,而卷积层无此重复特征.频域反卷积的输入特征具有上采样的零插入重复模式,输入特征的 4 部分子模块数据均相同;再结合共轭对称的数据特征,FAG 只需要将
25、1/8 的频域输入特征加载到芯片内,剩余的频域输入特征通过重用实现数据供给.2.2.3 调度流案例 为了更好地介绍调度流方案,图 7 给出调度流的案例分析.图7a中,输入特征FFTa大小为6 6 3,权重FFTw大小为6 6 2.输入特征尺寸n大小为 6,输出特征FFTo大小为6 6 2,结合共轭特性,输入特征和权重中有颜色部分执行复数乘法操作.图 7 调度流的案例分析 图7b所示为图7a中一对进行复数乘法运算的输入特征和权重数据,输入特征的深度D为 3,权重深度为 2,输入通道大小为 2,权重输出通道大小为1.通过权重向输入特征的深度方向D进行卷积,输出特征的深度为 2.图 7c 所示为图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 生成 对抗 网络 加速器 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。