非凸-凹极小极大问题的双尺度交替梯度下降上升算法.pdf
《非凸-凹极小极大问题的双尺度交替梯度下降上升算法.pdf》由会员分享,可在线阅读,更多相关《非凸-凹极小极大问题的双尺度交替梯度下降上升算法.pdf(5页珍藏版)》请在咨信网上搜索。
1、第 卷第期 年月太 原 师 范 学 院 学 报(自然科学版)J OUR NA LO FT A I YUANNO RMA LUN I V E R S I T Y(N a t u r a lS c i e n c eE d i t i o n)V o l N o M a r 收稿日期:基金项目:山西省基础研究计划(自由探索类)面上项目();太原师范学院研究生教育创新项目(S Y Y J S Y C )作者简介:王静(),女,山西运城人,在读硕士研究生,主要从事最优化理论与方法研究通信作者:王福胜,教授,E m a i l:f s w a n g c o m非凸凹极小极大问题的双尺度交替梯度下降上升
2、算法王静,王福胜,覃媛媛(太原师范学院 数学与统计学院,山西 晋中 )摘要针对一类非凸(强)凹极小极大问题,基于双尺度梯度下降上升算法,用交替梯度更新来替代同步梯度更新,从而提出了一种新算法双尺度交替梯度下降上升算法通过数值实验结果表明,新算法在MN I S T数据集上的分类准确率明显高于原算法,从而验证了新算法的有效性 关键词机器学习;非凸极小极大问题;梯度下降上升算法;单循环算法;交替梯度更新 文章编号 ()中图分类号O 文献标识码A 引言极小极大问题的理论研究一直是数学、统计、经济学和计算机科学几十年研究的重点凸凹极小极大问题由于其对应的变分不等式是单调算子,其相关的最优性理论和算法比较
3、成熟,目前关于凸凹极小极大优化问题的研究已取得很好的成果 近年来,由于机器学习的发展进步,极小极大优化问题引起了学术界极大的关注,越来越多的模型可以被表述为极小极大问题,例如,生成式对抗网络,对抗性训练,鲁棒优化和原始对偶强化学习,然而这些问题模型大多是非凸的,使用深度神经网络表述会极大地复杂化其优化问题的理论和数值分析目前关于非凸凹极小极大问题有一些相关的理论成果在非凸凹设置中,多循环算法受到了广泛的关注 ,有些算法在这类设置中获得了很好的复杂度结果尽管它们的理论性结果很好,但多循环算法实现起来比较复杂,对于在机器学习和信号处理的分布式训练中常见的具有多分块结构的极小极大问题难以求解,所以在
4、实践中不实用单循环算法仍然是最先进的 ,目前关于单循环算法的研究成果很少,最简单的单循环算法是梯度下降上升(G D A)算法 G D A算法可以通过同步或交替的渐变更新来进行,因此可以分为交替梯度下降上升算法和同步梯度下降上升算法同步梯度下降上升算法是梯度下降方法运用到极大极小优化问题的直接推广,它同时更新x和y,即xt xtxxf(xt,yt)yt ytyyf(xt,yt),相比之下,交替梯度下降上升算法中迭代xt 和yt 是按顺序计算的,即xt xtxxf(xt,yt)yt ytyyf(xt,yt),交替算法使用第一步得到的信息来更新第二个变量,每一次迭代都是两个半更新的组合,这也使得其理
5、论分析变得更加复杂,其中x,y是步长L i n等人 于 年提出了t w o t i m e s c a l eG D A和S G D A算法,同时更新x和y,在非凸强凹条件下,两种算法得到函数()m a xyYf(,y)的稳定点的迭代复杂度分别为O()和O(),其中为条件数在非凸凹条件下,两种算法分别需要O()和O()的梯度计算 B o等人 于 年针 对弱凸(强)凹问题提出了邻近交替梯度下降上升算法(p r o x i m a l a l t e r n a t i n gG D A),交替更新x和y,在非凸强凹条件下,在确定性和随机性情况下算法得到函数()m a xyYf(,y)的稳定点的迭
6、代复杂度分别为O()和O(),其中为条件数在非凸凹条件下,在确定性和随机性情况下算法分别需要O()和O()的梯度计算 X u等人 于 年提出了交替梯度投影(AG P)算法,交替更新x和y,并证明了对于非凸凹极小极大问题,获得f(x,y)的稳定点的迭代复杂度为O(),对于非凸强凹极小极大问题,其迭代复杂度可以达到O()当x为凸集且y为凸紧集时,年Z h a n g等人 提出了s m o o t h e d G D A算法,交替更新x和y,该算法对于一类特殊的非凸凹目标函数f(x,y)mifi(x)yi,可以达到O()的迭代复杂度,而对于一般的目标函数,其迭代复杂度为O()可以发现最近关于非凸凹极
7、小极大问题的单循环算法大都在G D A算法或其变体的基础上使用交替的渐变更新,那么G D A算法基础上的交替梯度更新是否比同步梯度更新有更好的收敛性效果?目前仅有文献 在理论上证明了A l t G D A对于强凸强凹极小极大问题具有近似最优的局部收敛速度,而S i m G D A的收敛速度要慢得多,这是第一个表明A l t G D A的收敛速度比S i m G D A的收敛速度超过一个常数的结果本文改进了t w o t i m e s c a l eG D A和S G D A算法中的同步梯度更新为交替梯度更新,从实验结果上证明了t w o t i m e s c a l eG D A算法的交替
8、梯度更新比同步梯度更新有更好的效果 算法在本节中,首先给出了问题的描述并回顾了t w o t i m e s c a l eG D A和S G D A算法,之后利用交替更新,提出了新算法t w o t i m e s c a l eAG D A和S AG D A算法 问题的描述考虑下列光滑极小极大问题m i nxRmm a xyYf(x,y),其中f:RmRnR在x上非凸但在y上为(强)凹,且Y为凸紧集 t w o t i m e s c a l eG D A和S G D A算法为了构造新算法,首先回顾一下t w o t i m e s c a l eG D A和S G D A算法(如算法,所
9、示),该算法使用了同步梯度更新算法:t w o t i m e s c a l eG D A第步给定初始迭代点(x,y),步长x,y,令t;第步更新x和y:xt xtxxf(xt,yt),yt PY(ytyyf(xt,yt)第步当算法满足终止准则时,停止;否则,令t:t,返回第步算法:t w o t i m e s c a l eS G D A第步给定初始迭代点(x,y),步长x,y,批量大小M,令t;第步更新x和y:xt xtxMMiGx(xt,yt,i),yt PYyty(MMiGy(xt,yt,i)第步当算法满足终止准则时,停止;否则,令t:t,返回第步 t w o t i m e s
10、c a l eAG D A和S AG D A算法在本小结中,提出了t w o t i m e s c a l eAG D A和S AG D A算法,该算法与t w o t i m e s c a l eG D A和S G D A算法的主要区别是使用交替梯度更新代替同步梯度更新第期王静,等:非凸凹极小极大问题的双尺度交替梯度下降上升算法算法:t w o t i m e s c a l eAG D A第步给定初始迭代点(x,y),步长x,y,令t;第步更新x和y:xt xtxxf(xt,yt),yt PY(ytyyf(xt,yt)第步当算法满足终止准则时,停止;否则,令t:t,返回第步算法:t w
11、 o t i m e s c a l eS AG D A第步给定初始迭代点(x,y),步长x,y,批量大小M,令t;第步更新x和y:xt xtxMMiGx(xt,yt,i),yt PYyty(MMiGy(xt ,yt,i)第步当算法满足终止准则时,停止;否则,令t:t,返回第步 数值实验本小节通过数值实验验证了所提出的t w o t i m e s c a l eAG D A和S AG D A算法的有效性所有的试验均在P y t h o n计算环境下的具有 G B内存的I n t e l C o r e i 处理器上进行实验是在iNi的数据样本上训练带有l范数攻击和惩罚参数的经验W a s s
12、 e r s t e i n鲁棒模型(WRM),形式为:m i nxm a xyiNiYNNi(l(x,yi)yii)正如S i n h a等人 所证明的,当选择足够大的,l(x,yi)yii是强凹的本文对对抗扰动的设置,和神经网络分类器的设置与S i n h a等人 相同在MN I S T数据集上训练神经网络分类器,该框架包括,和卷积滤波器层,E L U激活,然后是完全连接层和s o f t m a x输出当 时,问题是一个非凸强凹极小极大问题;当 时,问题是一个非凸凹极小极大问题我们设置t w o t i m e s c a l eAG D A和t w o t i m e s c a l
13、eG D A算法中x ,y ,其中x轴代表迭代次数,y轴代表分类准确率,图中虚线和实线分别对应了t w o t i m e s c a l eAG D A和t w o t i m e s c a l eG D A算法实验结果如图、图所示图 t w o t i m e s c a l eAG D A和t w o t i m e s c a l eG D A在WRM模型上的性能比较,其中 图 t w o t i m e s c a l eAG D A和t w o t i m e s c a l eG D A在WRM模型上的性能比较,其中 上述实验结果中,图、图分别表示了在非凸强凹和非凸凹条件下,t
14、 w o t i m e s c a l eAG D A和t w o t i m e s c a l eG D A算法在MN I S T数据集上的分类准确率,从图中可以看出,t w o t i m e s c a l eAG D A算法的分类准确率明显高于t w o t i m e s c a l eG D A算法,有效地验证了新算法的可行性太 原 师 范 学 院 学 报(自然科学版)第 卷 小结本文基于t w o t i m e s c a l eG D A和S G D A算法,用交替梯度更新代替同步梯度更新,提出了新算法t w o t i m e s c a l eAG D A和S AG
15、D A算法最后,通过数值实验结果表明t w o t i m e s c a l eAG D A算法在MN I S T数据集上均优于t w o t i m e s c a l eG D A算法,从而验证了新算法的可行性和有效性参考文献:OUYAN GYY,XUYY L o w e r c o m p l e x i t yb o u n d s o f f i r s t o r d e rm e t h o d s f o r c o n v e x c o n c a v eb i l i n e a r s a d d l e p o i n t p r o b l e m sJ M a
16、t h e m a t i c a lP r o g r a mm i n g,():N EM I R OV S K IA P r o x m e t h o dw i t h r a t e o f c o n v e r g e n c eO(/t)f o r v a r i a t i o n a l i n e q u a l i t i e sw i t hL i p s c h i t z c o n t i n u o u sm o n o t o n eo p e r a t o r sa n ds m o o t hc o n v e x c o n c a v es a d
17、 d l ep o i n tp r o b l e m sJ S I AMJ o u r n a l o nO p t i m i z a t i o n,():G O O D F E L L OWI J,P OUG E T A B A D I EJ,M I R Z A M,e t a l G e n e r a t i v e a d v e r s a r i a l n e t sCP r o c e e d i n g so f t h e t h I n t e r n a t i o n a lC o n f e r e n c eo nN e u r a l I n f o r
18、 m a t i o nP r o c e s s i n gS y s t e m s,M o n t r e a l:M I TP r e s s,:A R J OV S KY M,C H I N T A L AS,B O T T OUL W a s s e r s t e i ng e n e r a t i v ea d v e r s a r i a l n e t w o r k sCP r o c e e d i n g so f t h e t hI n t e r n a t i o n a lC o n f e r e n c eo nM a c h i n eL e a
19、r n i n g,S y d n e y:J ML R o r g,:MA D R YA,MAK E L OVA,S C HM I D TL,e ta l T o w a r d sd e e pl e a r n i n gm o d e l sr e s i s t a n t t oa d v e r s a r i a la t t a c k sCI C L R C o n f e r e n c e,V a n c o u v e r:I C L R,:B E N T A LA,E LGHAOU IL,N EM I R OV S K IA R o b u s to p t i m
20、 i z a t i o nM P r i n c e t o n:P r i n c e t o nU n i v e r s i t yP r e s s,D USS,C HE NJS,L ILH,e t a l S t o c h a s t i cv a r i a n c er e d u c t i o nm e t h o d s f o rp o l i c ye v a l u a t i o nCP r o c e e d i n g so f t h e t hI n t e r n a t i o n a lC o n f e r e n c eo nM a c h i
21、 n eL e a r n i n g,S y d n e y:J ML R o r g,:YANGMJ,NA C HUMO,D A IB,e t a l O f f p o l i c ye v a l u a t i o nv i a t h e r e g u l a r i z e d l a g r a n g i a nCP r o c e e d i n g s o f t h e t h I n t e r n a t i o n a lC o n f e r e n c eo nN e u r a l I n f o r m a t i o nP r o c e s s i
22、n gS y s t e m s,V a n c o u v e r:C u r r a nA s s o c i a t e s I n c,:THE KUMP R AMP I LKK,J A I NP,N E T R A P A L L IP,e ta l E f f i c i e n ta l g o r i t h m sf o rs m o o t hm i n i m a xo p t i m i z a t i o nCP r o c e e d i n g so f t h e r dI n t e r n a t i o n a lC o n f e r e n c eo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 极小 极大 问题 尺度 交替 梯度 下降 上升 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。