基于生成对抗网络的变分自编码器解耦合.pdf
《基于生成对抗网络的变分自编码器解耦合.pdf》由会员分享,可在线阅读,更多相关《基于生成对抗网络的变分自编码器解耦合.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 38 卷 第 4 期 2023 年 8 月 天津科技大学学报 Journal of Tianjin University of Science&Technology Vol.38 No.4 Aug.2023 收稿日期:20221114;修回日期:20230115 基金项目:天津市科技计划项目(22KPXMRC00210)作者简介:张贤坤(1970),男,安徽芜湖人,教授;通信作者:赵亚婷,硕士研究生, 基于生成对抗网络的变分自编码器解耦合 张贤坤,赵亚婷,丁文强,张翼英(天津科技大学人工智能学院,天津 300457)摘 要:深度生成模型从观测数据中学习到潜在因素,然后通过潜在因素生成目标,
2、在人工智能领域受到广泛关注。现有深度生成模型学习的潜在因素往往是耦合的,无法让潜在因素每一维控制所得数据的不同特征,即无法单独改变某一特征而不影响其他特征。为此,在-变分自编码器(beta-variational autoencoder,-VAE)的基础上,结合生成对抗网络(generative adversarial networks,GAN),提出基于生成对抗网络的变分自编码器(beta-variational autoencoder based on generative adversarial network,-GVAE)模型。该模型是一种改进的-VAE,通过引入生成对抗网络约束-VA
3、E 中损失函数的 KL 项(Kullback-Leibler divergence),促进模型的解耦合。在数据集 CelebA、3D Chairs 和 dSprites上进行对比实验,结果表明-GVAE 不仅具有更好的解耦合表示,同时生成的图像具有更好的视觉效果。关键词:解耦合;-变分自编码器;生成对抗网络;深度生成模型 中图分类号:TP399 文献标志码:A 文章编号:1672-6510(2023)04-0062-07 Decoupling of Variational Autoencoder Based on Generative Adversarial Network ZHANG Xia
4、nkun,ZHAO Yating,DING Wenqiang,ZHANG Yiying(College of Artificial Intelligence,Tianjin University of Science&Technology,Tianjin 300457,China)Abstract:Deep generative models learn latent factors from observational data,and then generate targets through latent fac-tors,which have received extensive at
5、tention in the field of artificial intelligence.The latent factors learned by the existingdeep generative models are often coupled,and each dimension of the latent factors cannot control different characteristics of the obtained data,that is,it is impossible to change a certain characteristic indepe
6、ndently without affecting other characteris-tics.Therefore,beta-variational autoencoder(-VAE)based on generative adversarial network(-GVAE)is proposed based on-VAE and combined with generative adversarial networks(GAN).This model is an improved-VAE,which promotes the decoupling of the model by intro
7、ducing a generative adversarial network to constrain the KL divergence of the loss func-tion in-VAE.By designing comparative experiments on three datasets,CelebA,3D Chairs and dSprites,it is proved that-GVAE not only has better decoupled representation,but also the generated images has better visual
8、 effects.Key words:decoupling;beta-variational autoencoder;generative adversarial network;deep generative models 近年来,解耦合表示学习1引起了机器学习界的广泛关注。解耦合表示学习的目的是得到解耦合的潜在因素,这种解耦合的潜在因素从观测数据中学习得到,潜在因素的维度之间相互独立,每个维度控制一种特征的生成,彼此之间互不影响2-6。解耦合表示学习具有一定的优势:当它用于下游任务时,可以提高预测性能,降低样本复杂度,提供可解释性7-8,提高公平性,并已被确定为克服深度学习9中快捷学习10
9、-11的一种方法。解耦合一直没有一个标准的定义,每个人对解耦合的具体定义可能都不完全相同,但其所表达的解耦合的含义是相同的,都可以通过一个例子来解释。例DOI:10.13364/j.issn.1672-6510.20220257 2023 年 8 月 张贤坤,等:基于生成对抗网络的变分自编码器解耦合 63 如对于人脸数据,可能得到的解耦合的潜在因素有十维,第一维控制肤色,第二维控制头发的长度,第三维控制眼睛的大小;如果调整第一维,保留其他维度不变,就可以生成同一个人脸不同肤色的图像。典型的解耦合表示学习方法主要有三大类。第一类是基于变分自编码器(variational autoencoder,
10、VAE)12-13,使用特定分布的随机化向量作为输入并生成相应的数据,不使用判别器而是使用编码器估计特定分布,促进模型学习可分离的潜在变量表示,从而达到解耦合的效果,但该类方法未考虑到真实世界的复杂语义信息,一般只能应用在简单数据集进行解耦表征学习。第二类是基于生成对抗网络(generative adversar-ial networks,GAN)14-15,通过对抗方式训练生成器和判别器,生成器用于生成尽可能逼真的假样本,判别器则尽可能准确地区分真假样本。该类方法能够处理复杂场景大规模数据集以及数据流信息的解耦合,然而生成对抗网络存在训练不稳定、模式崩溃和梯度消失等问题。第三类是基于主成分分
11、析(prin-cipal components analysis,PCA)16-17,利用线性投影将高维数据映射到低维空间中并尽可能保留最大的信息量。目前利用 PCA 算法提取特征主要应用在人脸识别领域,在复杂的人脸识别算法中可以得到较好的解耦合效果,而对于较为简单的数据集,使用 PCA算法进行解耦表征学习与前面两种方法得到的结果相差不大,反而显得有些浪费资源空间。通过学习这些方法观察到,VAE 的重构能力很高但解耦合效果很差,当对 VAE 损失函数中的KL(Kullback-Leibler divergence)项增大权重时,可以让模型产生较好的解耦合效果。基于此,-变分自编码器(beta-
12、variational autoencoder,-VAE)18在 VAE的基础上对 VAE 损失函数中的 KL 项加以限制,这样尽管模型重构能力有所下降,但解耦合能力有一定程度的提高。-VAE 中参数 的人为设置导致模型过于死板,缺少灵活性,而生成对抗网络恰好可以解决此问题。因此,本文在-VAE 的基础上结合 GAN,提出 基 于 生 成 对 抗 网 络 的 变 分 自 编 码 器(beta-variational autoencoder based on generative adversarial network,-GVAE)模型,引入生成对抗网络进一步对KL 项进行限制。这种限制可以让神
13、经网络自主训练学习,让 KL 项中的估计分布(|)p z x更接近真实分布()p z,既可以学习到网络中隐含的内容,也避免了人为对损失函数 KL 项限定的主观性,增加了模型的灵活性。本文首先介绍 VAE12、-VAE18以及 GAN14,其次对提出的网络框架-GVAE 进行详细介绍。该方法用生成对抗网络进一步约束-VAE 损失函数中的KL 项,使模型具有更好的解耦合表示。与此同时,生成对抗网络还会优化模型的生成数据,使生成数据具有更好的视觉效果。最后结合实验验证该生成模型在给定参数的情况下能够增加推理模型的表示能力,解耦合性能更好,可以有效提升图像的生成效果。1 背 景 1.1 变分自编码器
14、变分自编码器(VAE)是由推理模型(又称编码器)和生成模型(又称解码器)组成,其中推理模型是通过多层神经网络将真实数据 x 编码为一个低维隐变量 z,生成模型是将隐变量 z 通过多层神经网络还原映射到高维度数据空间19。变分自编码模型如图 1所示,其中:白色节点 z 表示隐变量,灰色节点 x 表示可观测量,节点之间的有向线段表示变量之间的依赖关系;(|)qz x与虚线部分为推理过程,(|)px z与实线部分为生成过程,和为相关过程的参数;方框表示该过程可以重复出现,例如在该模型中基于隐变量可以重复生成数据样本,观测到 N 条数据,则该过程重复出现了 N 次20-21。图 1 变分自编码模型 F
15、ig.1 Variational autoencoder model VAE 假设高维数据 x 是由低维隐变量 z 生成,其生成模型表示形式为 ()()(),|p x zp z px z=(1)其中:()()=;0,p zN zI表示隐向量先验概率分布,一般 为 标 准 多 元 高 斯 分 布,I 表 示 单 位 矩 阵;()()2|;,px zN x=I表示条件概率分布,为生成模型神经网络参数。VAE 中的数据生成过程为:先从先验分布()p z中采样隐向量 z,然后将 z 输入到条件概率分布()|px z中生成数据 x22。对于上述生成模型,难以精确计算边缘概率分布()p x和后验分布()|
16、p z x,VAE 则通过引入变分推理 64 天津科技大学学报 第 38 卷 第 4 期 模型()|qz x近似后验分布()|p z x,将推理问题转化为优化问题,其中为推理模型中神经网络参数。对于单样本点 x,VAE 的证据下界(ELBO)为 ()ELBO(|)ln|=qz xLEpx z ()()()KL|Dqz xp z(2)其中:式(2)右边第一项表示重构误差,第二项 KL 散度用来约束 VAE 的隐空间。此时,变分自编码模型的目标是通过随机梯度下降算法23学习到最优的模型参数和,使证据下界最大,即 (),argmax,L =(3)1.2-VAE-VAE 是对变分自编码器的改进,它为原
17、始的VAE 目标引入了一个可调的超参数,-VAE 的损失函数为 ()(|)(,;,)ln|qz xLx zEpx z=()()()KL|Dqz xp z(4)其中:为生成模型神经网络的网络参数,为推理模型神经网络的网络参数,x 为观测样本,z 为隐变量,为限制 KL 项的超参数,(|)qz x为-VAE 的编码器部分,(|)px z为-VAE 的解码器部分。选择良好的 值(通常是 1)会导致更多的解耦合的潜在表示 z。当 1 时,-VAE 模型将等同于原来的 VAE 框架。-VAE 实际上是对原始 VAE 损失函数的第二项()()()KL|Dqz xp z施加更强的约束,让(|)qz x和标准
18、高斯分布()p z更加接近,从而获得解耦合的能力,并且仍然可以很好地重建样本 x。与此同时,较好的解耦合往往导致重建效果不好,较好的重建效果往往导致解耦合的能力不好。因此,鼓励解耦合所必需的更高的 值通常需要在-VAE 重建的保真度与其潜在代码 z 的解耦合性质之间权衡。1.3 生成对抗网络 生成对抗网络(GAN)14受启发于博弈论中的二人零和博弈理论,其独特的对抗训练思想能生成高质量的样本,具有比传统机器学习算法更加强大的特征学习和特征表达能力。GAN 的网络结构由生成网络和判别网络两部分组成,模型结构如图 2 所示。生成器 G 接收随机变量z,生成假样本数据 G(z)。生成器的目的是尽量使
19、生成的样本和真实样本一样。判别器 D 的输入由两部分组成,分别是真实数据 x 和生成器生成的数据G(z),其输出通常是一个概率值,表示 D 认定输入是真实分布的概率,若输入来自真实数据,则输出 1,否则输出 0。判别器的输出会反馈给 G,用于指导 G 的训练。理想情况下 D 无法判别输入数据是来自真实数据 x 还是生成数据 G(z),即 D 每次的输出概率值都为 1/2(相当于随机猜),此时模型达到最优。在实际应用中,生成网络和判别网络通常用深层神经网络实现。图 2 GAN网络模型结构示意图 Fig.2 Structure diagram of GAN network model GAN 的思
20、想来自博弈论中的二人零和博弈理论,生成器和判别器可以看成是博弈中的两个玩家。在模型训练的过程中,生成器和判别器会各自更新自身的参数使损失最小,通过不断迭代优化,最终达到纳什均衡状态24,此时模型达到最优。GAN 的目标函数定义为 ()()ata()min max,logdGDx pxV D GED x=+()()()()log 1zzpzED G z(5)2 基于生成对抗网络的变分自编码器 2.1 模型结构-GVAE 的网络结构图如图 3 所示,主要由两部分组成,上半部分为-VAE,下半部分为 GAN 的判别器。图 3-GVAE的网络结构 Fig.3 Network structure of-
21、GVAE (|)qz x为-GVAE 的编码器,同时相当于 GAN中的生成器。(|)px z为-GVAE 的解码器,和为生成模型神经网络的网络参数和推理模型神经网络的网络参数。D 为-GVAE 中 GAN 部分的判别 2023 年 8 月 张贤坤,等:基于生成对抗网络的变分自编码器解耦合 65 器,由推理模型(|)qz x得到的隐变量 z 作为负样本,由()(0,)p zNI=中采样得到的隐变量 z 作为正样本,将正负样本一同输入到判别器 D 中,若输入来自正样本,则输出 1,否则输出 0。2.2 损失函数-GVAE 的损失函数是在-VAE 的基础上,通过引入了 GAN 约束-VAE 中损失函
22、数的 KL 项,促进模型的解耦合。模型-GVAE 中 GAN 的损失函数表示形式为 data()min max(,)log()=+GDx pxV D GED x ()()()()log 1zp zED G z(6)其中:G 代表生成器,其本质为模型-GVAE 中-VAE 的编码器,D 代表判别器;()zp z代表从标准正态分布()(0,)p zNI=中采样得到的隐变量 z 作为正样本,data()xpx代表从样本数据中采样样本 x,然后将样本 x 输入到生成器 G 中,得到生成的隐变量 z作为负样本。在训练时,将正负样本输入到判别器 D中,若判别器 D 的输入来自正样本,则输出 1,否则输出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 生成 对抗 网络 编码器 耦合
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。