基于串行自编码器的无监督领域自适应特征学习方法.pdf
《基于串行自编码器的无监督领域自适应特征学习方法.pdf》由会员分享,可在线阅读,更多相关《基于串行自编码器的无监督领域自适应特征学习方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、第2 6 卷第4期2023年8 月扬州大学学报(自然科学版)Journal of Yangzhou University(Natural Science Edition)Vol.26No.4Aug.2023基于串行自编码器的无监督领域自适应特征学习方法陈家合,朱毅*,沈辉,王志,李云(扬州大学信息工程学院,江苏扬州2 2 512 7)摘要:传统的基于自编码器的无监督领域自适应方法大多依靠单一的自编码器模型,故无法学习得到领域间的全局特征表示.针对该问题,提出一种基于串行自编码器(serial autoencoderunsupervised domainadaptation,SA U D A)的
2、无监督领域自适应方法,以串行方式连接两种不同类型的自编码器学习更丰富的全局特征表示.利用堆叠自编码器(stacked autoencoder,SA E)对源域和目标域的特征进行初步学习;进一步地,采用稀疏自编码器(stacked sparseautoencoder,SSA E)对堆叠自编码器所得特征学习结果进行二次特征学习,以得到领域间更好的全局特征表示.结果表明,与传统的神经网络方法相比,基于SAUDA的无监督领域自适应方法在实验数据集上具有更好的跨领域分类性能.关键词:无监督领域自适应;串行自编码器;特征学习中图分类号:TP391.11D0I:10.19411/j.1007-824x.20
3、23.04.006文献标志码:A文章编号:10 0 7-8 2 4X(2023)04-0031-06传统的机器学习方法通常假设训练数据与测试数据独立同分布,而现实场景中却难以满足该情形1.为了解决不同领域中数据分布不匹配的问题,领域自适应方法被提出且成为数据挖掘和人工智能领域的研究热点2 .近年来,深度学习方法因其强大的特征学习能力而被广泛用于学习领域间不变的特征表示3.主流的深度学习模型,如自编码器(autoencoder,A E)4、卷积神经网络5、递归神经网络6 和生成对抗网络7 等,均能够学习跨领域的高层特征表示,并且可以通过对齐领域间的全局特征表示实现知识迁移,从而完成跨领域的学习任
4、务.例如,Wang等8 提出一种基于标签自矫正的无监督领域自适应方法,使用概率标签直接端到端地学习并矫正目标领域样本的伪标签.在众多深度学习模型中,基于自编码器的无监督领域自适应方法因无需标签进行训练和快速收敛等优势而备受关注.Wei等 提出一种改进的边缘化堆叠去噪自编码器的特征学习方法,在堆叠自编码器的损失函数中引入核化非线性编码,通过最大均值差异度量的最小化域散度提取具有较小分布差异的深度特征;Zhu等10 1提出一种基于堆叠卷积稀疏自编码器的无监督领域自适应方法,通过在原始数据进行层投影获得更高级的特征表示;Li等11提出一种联合对抗变分自编码器方法,利用Wasser-stein距离调整
5、边际和条件分布以缩小领域之间的差异,从而消除类别先验偏见的影响.然而,现有的基于自编码器的方法倾向于通过对单个自编码器的堆叠逐层学习领域之间的多种特征表达来降低局部差异12,而忽略了不同特性的自编码器所学习到的特征表达间的差异性;因此,本文拟提出一种基于串行自编码器(serial autoencoderunsupervised domain adaptation,SA U D A)的特征表示学习方法,通过串行方法连接堆叠自编码器和稀疏自编码器,进一步发掘领域之间的全局特征.收稿日期:2 0 2 2-10-2 2.*联系人,E-mail:z h u y i y z u.e d u.c n.基金项
6、目:国家自然科学基金资助项目(6 2 0 7 6 2 17,6 190 6 0 6 0).引文格式:陈家合,朱毅,沈辉,等基于串行自编码器的无监督领域自适应特征学习方法J扬州大学学报(自然科学版),2023,26(4):31-36.32扬州大学学报(自然科学版)第2 6 卷1串行自编码器1.1问题形式化通过学习源域和目标域中的高级特征表示构造分类器,利用源域中带标签的样本预测出目标域中样本的标签.给定一个带有标签数据的源域X。=(x,y i)=,以及一个不含标签数据的目标域X,=()1,其中xi,x 分别为源域中第i个实例和目标域中第个实例,y为源域中第i个实例的标签,ns,n t 分别为源域
7、和目标域中的实例个数.1.2自编码器作为无监督模型,AE主要基于反向传播算法和最优化方法,利用输人数据X本身作为监督,指导神经网络学习映射关系,从而得到重构输出X.AE的训练过程包括编码和解码2 个阶段:在编码阶段,对输人样本进行编码得到编码层;在解码阶段,对编码层得到的数据进行解码,最终得到输人样本的重构,继而通过调整神经网络参数使得重构误差达最小值,以获得输入特征的最优特征表示.若AE的输人XER+n),其中d为特征空间的维数.假设Wi,b i 为编码层的权值矩阵和偏置向量,W2,b 为解码层的权值矩阵和偏置向量,6 1,6 2 分别为编码阶段与解码阶段的节点激活函数.AE首先通过线性映射
8、和非线性激活函数完成对输入样本的编码,得到编码特征输出(1)然后解码器通过对编码特征进行解码得到输入样本的重构X=02(W,H+b2).AE的训练目标是使得损失函数J达最小值,即求minwwbrb.J(Wi,Wa,br,b 2).本文选择平方损失误差函数(3)其中n为实例数量,xi,x;分别为输人样本X与重构X的第i个实例.采用梯度下降算法,通过反向传播误差调整网络参数使得重构误差函数达最小值.假设学习速率为n,更新AE的权值矩阵Wi,W 和偏置向量bi,b 2:Wi=Wi-n,aJ(WWa.br ba),b,=be-nsbi=bi-nabl为了提取更具代表性的特征,本文采取多个AE级联方式构
9、建SAE,采用逐层贪婪训练方法将上一级AE的隐含层输出作为下一级AE的输人来提取层次化特征.1.3稀疏自编码器当隐含层节点多于输人节点时,AE会失去自主学习样本特征的能力,此时需要对隐含层添加一定的约束.SSAE则是在AE中添加稀疏性限制,旨在得到更具代表性的特征表示,并发现样本中的特定结构.在SSAE中,稀疏性限制迫使隐含层节点大部分时间处于抑制状态,即当激活函数选择Sigmoid时隐含层节点输出接近于0,从而使得网络仅依赖少量处于激活状态的隐含层节点进行编码和解码,提取更具稀疏性的特征。本文采用L1范数正则化项对损失函数的激活项加以惩罚,迫使神经元输出的平均激活值与一个给定的稀疏值接近.给
10、定隐层节点k对输人x;的激活值a(x,),通过L正则化系数来控制惩罚程度,则SSAE的损失函数H=o1(WiX+bi);J(X,x)=Z I;x I,aJ(W.W.b.b.),W,=W.-naWi(2)aJ(Wi,W2,bi,b2)(4)aW2aJ(Wi,W2,bi,b,)ab2(5)第4期SSAE能有效学习重要特征和抑制次要特征,从而得到领域间更好的全局特征表示.2基于串行自编码器的无监督领域自适应考虑不同特性的自编码器可以学习到不同的特征表达,本文提出如图1所示的基于SAUDA的特征表示学习方法,以实现更好的跨领域分类性能.假设带标签的源域数据X。=(x,y)=,和未带标签的目标域数据X,
11、=(x)1,SA E和SSAE的激活函数分别为1,0 2,学习速率n,最大迭代次数Nmax,L,正则化系数,源域数据在SAE和SSAE第i层的输出分别为XisAE,Xs s A E,i E1,门.初始化X=X,初始迭代次数N设置为O,SA E编码层的权值矩阵W和偏置向量bi,SA E解码层的权值矩阵W和偏置向量b2,SSA E的权值矩阵W和偏置向量b.第一阶段,对源域和目标域的特征进行初步学习.当迭代次数小于Nmax时,首先,根据式(1)计算SAE的隐含层输出,并以此作为SAE的下一层隐含层输人;其次,根据式(2)计算SAE每一层的样本重构作为SAE的下一层解码输人,并在SAE每一层通过线性整
12、流函数将神经网络非线性化,以缩小源领域与目标领域之间的差距;最后,根据式(3)计算网络误差J(W i,W,b i,b),利用式(4)(5)更新SAE的权值矩阵和偏置向量.第二阶段,基于第一阶段学习得到的特征表示结果,通过SSAE并采用与第一阶段相同的步骤进行二次特征学习,提取更有效的全局特征表示,在高层特征子空间内使得领域特征表示更加丰富。进一步地,利用新学习到的更丰富的特征表示,选择逻辑回归模型在目标域训练分类器,对目标域的未标记数据进行分类,解决跨领域文本分类问题.陈家合等:基于串行自编码器的无监督领域自适应特征学习方法Jsse(W,b)=J(X,X)+Zr.,la(x,)1.33(6)源
13、域.一.X.XI旧标域XX.XI4F.X.XIA第一阶段:初步特征学习图1SAUDA框架示意图Fig.1The framework of SAUDA3实实验结果与分析硬件环境为 NVIDIA Geforce RTX 3090 Founders Edition GPU,Intel(R)C o r e(T M)i9-10980XECPU,内存为12 8 GB.编程软件为Python3.9.16,机器学习包PyTorch-CUDA11.7.3.1数据集实验数据集是由淘宝和京东网站的电商评论收集并整合而成的中文情感分析数据集(https:/ 种领域类别,共 6 0 0 0 0 条评论数据,其中正负例样
14、本各30 0 0 0 个.现选取“计算机”“书籍”“水果”和“洗发水”等4种领域类别,每个领域选取正负例样本各10 0 0 个,并设置“计算机水果”“计算机洗发水”“书籍水果”和“书籍洗发水”等4种不同的跨领域任务。第二阶段:二次特征学习343.2特征学习准确率利用本文提出的SAUDA方法进行无监督领域自适应特征学习,并与标准AEL4、卷积神经网络(c o n v o l u t i o n a l n e u r a l n e t w o r k,CNN)5、堆叠自编码器串行连接(SAE十SAE)以及稀疏自编码器与堆叠自编码器串行连接(SSAE十SAE)等领域自适应方法进行对比分析.每个任
15、务选取2 0 0 0 条源域数据样本和2 0 0 0 条目标域数据样本.在基于CNN和标准AE方法的实验中,设置训练轮次为5轮,批量大小为32 个,学习率为0.0 0 1.在本文方法、SAE十SAE和SSAE十SAE自编码器实验中,设置训练轮次为10 轮,批量大小为6 4个,学习率为0.0 0 1,稀疏参数为0.3.选择分类精度(7)Ix:xEX.I作为评估指标,其中y(x)为实例x的真实标签,f(x)为分类模型预测的x的标签.表1给出了上述5种方法在中文电商评论集的4个跨领域任务上的实验结果.由表1可知:本文SAUDA方法是有效的,且在不同任务上的特征学习准确率优于其他4种方法.其可能原因是
16、:1)基于串联自编码器的领域自适应方法能够进行二次特征学习,从而挖掘更丰富的全局特征表示;2)特征学习的不同阶段引人不同种类的自编码器后学习得到的特征表示差异很大,SAUDA方法因在各阶段引入合适种类的自编码器进行适应性的特征学习,故具有更高的特征学习准确率。表15种方法在不同任务上的特征学习准确率Tab.1Accuracy of feature learning for 5 different methods on various tasks任务计算机水果计算机洗发水书籍水果书籍洗发水3.3参数敏感性为了验证学习率r1、训练轮次和批量大小等参数对本文方法的影响,现对其参数敏感性进行实证分析.
17、设置训练轮次为10,批量大小为6 4,当r分别为0.0 0 0 1,0.0 0 0 5,0.0 0 1,0.0 0 3时跨领域分类任务的准确率如图2(a)所示.由图2(a)可见:SAUDA对于学习率的变化较敏感,当ri=0.001时,模型学习的准确率最优,但当r过高或过低时模型的学习效率较低.这是因为当学习率过高时,大幅度的参数更新会导致模型错过在自适应中所需的最佳特征表示,从而在目标领域上产生较差的泛化性能;当学习率过低时,参数的微小更新可能无法有效调整模型能用于领域自适应的特征表示.故本文优化选择学习率为0.0 0 1.设置r为0.0 0 1,批量大小为6 4,当训练轮次分别为5,10,1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 串行 编码器 监督 领域 自适应 特征 学习方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。