基于高斯过程的多任务联合学习.pdf
《基于高斯过程的多任务联合学习.pdf》由会员分享,可在线阅读,更多相关《基于高斯过程的多任务联合学习.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023 年第 8 期84计算机应用信息技术与信息化基于高斯过程的多任务联合学习刘 闯1,2 胡文军1,2 王 闯1,2LIU Chuang HU Wenjun WANG Chuang 摘要 针对传统多任务学习方法只利用关系或者特征进行多任务学习的局限性,提出了一种基于高斯过程并且同时学习任务特征和任务关系协方差矩阵的多任务学习方法。该方法通过高速过程对多个线性函数进行建模,同时构建任务关系协方差矩阵和特征关系协方差矩阵,在训练的同时学习线性方程的参数、任务关系协方差矩阵和特征关系协方差矩阵,该方法称为基于高斯过程的多任务联合学习(multi-task joint learning based
2、 on gaussian process,MJLGP)。实验结果表明,所提方法在精度上比对比实验具有更好的优势。关键词 协方差矩阵;高斯过程;多任务学习doi:10.3969/j.issn.1672-9528.2023.08.0181.湖州师范学院信息工程学院 浙江湖州 3130002.浙江省现代农业资源智慧管理与应用研究重点实验室 浙江湖州 3130000 引言多任务学习(multi task learning,MTL)是指通过同时学习多个任务来提升算法的泛化性能。以往的单任务学习(single-task learning)是指每次只学习一个任务,并且只使用对应任务本身的数据集,训练样本之间
3、是独立的。但是在实际应用的诸多领域中,需要学习的任务往往不止一个,例如阿兹尔海默症的病情跟踪1-2将病情进展的各个时间点都是一个任务;道路场景理解3中的语义分割和图像分类就是两个任务;情感领域4-5中社交媒体不同级别的用户是一个任务。因此Caruana 等人6提出了多任务学习方法。多任务学习针对学习形式的不同大致可分为两类,即多任务特征学习和多任务关系学习。多任务特征学习(multi task feature learning,MTFL)7旨在通过学习多个相关任务之间的共享特征来提高泛化性能。该方法学习多个任务的共享特征表示,其中学习到的共享特征可以是原始特征的子集或变换。因此可以直观地假设不
4、同的任务共享的信息都是来自于原始特征,通过共享特征的形式来实现多任务学习8-9。学习共享特征而不是直接使用原始特征的一个原因是原始特征可能不适用于多个任务共享。如Argyriou 等人10将单任务 L1 范数的正则化方法推广到多任务学习,并基于非凸正则化方法控制学习过程中共享特征的数量,称之为凸优化多任务特征学习,其解决了跨越多个不同任务学习共享特征的问题。Bonilla 等人11提出了基于高斯过程的多任务学习,即一种学习任务特征的共享协方差矩阵,其在学习过程中如果出现数据量较少的情况,可以通过不同的任务进行数据增强,从而可以更准确地估计模型参数、减少过拟合,并基于共享协方差矩阵,对任务间相关
5、性进行描述。多任务关系学习(multi task relational learning,MTRL)12方法通过一个任务关系矩阵来表述所有任务之间的关系。多任务关系学习中,任务之间相互关联,通过任务相似度、任务相关度、任务协方差等来量化任务之间的相关性。在多任务关系学习中,使用任务关系描述所有的数量相关性。多任务学习是在其他任务的帮助下提高任务的性能13,因此在多任务关系学习中的核心问题是如何准确的描述任务间的关系14。在学习中的多个任务中可以将任务中的任务关系分为三类:正相关任务、不相关任务和负相关任务。其中正相关任务对于所学习的任务是非常有用的,因为相似的任务可能具有相似的模型参数。对于不
6、相关任务,在训练过程中识别出离群点任务可以有效防止该任务的加入影响其他任务的执行15。对于负相关任务,由于具有负相关的两个任务的模型参数更有可能不同,知道两个任务是负相关的有助于缩小模型参数的搜索空间。针对多任务关系学习,任务关系通过协方差矩阵进行表示,然后在训练的同时学习任务之间的关系,并将其应用于学习过程中,Zhang 等人提出了一种用于学习任务间关系的正则化公式,将单任务正则化的方法推广到多任务学习中,该方法以非参数的方式将任务之间的关系建模为任务协方差矩阵,并基于正则化框架得到的多任务学习的凸目标函数,从而使得该方法可以在学习模型参数的同时学习任务关系。上述方法在多任务的诸多实际应用领
7、域中取得了较好的效果16,但这些方法要么利用多任务的特征关系要么利用多任务的任务关系,并没有将二者结合学习以提升学习任务的 2023 年第 8 期85计算机应用信息技术与信息化泛化性。针对这个问题,本文提出了一种在任务训练的同时对任务关系和特征关系进行学习的方法,提出基于高斯过程的多任务联合学习(multi-task joint learning based on gaussian process,MJLGP)。1 相关工作给定 m 个学习任务 Ti,i=1,m,第 i 个任务 Ti所对应的数据集和标签分别为12,iiiiin=Xx xx和1,yiiiiTnyy=,其中是第 i 个任务的第 j
8、 个样本,j=1,ni,为ijx所对应的标签。Ti对应的线性函数定义为()iTiijijifb=+xw x,1,bmbb=,其 中 Wi为的 第 i 列、为第 i 个输出模型的偏移量。高斯过程(gaussian process,GP)以概率分布来表示线性函数输出的先验知识,并基于数据间的相关性,构造协方差函数。ijy的概率分布服从高斯分布,因此ijy的似然如下所示:(1)式中:2(),)iijiN fx表示以线性函数()iijf x为均值函数和以2i为方差的高斯分布。对于任务特征或者任务关系的协方差函数则用线性函数()iijf x来建模。多任务高斯过程14的模型如下所示:()()1*,xkkU
9、yUKKDITfxiiifxf=+(2)式中:表示克罗内克积17,fik是 Kf 的第 i 列,Kf是训练样本间的协方差矩阵,*xk是所有训练数据和测试点x*的协方差向量,Kx是所有训练数据之间的协方差矩阵,D是对角矩阵,其中对角线上的值为221,m,I的单位矩阵。通过 EM 算法结合式(1)-(2)可以得到对数似然如下()()()()()()11211loglog221log2212KKtrKFKFtrYF DYFfxmfTxiiTdmLd=(3)式 中:F 为 标 签 所 有 标 签 F=f1,fm 组 成 的 矩 阵,1(),()fiTiiiiinff=xx,Y 为标签 y 组成的矩阵,
10、Y=y1,ym。也就是说Y-F的绝对值是真实数据和模型预测结果之间的损失。最终通过最大化 L,采用迭代更新方式求解参数 Kf以及 i。2 基于高斯过程的多任务联合学习MJLGP 方法利用高斯过程指定各个任务的线性函数,在对线性函数学习的同时学习任务和特征间的协方差矩阵,通过任务间和特征间的协方差矩阵将多个任务联合学习,以此来提高多任务学习的泛化性。2.1 概率框架本文将高斯过程基于线性函数()xiijf进行学习。高斯过程取()xiijf函数的先验为高斯过程,首先给出高斯过程中yij的似然函数由xij,wi,bi和 i得到,如下所示:2,(),)xwxiiijjiiiijiybN f(4)式中:
11、(,)N表示具有均值 和方差 的单变量正态分布。W=(w1,wm)的先验概率由下式给出:21(,)()Ww 0AWmiidiiNq=(5)式中:A 是行协方差矩阵,表示模型特征之间的关系,0d是值全为 0 的向量,2Ai为任务的协方差矩阵。式(5)中的2Ai对 W 的行之间的关系进行描述即任务间的特征关系,同时2Ai惩罚W每一列,q(W)对W的行和列同时进行描述。由于 W 是矩阵变量,因此 q(W)使用矩阵变量正态分布对其建模,如下所示:(6)式中:表示矩阵变量正态分布,行协方差矩阵 A和列协方差矩阵。行协方差矩阵 A是对任务特征间的关系进行建模,列协方差矩阵 是对任务间的关系进行建模。由 W
12、 的后验分布与其的先验和似然函数的乘积成正比,可以得到下式:(7)式 中:1,XXXm=表 示 所 有 任 务 的 数 据 点,同 样 的11111,ymmmnnyyyy=,表示所有任务的标签合集。通过式(4)-(6)可以得到式(7)中的 W 最大后验概率,再对其取负对数,通过最小化 W、b、A 和 得到极大似然估计。(8)式中:|表示矩阵的行列式,tr()表示矩阵的迹,为了方便优化,我们将式(11)中的i和i分别固定为和,对于式(8)的最后两项 ln()在后续的优化问题中会难以优化,所以我们将其分别替换为约束 tr(A)=1 和 tr()=1 以此来使式(8)更易于优化,因此式(8)可以重新
13、表示为 (9)令2122=,22=2,将 1和 2作为正则化参数。A0表示矩阵 A 是半正定矩阵。在式(9)中的第一项是训练的经验损失,第二项描述所有任务基于 A 和 W 的关系。第三项描2023 年第 8 期86计算机应用信息技术与信息化述所有任务基于 A、和 W 的关系。为了防止某个任务的经验损失过大,从而导致任务不平衡问题,我们将问题(9)转化为(10)2.2 模型求解对于关于同时求解式(10)中的 W、b、和 A 的最优解是比较困难的,因此我们使用一种交替的方法来解决这一问题。第一步:固定 和 A,求解 W 和 b。和 A 给定时,式(10)优化问题如下所示:(11)将问题(11)表示
14、为约束优化问题,如下所示:(12)问题(12)的拉格朗日如下所示:(13)由于式子(13)中存在 W 和wTi,为了后续求导方便将wTi改写为e WTTi再分别计算 W、bi和ij的导数,并令其为 0。其中 ei是单位矩阵 Im的第 i 列,得到以下式子(14)10=inijjiLb (15)20=ijijiLn (16)合并式(14)-(16),再根据线性方程w xTiijiyb=+得到下述线性系统:(17)其中 (18)式子(18)的 K 是对角线元素全都等于 ni的对角矩阵,()120111221111,EEeeemmNNNTNNN+=L,其中,eqp表示在 p,q区间内值全为 1,其余
15、值全为零的列向量,1=iijjNn。第二步:固定 W、b 和 A,求解。目标式子如下所示:(19)令 U=WTA-1W,基于柯西施瓦茨不等式19,式(19)可以改写为:(20)对于任意常数 a和 tr()=1,当且仅当-1/2U1/2=a1/2时 tr(-1U)取到最小值 tr(U1/2),因此可以得到式(22)的迭代更新结果,如下所示:(21)第三步:固定 W、b 和,求解 A。目标式子如下所示:(22)令 U=A-1W-1WT,式(22)的第一项可以优化为下列式子 (23)再令 Z=WWT,式(22)的第二项可以优化为下列式子 (24)求解过程和式(19)相似,因此式(22)的最优解为 (
16、25)2023 年第 8 期87计算机应用信息技术与信息化我们将 和 A 的初始值分别设置为 Im/m 和 Id/m,假设开始时所有任务和任务间的特征都不相关。MJLGP 算法总结如下:MJLGP 算法伪代码输入:数据集X和标签Y,惩罚参数1和2,迭代次数t;训练:step1 初始化和A;step2 拉格朗日求解式(13)得到W和b;step3 通过式(21)更新;step4 通过式(25)更新A;step5 交替 step2step4 过程t次;测试:step1 给定测试数据集X*;step2 得到预测标签Y*。3 实验研究3.1 实验设置实验环境:Intel(R)Core(TM)i5-94
17、00 CPU 2.90GHz,8 GB RAM,64 位 Windows 10,MatlabR2020a。参数设置:惩罚参数 1和 2从 0.1,0.2,1 中寻优;最大迭代次数 t 设置为 30。为了保证实验的有效性和可对比性,有关对比方法的参数选择与上述范围一致。评价指标:均方误差(mean-square error,MSE)是反映真实值与预测值之间的差异程度。多任务均方误差如下所示:()211()iniiijjjiMfyn=x (26)式中:Mi表示第 i 个任务的均方误差。3.2 实验结果及分析本文选取 MTRL、鲁棒多任务特征学习(robust multi task feature
18、learning,RMTFL)20、棒多任务学习(robust multi-task learning,RMTL)21以及多任务学习的脏模型(dirty model for multi-task learning,DMTL)22作为对比方法。3.2.1 Landmine 数据集Landmine 数据集23是从不同地雷领域收集的 29 个二进制分类任务,每个输入都是 9 维特征的数据。每个任务的样本数量从 445 到 690 不等。我们采用十折交叉验证 来对数据进行实验。此外,由于任务数量较多,所以我们在本算法和其他实验算法结果中,取同样的随机七个任务进行展示,其中每一列代表一项任务。每种方法的
19、第一行记录了 10 次训练后测试的 MSE 的平均值,测试结果如表 1所示。表 1 Landmine 数据集均方误差RMTLRMTFLDMTLMTRLMJLGP任务 10.070.070.090.060.04任务 20.060.060.070.070.04任务 30.070.070.090.060.05任务 40.080.080.130.070.05任务 50.040.040.040.060.02任务 60.070.080.090.090.05任务 70.090.090.10.030.08从表 1 可以看出,在七个任务中,MJLGP 算法中六个任务的均方误差优于对比算法。此外,我们在图 1 中
20、分别绘制了 Landmine 数据集中七个任务关系和七个特征关系的混淆矩阵26-27表示任务和特征之间的关系。图1 Landmine数据集的任务关系(上)和特征关系(下),每一行从左至右都代表7个任务(上)或者7个特征(下),列从下至上也同样代表着 7 个任务(上)或者 7 个特征(下)。2023 年第 8 期88计算机应用信息技术与信息化我们就用混淆矩阵图 1 中每一个方格代表任务之间的关系,例如在第一行第二列或者第二行第一列的格子,都表示为任务 1 和任务 2 的关系。图 1 表示特征间和任务间的关系,在图 1 中,颜色越深代表着任务或者特征的关系越接近,也就是说该任务或者特征共同学习对训
21、练是有帮助的。3.2.2 School 数据集school 数据集由 1985 年、1986 年和 1987 年伦敦 139 所中学的 15 362 名学生的考试成绩组成,因此,共有 139 项任务,对应于每所学校学生的表现。输入包括考试 4 个学校特定属性和 3 个学生特定属性。与学校有关的特征包括有资格获得学校免费食品学生的百分比、VR 第一级(言语推理最高等级)的学生百分比、学校类别和学校名称。四个取决于学生的特征是性别、VR 等级和种族。对于每个属性值,我们用一个二进制变量替换了所有分类属性(除了百分比属性外)。我们共获得了 28 个属性。图 2 表示了该数据集的任务关系和特征关系。表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 过程 任务 联合 学习
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。