基于Transformer的多子空间多模态情感分析.pdf
《基于Transformer的多子空间多模态情感分析.pdf》由会员分享,可在线阅读,更多相关《基于Transformer的多子空间多模态情感分析.pdf(12页珍藏版)》请在咨信网上搜索。
1、西北大学学报(自然科学版)2024年4月,第54卷第2 期,Apr.,2024,Vol.54,No.2Journal of Northwest University(Natural Science Edition)JNWU人工智能情感计算基于Transformer的多子空间多模态情感分析田昌宁,贺昱政,王笛,万波,郭棚彤2(1.西安电子科技大学计算机科学与技术学院,陕西西安7 10 0 7 1;2.中国电子科技集团公司第五十四研究所,河北石家庄0 50 0 8 1)摘要多模态情感分析是指通过文本、视觉和声学信息识别视频中人物表达出的情感。现有方法大多通过设计复杂的融合方案学习多模态一致性信息,
2、而忽略了模态间和模态内的差异化信息,导致缺少对多模态融合表示的信息补充。为此提出了一种基于Trans-former 的多子空间多模态情感分析(multi-subspace Transformer fusion network for multimo-dal sentiment analysis,MSTFN)方法。该方法将不同模态映射到私有和共享子空间,获得不同模态的私有表示和共享表示,学习每种模态的差异化信息和统一信息。首先,将每种模态的初始特征表示分别映射到各自的私有和共享子空间,学习每种模态中包含独特信息的私有表示与包含统一信息的共享表示。其次,在加强文本模态和音频模态作用的前提下,设计二
3、元协同注意力跨模态Transformer模块,得到基于文本和音频的三模态表示。然后,使用模态私有表示和共享表示生成每种模态的最终表示,并两两融合得到双模态表示,以进一步补充多模态融合表示的信息。最后,将单模态表示、双模态表示和三模态表示拼接作为最终的多模态特征进行情感预测。在2 个基准多模态情感分析数据集上的实验结果表明,该方法与最好的基准方法相比,在二分类准确率指标上分别提升了0.025 6/0.014 3 和 0.0 0 0 7/0.0 0 2 3。关键词多模态情感分析;Transformer结构;多子空间;多头注意力机制中图分类号:TP391.1Multi-subspace multim
4、odal sentiment analysismethod based on TransformerTIAN Changning,HE Yuzheng,WANG Di,WAN Bo,GUO Xutong(1.School of Computer Science and Technology,Xidian University,Xi an 710071,China;2.China Electronics Technology Group Corporation 54th Research Institute,Shijiazhuang 050081,China)Abstract Multimoda
5、l sentiment analysis refers to recognizing the emotions expressed by characters in a videothrough textual,visual and acoustic information.Most of the existing methods learn multimodal coherence in-formation by designing complex fusion schemes,while ignoring inter-and intra-modal differentiation info
6、rma-tion,resulting in a lack of information complementary to multimodal fusion representations.To this end,we收稿日期:2 0 2 3-12-0 9基金项目:国家科技创新2 0 30-“新一代人工智能 重大项目(2 0 2 2 ZD0117103);中央高校基本科研业务费项目(Q T Z X 2 30 8 4);国家自然科学基金面上项目(6 2 0 7 2 354)。第一作者:田昌宁,男,从事多模态情感计算研究,。通信作者:王笛,女,副教授,博士生导师,从事情感计算、多模态机器学习研究,
7、。D0I:10.16152/ki.xdxbzr.2024-02-002第2 期propose a multi-subspace Transformer fusion network for multimodal sentiment analysis(MSTFN)method.The method maps different modalities to private and shared subspaces to obtain private and shared representa-tions of different modalities,learning differentiated
8、 and unified information for each modality.Specifically,theinitial feature representations of each modality are first mapped to their respective private and shared subspacesto learn the private representation containing unique information and the shared representation containing uni-fied information
9、 in each modality.Second,under the premise of strengthening the roles of textual and audiomodalities,a binary collaborative attention cross-modal Transformer module is designed to obtain textual andaudio-based tri-modal representations.Then,the final representation of each modality is generated usin
10、g mo-dal private and shared representations and fused two by two to obtain a bimodal representation to further com-plement the information of the multimodal fusion representation.Finally,the unimodal representation,bimodalrepresentation,and trimodal representation are stitched together as the final
11、multimodal feature for sentimentprediction.Experimental results on two benchmark multimodal sentiment analysis datasets show that the pres-ent method improves on the binary classification accuracy metrics by 0.025 6/0.014 3 and 0.000 7/0.002 3,respectively,compared to the best benchmark method.Keywo
12、rds multimodal sentiment analysis;Transformer structure;multiple subspaces;multi-head attentionmechanism在互联网发展初期,用户大多只用文本这一单一模态来表达观点态度,但随着互联网不断向着多模态信息方向发展,仅从文本中获得的信息不足以挖掘人们的观点态度 。现有的多模态情感分析方法致力于探索一种复杂且有效的多模态融合方法以学习融合表示,从而获得多模态一致性信息,但由于说话者的特殊风格(如反讽),单一模态中可能包含与多模态一致性信息不同的情感信息。这些方法大多将这些单一模态信息当作噪声处理,因此,
13、丢失了模态内和模态间的差异性信息,导致模型学习到的情感信息并不全面,从而限制了模型的性能。尽管不同模态之间存在异质性,但均具有相同的动机和情感倾向,与视频片段整体的情感走向一致。因此,将不同模态映射到同一个特征子空间中,可以学习到包含统一信息的多模态表示。视觉之音频(a)三元对称融合结构图1三元对称融合方案与二元融合方案示意图Fig.1 Schematic diagram of ternary symmetric fusion scheme and binary fusion scheme本文提出了一种能够同时学习模态统一性信息和模态间与模态内差异化信息,并减少穴余信田昌宁,等:基于Trans
14、former的多子空间多模态情感分析三元对称融合结构二元融合结构文本文本一视觉+音频音频视觉+文本(b)二元融合结构息的多模态情感分析方法,即基于Transformer的多子空间多模态情感分析方法。该方法设计了多 157:同时,将不同模态映射到不同的特征子空间中,能够学习特定于某个模态的信息,从而更全面地学习每种模态所表达的情感信息。现有的多模态情感分析方法在设计跨模态Transformer进行模态融合时使用三元对称的结构,如图1(a)所示,这种方式将每种模态分别与另外2 种模态进行融合,导致多模态融合表示存在穴余信息,从而影响了模型对视频中情感的判断。因此,如何设计一种能够充分融合多模态表示
15、并去除穴余信息的二元跨模态Transformer融合方案成为目前多模态情感分析中的一个热点研究问题。图1(b)为二元融合结构示意图,这种方式只选取其中2 个模态与另外2 个模态进行融合,因此,能够在保证模态融合的前提下,减少穴余信息的生成,提升模型的性能。158个子空间,将不同模态的表示映射后得到包含统一信息和特定于某种模态的差异化信息的特征表示。设计了基于文本、音频、视频模态的协同注意力二元跨模态Transformer模块,使得一种模态能够同时与另外2 种模态相互映射,简化复杂的融合结构、减少九余信息的同时更充分地建模模态间的交互作用。此外,将每种模态的2 种表示融合后生成最终包含多方面情感
16、信息的单模态表示,并两两结合生成双模态表示,使模型更进一步学习到与情感相关的信息。最后,通过在2 个基准数据集上设计的一系列实验验证了该方法的优越性和有效性。1相关工作1.1单模态情感分析情感分析作为当前的热门研究领域,其发展初期是以文本为主的单模态情感分析,许多研究者在文本情感分析领域做了深入研究,为情感分析的进一步发展奠定了基础。早期的文本情感分析工作首先使用词袋模型Bagofwords2或带有频率的N-gram3从文本中提取特征,将文本转换成向量。然后使用支持向量机 4、朴素贝叶斯 5 等传统的机器学习方法对情感极性进行分类。随着深度学习技术的广泛应用,卷积神经网络 6 和循环神经网络
17、7 被应用到文本情感分析中,由于这些网络能够捕捉上下文之间的关系,因此取得了良好的效果。近年来,随着基于Transformer结构的预训练模型的兴起,文本情感分析的性能也取得了突破性的发展。除了文本数据中包含丰富的情感信息之外,视频和音频数据中也包含了大量的情感信息。视频中人物的面部表情和肢体动作均包含了人物的情感信息,早期的方法采用局部二值模式 8 、局部相位量化特征 9 以及Gabor特征 10 等手工特征对图像的情感进行分类。近年来,大多数方法均采用深度神经网络对图像中的情感极性进行分析。音频中的语速、语调、声音强度以及Mel 频率倒谱系数 I 等声学特征均与说话者的情感息息相关,对这些
18、音频特征进行分析也可以得到说话者的情感极性。尽管各领域的单模态情感分析方法在不断发展进步,但由于单一模态所包含的与情感相关的信息是有限的,在缺乏与其他模态信息进行交互的情况下难以全面理解人的真实情感,而多模态西北大学学报(自然科学版)情感分析可以很好地解决该问题。1.2多模态情感分析随着新媒体产业的高速发展以及智能手机的普及,包含多种模态数据的短视频数量激增,越来越多的人通过短视频来表达对某一产品或事物的看法。多模态情感分析任务利用短视频中文本、图像以及音频多种模态的数据分析人们的情感极性。针对这一任务,研究者提出了许多方法来提高情感分析的准确率。Poria 等人使用各个模态的特征提取器提取特
19、征,然后将3个模态的特征输入到浅层模型中进行拼接,最后将拼接的特征输入到分类模块中得到情感极性 12 。由于不同模态对情感极性判断的贡献度不同,Kampman等人对不同的模态特征进行加权融合 13。罗渊贻等人提出一种自适应权重融合策略获取不同模态对情感分析的贡献度 14。Zadeh 等人提出的TFN模型通过笛卡尔积和张量融合的方式对模态内和模态间进行建模 15。随着注意力机制在各个领域表现出的显著成果,许多研究者利用注意力机制将不同模态的信息进行融合。张涛等人和陈宏松等人均使用交叉注意力对不同模态的信息进行融合11-17 。周柏男等人使用模态内自注意力和模态间的交叉注意力使各模态间信息共享并减
20、少噪声信息 18 。卢婵等人提出文本指导的多模态层级自适应融合方法,利用注意力机制将文本模态与其他模态进行融合 19。不同的是,Han 等人提出了一种多模态融合的新思路,摒弃了设计复杂的融合方式的想法,设计一种层次化框架,最大化单模态输人对和多模态融合结果与单模态输人之间的互信息,通过多模态融合维护情感分析任务相关信息 2 0 。2多模态情感分析方法多模态情感分析的目标是利用视频中的多模态信号检测说话者所传达的情感。视频被切割成话语级的视频片段并作为模型的输人,对于每个话语片段,输入包括来自文本(t)、视觉(v)和音频(a)模态的特征序列。使用语言预训练模型BERT提取文本高级特征序列IRxd
21、,采用视觉预训练模型ViT提取视觉模态的高级特征序列1、e R 7 x d v,采用音频预训练模型wav2vec提取高级声学特征I。R.xda。其中,T,代表各自特征序列的长度,dm代表各自的特征维度,m Eit,V,a。第54卷第2 期图2 为本文提出的基于Transformer21的多子空间多模态情感分析方法的整体网络框架图,该网络主要由4个模块组成,分别是模态私有与共享表示学习模块(privateandsharedrepresenta-tions learning module,PSRLM)、协同注意力跨模态Transformer 模块(co-attentioncross-modalTr
22、ansformer,CACT)、双模态表示生成模块(bi-mo-dal representation generation module,BRGM)以及情感预测模块。模态私有与共享表示学习模块通过将不同模态的特征序列映射到不同子空间来学习模态的私有表示和共享表示。协同注意力跨模Wav2vec-LSTMAnd add somethinglikean extra spark inthereFig.2 Transformer-based multi-subspace multimodal sentiment analysis network framework diagram2.1模态私有与共享表示
23、学习模块在分别使用语言预训练模型BERT22、视觉预训练模型ViT23以及音频预训练模型wav2vec从原始数据中提取初始的特征序列I之后,为了使视觉和音频模态的特征序列获得时序信息,使用单层单向长短期记忆网络为这2 种模态的特征田昌宁,等:基于Transformer 的多子空间多模态情感分析双模态表示生成模块FP音频编码器FP:文本编码器ViTLSTMBERT图2 基于Transformer的多子空间多模态情感分析网络框架图 159.态Transformer模块同时建模1种模态和其余2 种模态之间的交互作用,获得基于文本和基于音频模态的三模态表示。在双模态表示生成模块中,首先使用模态的私有表
24、示和共享表示生成该模态的最终表示,每2 种模态相融合后再生成双模态表示。在情感预测模块中,将单模态表示、双模态表示与协同注意力跨模态Transformer模块中获得的多模态表示进行拼接后,经过Transformer编码器编码得到最终的融合表示,并通过全连接层进行情感预测。FP视觉编码器FsharedFshared共享编码器a.FsharedT享表示学习模块。首先,同一个视频片段中的每种模态的数据都具有相同的情感倾向,这也是多模态情感分析能够实现的原因。因此,为了获取每种模态所包含的统一性信息,首先定义一个共享编码器Enechred,将每种模态的初始特征序列表示经过Ene编码后映射到同一个子空间
25、中,获得具Sllareuba全连接层b.V,tbaLaiffhh协同注意力跨模态TransformerTRM编码器h全连接层预测值(4)序列注人上下文相关信息和长期依赖,并使用全连接层将3种模态的特征表示映射到同一维度,以便输入到后续的网络模型中进行操作,该过程如式(1)(3)所示。F,=FC(sLSTM(I,l)F,=FC(sLSTM(I,olst)F,=FC(I)式中:F=R T m,代表将各模态的初始特征表示经过长短期记忆网络编码并且统一特征维度之后的投影表示;d代表统一后的特征维度。为了学习同一模态内不同方面的情感信息和不同模态间的差异化信息,设计了模态私有与共有统一情感倾向和共性情感
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Transformer 空间 多模态 情感 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。