分销赏收藏举报申诉 / 12

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于Transformer的多子空间多模态情感分析.pdf

基于Transformer的多子空间多模态情感分析.pdf

上传人：自信****多点

文档编号：2948919

上传时间：2024-06-11

格式：PDF

页数：12

大小：6.42MB

《基于Transformer的多子空间多模态情感分析.pdf》由会员分享，可在线阅读，更多相关《基于Transformer的多子空间多模态情感分析.pdf（12页珍藏版）》请在咨信网上搜索。

1、西北大学学报（自然科学版）2024年4月，第54卷第2 期，Apr.,2024,Vol.54,No.2Journal of Northwest University(Natural Science Edition)JNWU人工智能情感计算基于Transformer的多子空间多模态情感分析田昌宁,贺昱政,王笛，万波，郭棚彤2（1.西安电子科技大学计算机科学与技术学院,陕西西安7 10 0 7 1；2.中国电子科技集团公司第五十四研究所，河北石家庄0 50 0 8 1）摘要多模态情感分析是指通过文本、视觉和声学信息识别视频中人物表达出的情感。现有方法大多通过设计复杂的融合方案学习多模态一致性信息，

2、而忽略了模态间和模态内的差异化信息，导致缺少对多模态融合表示的信息补充。为此提出了一种基于Trans-former 的多子空间多模态情感分析(multi-subspace Transformer fusion network for multimo-dal sentiment analysis,MSTFN)方法。该方法将不同模态映射到私有和共享子空间，获得不同模态的私有表示和共享表示，学习每种模态的差异化信息和统一信息。首先，将每种模态的初始特征表示分别映射到各自的私有和共享子空间，学习每种模态中包含独特信息的私有表示与包含统一信息的共享表示。其次，在加强文本模态和音频模态作用的前提下，设计二

3、元协同注意力跨模态Transformer模块，得到基于文本和音频的三模态表示。然后，使用模态私有表示和共享表示生成每种模态的最终表示，并两两融合得到双模态表示，以进一步补充多模态融合表示的信息。最后，将单模态表示、双模态表示和三模态表示拼接作为最终的多模态特征进行情感预测。在2 个基准多模态情感分析数据集上的实验结果表明，该方法与最好的基准方法相比，在二分类准确率指标上分别提升了0.025 6/0.014 3 和 0.0 0 0 7/0.0 0 2 3。关键词多模态情感分析；Transformer结构；多子空间；多头注意力机制中图分类号：TP391.1Multi-subspace multim

4、odal sentiment analysismethod based on TransformerTIAN Changning,HE Yuzheng,WANG Di,WAN Bo,GUO Xutong(1.School of Computer Science and Technology,Xidian University,Xi an 710071,China;2.China Electronics Technology Group Corporation 54th Research Institute,Shijiazhuang 050081,China)Abstract Multimoda

5、l sentiment analysis refers to recognizing the emotions expressed by characters in a videothrough textual,visual and acoustic information.Most of the existing methods learn multimodal coherence in-formation by designing complex fusion schemes,while ignoring inter-and intra-modal differentiation info

6、rma-tion,resulting in a lack of information complementary to multimodal fusion representations.To this end,we收稿日期：2 0 2 3-12-0 9基金项目：国家科技创新2 0 30-“新一代人工智能重大项目（2 0 2 2 ZD0117103）；中央高校基本科研业务费项目（Q T Z X 2 30 8 4）；国家自然科学基金面上项目（6 2 0 7 2 354）。第一作者：田昌宁，男，从事多模态情感计算研究，。通信作者：王笛，女，副教授，博士生导师，从事情感计算、多模态机器学习研究，

7、。D0I:10.16152/ki.xdxbzr.2024-02-002第2 期propose a multi-subspace Transformer fusion network for multimodal sentiment analysis(MSTFN)method.The method maps different modalities to private and shared subspaces to obtain private and shared representa-tions of different modalities,learning differentiated

8、 and unified information for each modality.Specifically,theinitial feature representations of each modality are first mapped to their respective private and shared subspacesto learn the private representation containing unique information and the shared representation containing uni-fied information

9、 in each modality.Second,under the premise of strengthening the roles of textual and audiomodalities,a binary collaborative attention cross-modal Transformer module is designed to obtain textual andaudio-based tri-modal representations.Then,the final representation of each modality is generated usin

10、g mo-dal private and shared representations and fused two by two to obtain a bimodal representation to further com-plement the information of the multimodal fusion representation.Finally,the unimodal representation,bimodalrepresentation,and trimodal representation are stitched together as the final

11、multimodal feature for sentimentprediction.Experimental results on two benchmark multimodal sentiment analysis datasets show that the pres-ent method improves on the binary classification accuracy metrics by 0.025 6/0.014 3 and 0.000 7/0.002 3,respectively,compared to the best benchmark method.Keywo

12、rds multimodal sentiment analysis;Transformer structure;multiple subspaces;multi-head attentionmechanism在互联网发展初期，用户大多只用文本这一单一模态来表达观点态度，但随着互联网不断向着多模态信息方向发展，仅从文本中获得的信息不足以挖掘人们的观点态度。现有的多模态情感分析方法致力于探索一种复杂且有效的多模态融合方法以学习融合表示，从而获得多模态一致性信息，但由于说话者的特殊风格（如反讽），单一模态中可能包含与多模态一致性信息不同的情感信息。这些方法大多将这些单一模态信息当作噪声处理,因此，

13、丢失了模态内和模态间的差异性信息，导致模型学习到的情感信息并不全面，从而限制了模型的性能。尽管不同模态之间存在异质性，但均具有相同的动机和情感倾向，与视频片段整体的情感走向一致。因此,将不同模态映射到同一个特征子空间中，可以学习到包含统一信息的多模态表示。视觉之音频(a)三元对称融合结构图1三元对称融合方案与二元融合方案示意图Fig.1 Schematic diagram of ternary symmetric fusion scheme and binary fusion scheme本文提出了一种能够同时学习模态统一性信息和模态间与模态内差异化信息，并减少穴余信田昌宁，等：基于Trans

14、former的多子空间多模态情感分析三元对称融合结构二元融合结构文本文本一视觉+音频音频视觉+文本(b)二元融合结构息的多模态情感分析方法，即基于Transformer的多子空间多模态情感分析方法。该方法设计了多 157:同时,将不同模态映射到不同的特征子空间中,能够学习特定于某个模态的信息，从而更全面地学习每种模态所表达的情感信息。现有的多模态情感分析方法在设计跨模态Transformer进行模态融合时使用三元对称的结构,如图1（a）所示,这种方式将每种模态分别与另外2 种模态进行融合，导致多模态融合表示存在穴余信息，从而影响了模型对视频中情感的判断。因此,如何设计一种能够充分融合多模态表示

15、并去除穴余信息的二元跨模态Transformer融合方案成为目前多模态情感分析中的一个热点研究问题。图1(b)为二元融合结构示意图，这种方式只选取其中2 个模态与另外2 个模态进行融合，因此,能够在保证模态融合的前提下，减少穴余信息的生成，提升模型的性能。158个子空间，将不同模态的表示映射后得到包含统一信息和特定于某种模态的差异化信息的特征表示。设计了基于文本、音频、视频模态的协同注意力二元跨模态Transformer模块，使得一种模态能够同时与另外2 种模态相互映射,简化复杂的融合结构、减少九余信息的同时更充分地建模模态间的交互作用。此外,将每种模态的2 种表示融合后生成最终包含多方面情感

16、信息的单模态表示,并两两结合生成双模态表示，使模型更进一步学习到与情感相关的信息。最后，通过在2 个基准数据集上设计的一系列实验验证了该方法的优越性和有效性。1相关工作1.1单模态情感分析情感分析作为当前的热门研究领域,其发展初期是以文本为主的单模态情感分析，许多研究者在文本情感分析领域做了深入研究，为情感分析的进一步发展奠定了基础。早期的文本情感分析工作首先使用词袋模型Bagofwords2或带有频率的N-gram3从文本中提取特征,将文本转换成向量。然后使用支持向量机 4、朴素贝叶斯 5 等传统的机器学习方法对情感极性进行分类。随着深度学习技术的广泛应用,卷积神经网络 6 和循环神经网络

17、7 被应用到文本情感分析中，由于这些网络能够捕捉上下文之间的关系，因此取得了良好的效果。近年来,随着基于Transformer结构的预训练模型的兴起，文本情感分析的性能也取得了突破性的发展。除了文本数据中包含丰富的情感信息之外，视频和音频数据中也包含了大量的情感信息。视频中人物的面部表情和肢体动作均包含了人物的情感信息，早期的方法采用局部二值模式 8 、局部相位量化特征 9 以及Gabor特征 10 等手工特征对图像的情感进行分类。近年来，大多数方法均采用深度神经网络对图像中的情感极性进行分析。音频中的语速、语调、声音强度以及Mel 频率倒谱系数 I 等声学特征均与说话者的情感息息相关，对这些

18、音频特征进行分析也可以得到说话者的情感极性。尽管各领域的单模态情感分析方法在不断发展进步,但由于单一模态所包含的与情感相关的信息是有限的，在缺乏与其他模态信息进行交互的情况下难以全面理解人的真实情感，而多模态西北大学学报（自然科学版）情感分析可以很好地解决该问题。1.2多模态情感分析随着新媒体产业的高速发展以及智能手机的普及，包含多种模态数据的短视频数量激增，越来越多的人通过短视频来表达对某一产品或事物的看法。多模态情感分析任务利用短视频中文本、图像以及音频多种模态的数据分析人们的情感极性。针对这一任务，研究者提出了许多方法来提高情感分析的准确率。Poria 等人使用各个模态的特征提取器提取特

19、征，然后将3个模态的特征输入到浅层模型中进行拼接,最后将拼接的特征输入到分类模块中得到情感极性 12 。由于不同模态对情感极性判断的贡献度不同,Kampman等人对不同的模态特征进行加权融合 13。罗渊贻等人提出一种自适应权重融合策略获取不同模态对情感分析的贡献度 14。Zadeh 等人提出的TFN模型通过笛卡尔积和张量融合的方式对模态内和模态间进行建模 15。随着注意力机制在各个领域表现出的显著成果，许多研究者利用注意力机制将不同模态的信息进行融合。张涛等人和陈宏松等人均使用交叉注意力对不同模态的信息进行融合11-17 。周柏男等人使用模态内自注意力和模态间的交叉注意力使各模态间信息共享并减

20、少噪声信息 18 。卢婵等人提出文本指导的多模态层级自适应融合方法，利用注意力机制将文本模态与其他模态进行融合 19。不同的是,Han 等人提出了一种多模态融合的新思路,摒弃了设计复杂的融合方式的想法，设计一种层次化框架，最大化单模态输人对和多模态融合结果与单模态输人之间的互信息，通过多模态融合维护情感分析任务相关信息 2 0 。2多模态情感分析方法多模态情感分析的目标是利用视频中的多模态信号检测说话者所传达的情感。视频被切割成话语级的视频片段并作为模型的输人，对于每个话语片段，输入包括来自文本（t）、视觉（v）和音频（a）模态的特征序列。使用语言预训练模型BERT提取文本高级特征序列IRxd

21、,采用视觉预训练模型ViT提取视觉模态的高级特征序列1、e R 7 x d v，采用音频预训练模型wav2vec提取高级声学特征I。R.xda。其中,T，代表各自特征序列的长度,dm代表各自的特征维度,m Eit,V,a。第54卷第2 期图2 为本文提出的基于Transformer21的多子空间多模态情感分析方法的整体网络框架图，该网络主要由4个模块组成，分别是模态私有与共享表示学习模块（privateandsharedrepresenta-tions learning module,PSRLM）、协同注意力跨模态Transformer 模块（co-attentioncross-modalTr

22、ansformer,CACT）、双模态表示生成模块（bi-mo-dal representation generation module,BRGM)以及情感预测模块。模态私有与共享表示学习模块通过将不同模态的特征序列映射到不同子空间来学习模态的私有表示和共享表示。协同注意力跨模Wav2vec-LSTMAnd add somethinglikean extra spark inthereFig.2 Transformer-based multi-subspace multimodal sentiment analysis network framework diagram2.1模态私有与共享表示

23、学习模块在分别使用语言预训练模型BERT22、视觉预训练模型ViT23以及音频预训练模型wav2vec从原始数据中提取初始的特征序列I之后，为了使视觉和音频模态的特征序列获得时序信息，使用单层单向长短期记忆网络为这2 种模态的特征田昌宁，等：基于Transformer 的多子空间多模态情感分析双模态表示生成模块FP音频编码器FP:文本编码器ViTLSTMBERT图2 基于Transformer的多子空间多模态情感分析网络框架图 159.态Transformer模块同时建模1种模态和其余2 种模态之间的交互作用，获得基于文本和基于音频模态的三模态表示。在双模态表示生成模块中，首先使用模态的私有表

24、示和共享表示生成该模态的最终表示，每2 种模态相融合后再生成双模态表示。在情感预测模块中,将单模态表示、双模态表示与协同注意力跨模态Transformer模块中获得的多模态表示进行拼接后,经过Transformer编码器编码得到最终的融合表示，并通过全连接层进行情感预测。FP视觉编码器FsharedFshared共享编码器a.FsharedT享表示学习模块。首先，同一个视频片段中的每种模态的数据都具有相同的情感倾向，这也是多模态情感分析能够实现的原因。因此，为了获取每种模态所包含的统一性信息，首先定义一个共享编码器Enechred,将每种模态的初始特征序列表示经过Ene编码后映射到同一个子空间

25、中，获得具Sllareuba全连接层b.V,tbaLaiffhh协同注意力跨模态TransformerTRM编码器h全连接层预测值(4)序列注人上下文相关信息和长期依赖，并使用全连接层将3种模态的特征表示映射到同一维度，以便输入到后续的网络模型中进行操作，该过程如式(1)（3)所示。F,=FC(sLSTM(I,l)F,=FC(sLSTM(I,olst)F,=FC(I)式中:F=R T m,代表将各模态的初始特征表示经过长短期记忆网络编码并且统一特征维度之后的投影表示；d代表统一后的特征维度。为了学习同一模态内不同方面的情感信息和不同模态间的差异化信息，设计了模态私有与共有统一情感倾向和共性情感

26、信息的共享表示。同时,特征序列在经过共享编码器编码后有助于缩小不同模态之间的异质鸿沟，如式（4）所示。m(1)式中F x 表每种模态的共享表示；(2)dmap是共享表示的特征维度。采用简单的全连接(3)层对每种模态的初始特征序列进行映射,3种模态的共享参数为gshaed同一模态的数据在包含统一情感倾向信息的同时,也具有特定于模态和包含说话者敏感风格的特殊信息，比如文本模态时常具有的讽刺倾向，一部分人群习惯于采用夸张的面部表情表达与所(6)160述文字相反的情感。因此,学习特定模态与情感相关的信息，能够实现对情感分析进一步的信息补充,从而提升模型的性能。在将每种模态的初始特征序列通过Enchar

27、ed映射到共享子空间以学习模态统一表示的同时，分别为3种模态定义各自的私有编码器Encm,经过Enc编码后将每种模态的初始特征序列映射到各自的私有子空间中，以捕获特定于不同模态的差异化信息，并且学习模态内和模态间的不同特征，该过程如式（5）所示。F=Enc(Fm,0m)(5)式中：F=Rmxdap代表各模态的私有表示。同样地，采用全连接层将每种模态的初始特征序列映射到各自的私有子空间中，每种模态各自的编码器具有不同的网络参数%。2.2协同注意力跨模态Transformer模块在将每种模态的初始特征序列映射到共享子空间并获得共享表示之后，每种模态的共享表示都获得了一致的情感倾向和统一性信息,为了

28、更进一步挖掘每种模态与情感相关的信息,同时建模不同模态之间的交互作用，并减小不同模态间的异质性,从而学习多模态融合表示,本文设计了一种协同注意力跨模态Transformer，其结构如图3所示。基于文本的跨模态注意力Kcrussh求和&归一化求和&归一化求和&归一化文本自注意力音频自注意力视觉自注意力文本输入音频输入图3基于文本的协同注意力跨模态Transformer层示意图Fig.3 Text-based schematic diagram of the cross-modalTransformer layer of collaborative attention为每种模态的共享表示添加位置编

29、码以使模型能够捕获序列的顺序信息，如式（6)所示，西北大学学报（自然科学版）式中:Pm=Rmxamp为每种模态的位置编码;Xm=Rmx为每种模态获得位置编码后的表示，用于输入到后续的网络模型中进行多模态融合。多头注意力机制output(式中简记Ooutput作为跨模态注意力的核心组成部分，定义多头注意力机制Ouput=MHA(Q,K,V),如式(7）（9)所示，Oupu=Concat(head,head,head.,)wo(7)head,=Attn(Q;,K,V,)(8)Attn(Q,K,V.)=softmax(Q,K,)V;(9)式中:Q.=h.eR*4,K,=hwe eRm,V=hgWle

30、=Rmxda分别代表多头注意力的输人经过不同权重映射后学习到的投影表示,E(a,t,vl。其中,w e Rdxdf,wfe=Raxdr;wye Raxdg;Wo=Rngx;h，代表多头注意力的“头”数;令d=dmp在协同注意力跨模态Transformer模块中，以基于文本的协同注意力跨模态Transformer(ta+v）为例，共包含L层协同注意力跨模态Transformer层（简称为CACT层），对于第i层CACT层(i=1,2，,L),针对每种模态的输人首先采用自注意力机制探索模态内的交互作用，如求和&归一化式(10）（12)所示。前馈神经网络h%=Xmhiser=Attn,(LN(Q.)

31、,LN(K,),LN(V)+求和&归一化LN(hi-)hiw=Attna/(LN(Qw),LN(K),fVcrossLN(V)+LN(hitl)式中:higar Rmxl,hi Rx;,查询Qm=hit we,键Km=hw,值Vm=hiw分别是特定于模hh视觉输入第54卷Xm=1Fslhared+Pmmm态的注意力矩阵;LN（）代表进行层归一化处理；h、作为下一层协同注意力跨模态Transformer层中音频模态和视觉模态的输人。在每种模态进行模态内的交互作用之后，建模文本模态与音频、视觉模态的交互作用以及音频模态与文本、视觉模态的交互作用。以基于文本模态的协同注意力跨模态Transforme

32、r为例,将文本模态的表示投影后作为查询，音频模态和视觉模态的表示拼接后作为中间值，将中间值经过投影后获得键和值。此时,能够获得文本模态句子中的每个单词与每一帧音频和视觉特征的相似性关(10)(11)(12)第2 期系，其次，将跨模态注意力的输出送人前馈神经网络中获得协同注意力跨模态Transformer层的输出,如式(13）、（14）所示。hhitaos=Cross-Att,(LN(Qr),LN(Ker0s),LN(Vero)+LN(hi_selr)=MHA(LN(Q(r0*s)LN(Kr0*),LN(Ver0s)+LN(hielr)(13)h=FFN(LN(hicros)+LN(hieros

33、)(14)式中:hiom=Rax;hi=Rm;查询 20=层全连接层和一个ReLU激活函数组成;MLPN代表其网络参数。h,h,W L e r o s s 分别是跨模态注意力投影矩阵。hi是2.5损失函数为了确保每种模态的私有表示和共享表示捕基于文本的协同注意力跨模态Transformer第i层的输出,取h最后一个时间步的向量表示作为基于文本的多模态融合表示。对于基于音频模态的协同注意力跨模态Transformer,同理可得将h，的最后一个时间步的向量表示作为基于音频的协同注意力跨模态Transformer的最终输出。2.3双模态表示生成模块在学习到每种模态的私有表示和共享表示之后，为了综合表

34、示单模态表示,将同一模态的2 种不同表示融合后生成最终的单模态表示，每种单模态表示的输出由式（15）定义，um=Sigmoid(FC(Fahard,Fr)式中：umER。此时,最终获得的单模态表示融合了同一模态不同方面与情感相关的信息，既包含统一性信息，又同时具备特定于某种模态独特的信息。为了实现补充基于文本和基于音频的多模态融合表示的信息，设计了双模态表示生成模块，将包含不同方面信息的单模态表示双双进行融合，以获得双模态融合表示，弥补了多模态融合表示只注重学习多模态统一性信息的缺陷，如式（16)所示，bmm2=MLP(umi,um2)eMLP)mi,m2 E(a,V,t/,m+m2式中：bm

35、m=R;MLP(）表示多层神经融合网络，由2 层全连接层分别后接LeakyReLU激活函数和tanh 激活函数组成;QMLP代表其网络参数。2.4情感预测模块将单模态表示、双模态表示和多模态融合表示进行拼接后,得到最终的多模态融合表示,该多模态融合表示同时具备统一性信息以及模态内和模态间的差异化信息，使模型能够学习到更全面田昌宁，等：基于Transformer 的多子空间多模态情感分析J=MLPN(f,OMLPN)式中：=R;MLPN（）表示多层预测网络,由2获到同一种模态不同方面的信息，同时确保能够学到不同模态之间的差异化信息，采用软正交约束计算同一模态间不同表示的相似性和不同模态表示之间的

36、相似性之和作为差异损失，其定义如式(19)所示,N1melt,v,al(ml,m2)m,m2 E ia,V,ti,m+m2式中：，表示弗罗贝尼乌斯范数的平方操(15)作；N表示训练样本的个数。对于情感分析中的回归任务，采用均方误差损失作为损失函数，将差异损失加权后作为回归任务中的总体损失函数来衡量情感强度预测的准确性,如式(2 0）所示，L=(.-9)+Lu对于分类任务，采用交叉摘损失作为损失函数，将差异损失加权后作为分类任务中的总体损失函数来衡量情感分类的准确性，如式（2 1）所示，L,=-y.log(9.)+ylaur(16)式中：作为超参数，用于调整差异化损失Lair在总体损失函数中的权

37、重值。3实验及结果分析本节将对本文所提出的基于 Transformer 的多子空间多模态情感分析方法的有效性进行验证，在2 个基准数据集上设计并完成多项实验。:161:的与情感相关的信息。将拼接后的多模态融合表示输入到两层标准Transformer编码器中进行编码以建模不同表示之间的自注意力，再将具有自注意力的融合表示送人多层预测网络进行情感预测,如式(17)、(18）所示。f=TRM(ua,.,bav,.,ht,h)(17)(18)(19)(20)(21)1623.1实验设置1)基准数据集。为评估本方法的有效性,本文使用由卡耐基梅隆大学公开的多模态意见级情感强度数据集（Multimodal

38、Opinion-level SentimentIntensity,CMU-MOSI）和多模态意见情感与情绪强度数据集（Multimodal Opinion Sentiment and E-motionIntensity，C M U-M O SEI），数据集中分别包含文本、视觉和音频3种模态的数据，2 个数据集的组成与划分如表1所示。CMU-MOSI数据集是一个评论性视频的集合，每条评论数据的情感强度被标注为区间-3,3 内的实数,从-3到3分表代表：强消极、消极、弱消极、中立、弱积极、积极和强积极。CMU-MOSEI比CMU-MOSI的视频数量更多,涵盖的话题范围更广,其情感标签包含二分类、五

39、分类以及七分类的标注，常用的是区间为-3,3 的七分类情感强度标签。除此之外,该Tab.1 Composition and division of the CMU-MOSI and CMU-MOSEI datasets数据集训练集CMU-MOSI1 284CMU-MOSEI16 3263.2基准方法LMF15:利用低秩张量进行多模态融合，以提高效率。MFN24：明确地解释了神经架构中的2 种交互，并随着时间对其进行建模。RAVEN25:对非语言子词序列的细粒度结构进行建模，并基于非语言线索动态地调整单词表示。MulT26:使用基于跨模态注意力的跨模态Transformer进行模态翻译。ICCN

40、27:通过深度典型相关性分析来学习模态之间的相关性。MAG-BERT28:采用多模态适应门将对齐的非语言信息与文本表示相结合。MISA29：将各模态表示投影到模态特定和模态不变空间中，并学习分布相似性、正交损失、重构损失以及任务预测损失。Self-MM30:设计了一个多模态和单模态任务来学习模态间的一致性和模态内的特异性。MMIM20：分层最大化单模态输人对和多模态融合结果与单模态输入之间的互信息。Hycon-B31:通过不同种类的对比学习模态西北大学学报（自然科学版）数据集也包含6 种情绪标签，分别为：开心、悲伤、生气、厌恶、惊喜与恐惧，每种情绪的强度为取值在 0,3 的实数。2)实现细节。

41、在模态私有与共享表示学习模块中,长短期记忆网络的隐藏状态的维度设置为7 6 8,输出维度为12 8。在协同注意力跨模态Transformer模块中，每个协同注意力跨模态Transformer块包含4层协同注意力跨模态Trans-former层，自注意力的注意力头数设置为4,基于文本和基于音频的跨模态注意力中的注意力头数都设置为8,最终输出的多模态表示的维度设置为12 8 维。在训练过程中，网络训练采用的是Adam优化器，batch_size的调整范围是（16,32,64）,迭代次数epoch设置为50。本文提出的方法使用深度学习框架Pytorch实现，在RTX3090GPU上进行模型训练。表1

42、CMU-MOSI和CMU-MOSEI数据集的组成和划分验证集测试集22968618714659间和模态内的交互关系以及样本间和类间关系，从而减小模态差距。ICDN32;结合跨模态Transformer方法和自监督获取单模态情感标签方法,同时学习一致性和差异化信息。PS-Mixer33:采用基于MLP-Mixer 的极性向量和强度向量的混合器模型实现不同模态数据之间的通信。3.3实验结果分析本小节将本文所提出的基于Transformer 的多子空间多模态情感分析方法与基准方法在CMU-MOSI和CMU-MOSEI这2 个基准数据集上进行性能比较，并对实验结果进行了多方面的详细分析，实验结果如表2

43、和表3所示。对表2 中的实验结果分析可得,在 CMU-MOSI数据集上，本文所提方法的实验结果均要高于基线方法。其中,在回归任务中,本文方法在MAE、Corr评价指标上得出了0.7 0 5、0.8 0 0 的实验结果,相比最好的基准方法，MAE下降了0.0 0 8，Corr提升了0.0 0 8；在分类任务上，二分类准确率Acc-2和F1得分分别为8 5.7 1%/8 6.6 3%、85.64%/86.63%，相比最好的基准方法分别提升第54卷总数219922.856第2 期了0.0 2 56/0.0 143,0.0 2 52/0.0 153。本方法在各项评价指标上的结果均优于最好的基准模型，

44、验证了本文提出的模型的有效性。其中，“/”左Tab.2Experimental results of this method and benchmark method on CMU-MOSI dataset模型MAELMF0.917MFM0.877RAVEN0.915MulT0.861ICCN0.862MISA0.783MAG-BERT0.734Self-MM0.720MMIM0.719Hycon-B0.713ICDN0.886PS-Mixer0.794MSTFN0.705表3本方法与基准方法在CMU-MOSEI数据集上的实验结果Tab.3Experimental results of thi

45、s method and benchmark method on CMU-MOSEI dataset模型MAELMF0.623MFM0.568RAVEN0.614MulT0.58ICCN0.565MISA0.568MAG-BERT0.555Self-MM0.533MMIM0.546Hycon-B0.601ICDN0.590PS-Mixer0.537MSTFN0.537表3展示了本方法在CMU-MOSEI数据集上的多模态情感分析实验结果。从表3中的数据分析得知,本方法在回归任务的评价指标MAE和Corr上的结果与相对应的最好的基准方法 SELF-田昌宁，等：基于Transformer的多子空间多

46、模态情感分析表2 本方法与基准方法在CMU-MOSI数据集上的实验结果Corr0.6950.7060.6910.7110.7140.7610.7890.7920.7820.7900.6790.7480.800Corr0.6770.7170.6620.7030.7130.7240.7580.7610.7590.7760.7050.7600.762 163 边是消极与非消极时的二分类结果，“/”右边是消极与积极时的二分类结果。Acc-2/%F1-score/%-/82.5-/82.4-/81.7-/81.678.0/-76.6/81.5/84.180.6/83.9-/83.0-/83.081.8/

47、83.481.7/83.682.42/84.1582.45/84.1383.15/84.8283.12/84.8482.36/84.9982.38/84.96-/85.2-/85.1/81.5-/81.680.3/82.180.3/82.185.71/86.6385.64/86.63Acc-2/%F1-score/%-/82.0-/82.1-/84.4-/84.379.1/-79.5/82.5-/82.3-/84.2-/84.282.59/84.2382.67/83.9782.38/85.1682.07/85.2481.33/84.6381.77/84.5981.04/83.9281.04/8

48、4.22-/85.4-/85.6-/81.6-/81.683.1/85.7683.1/85.7783.17/85.9983.31/85.92MM和Hycon-B分别相差0.0 0 4和0.0 14；在分类任务中,本方法在二分类准确率Acc-2和F1得分上均取得了最优的结果：8 3.17%/8 5.99%和8 3.31%/85.92%,与最好的基准方法PS-Mixer相比分别提数据状态非对齐对齐对齐对齐非对齐对齐对齐非对齐非对齐非对齐非对齐非对齐非对齐数据状态非对齐对齐对齐对齐非对齐对齐对齐非对齐非对齐非对齐非对齐非对齐非对齐164升了 0.0 0 0 7/0.0 0 2 3 和0.0 0 2

49、1/0.0 0 1 5,进一步证明去除穴余信息后对提升多模态情感分析精度有着重要作用。综合表2 和表3的实验结果可以得到,本方法在2 个数据集上均实现了优于其他基线方法的性能,强基线模型 PS-Mixer仅在较小的数据集CMU-MOSI上的实验结果较为突出，证明该模型的鲁棒性较差。本文提出的方法性能不局限于输人数据的类型,具有较高的鲁棒性。与应用传统的三元Transformer结构方法如MulT和ICDN相比,MSTFN在各项评价指标上的实验结果均远高于这2 种方法的实验结果，由此可以分析得出，采用二元Transformer融合方案的模型能够更好地实现多模态数据的融合，缩小模态间的异质性，提升

50、模型情感分析能力。综合以上分析可以得出，本方法是具有较高性能的多模态情感分析方法。3.4消融实验本文提出的基于Transformer的多子空间多模态情感分析方法由4个模块组成,其中的主要模块为模态私有与共享表示学习模块、协同注意力跨模态Transformer模块以及双模态表示生成模块。为了验证3个主要模块的有效性,在非对齐的CMU-MOSI数据集上设计了多项消融实验。在完整模型MSTFN的基础上,逐步去除各个主要模块生成不同的模型版本，对本模型的各个版本的定义和解释如下。MSTFN w/oPSRLM：去除模态私有与共享表示学习模块的模型，相对应地，在训练阶段只保留基本的任务损失函数，去除差异M

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Transformer 空间多模态情感分析

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。