基于多模态特征融合的抑郁症识别.pdf
《基于多模态特征融合的抑郁症识别.pdf》由会员分享,可在线阅读,更多相关《基于多模态特征融合的抑郁症识别.pdf(6页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第10期总第338期文章编号:1006-2475(2023)10-0017-06收稿日期:2022-11-18;修回日期:2022-12-20基金项目:广东省重大科技专项(2016B030305003)作者简介:谷明轩(1997),男,广东广州人,硕士研究生,研究方向:多模态数据融合,E-mail:;通信作者:范冰冰(1962),男,江苏启东人,教授,博士,研究方向:云应用和云工程,移动互联网,大数据管理和应用,E-mail:。0引言抑郁症是一种常见的精神疾病,根据世界卫生组织(WHO)的不完全统计,全球约有3.4亿人患有不同
2、程度的抑郁症。据中国的统计数据显示,超过3000万中国公民患有抑郁症1。近年来,抑郁症患病年龄呈年轻化趋势,越来越多的青少年患有抑郁症。这是由于青少年处于生理与心理快速发展阶段,面对成长环境的压力和心理教育的缺乏,更容易产生各种心理问题2。研究表明,抑郁症会对个体的学习、认知和记忆能力造成很大影响,其主要特征包括持续地情绪低落、快感缺失以及认知障碍,患者难以控制自己的情绪且严重者可能出现自杀倾向并付诸行动3。由于不清楚潜在的神经机制和病理学原理,抑郁症的临床诊断比较困难。精神疾病患者在外观表现上与正常人没有区别,因此临床医生只能根据患者的自我描述和相关信息进行主观诊断,诊断的结果往往取决于医生
3、的经验4-5,因此这种诊断方法具有较强的主观性和不准确性。另外,在临床上,医生的诊断更多依赖于抑郁量表,如抑郁筛查量表(PHQ-9)6、汉密尔顿抑郁评定量表(HDRS)或贝克抑郁量表(BDI)等。由于抑郁症筛查所使用的问卷涉及患者的主观描述,通过问卷筛查经常出现假阳性或假阴性的情况。综上所述,仅通过医生诊断和问卷筛查的抑郁症诊断方法是不严谨的。面对抑郁症识别遇到的问题和挑战,计算机研究界开始使用行为线索来学习识别抑郁症、创伤后应激障碍等相关精神障碍7。面部表情、语音韵律等行为特征已经被证明是预测抑郁症的重要特征8-9。而且,人的自然语言和社交活动中也包含了重要的信基于多模态特征融合的抑郁症识别
4、谷明轩,范冰冰(华南师范大学计算机学院,广东 广州 510631)摘要:抑郁症是一种常见的精神疾病,现有的抑郁症诊断主要依赖于抑郁量表和精神科医生的访谈,具有较强的主观性。近年来,越来越多的研究者致力于通过脑电特征或音频特征识别抑郁症患者,但并未有研究将脑电信息与音频信息有效地结合起来,忽略了音频和脑电数据之间的相关性。因此本文提出一种基于全连接神经网络的多模态特征融合模型,通过对音频模态和脑电模态信息的特征融合提升抑郁症识别的准确率,为抑郁症的识别提供新的角度和方法。实验表明,多模态特征融合在MODMA数据集上的抑郁症识别准确率达到了81.58%且高于单模态抑郁症识别方法的准确率。这表明,相
5、比于单模态识别,多模态特征融合模型能够提高抑郁症识别的准确率。关键词:多模态数据融合;抑郁症识别;特征融合;全连接神经网络中图分类号:TP399文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.10.003Feature-level Multimodal Fusion for Depression RecognitionGU Ming-xuan,FAN Bing-bing(School of Computer Science,South China Normal University,Guangzhou 510631,China)Abstract:Depress
6、ion is a common psychiatric disorder.However,the existing diagnostic methods for depression mainly rely onscales and interviews with psychiatrists,which are highly subjective.In recent years,researchers have devoted themselves toidentifying depressed patients by EEG features or audio features,but no
7、 study has effectively combined EEG information with audio information,ignoring the correlation between audio and EEG data.Therefore,this study proposes a feature-level multimodalfusion model to improve the accuracy of depression recognition.We combine the audio and EEG modality information based on
8、 afully connected neural network.Our experiments show that the accuracy of depression recognition using feature-level multimodalfusion model on the MODMA dataset reaches 81.58%,which is higher than that of using single-modality.The results indicatethat the feature-level multimodal fusion model can i
9、mprove the accuracy of depression recognition compared to single-modality.Our research provides a new perspective and method for depression recognition.Key words:multimodal data fusion;depression detection;feature-level fusion;fully-connected neural networks计算机与现代化2023年第10期息。例如人的面部表情和身体姿势9被用作抑郁症识别。另
10、外,社交网络中文本数据、图片数据也可以被用于抑郁症识别10,帮助心理学家和精神科医生评估患者的抑郁水平。另外,研究者发现抑郁症与脑功能异常有着密切的关系11。许多成像技术被用于探索和辅助治疗抑郁症等精神疾病,如功能磁共振成像(fMRI)、正电子发射断层扫描(PET)和单光子发射计算机断层扫描(SPECT)等。其中PET和SPECT需要往受试者体内注射放射性物质,通过局部脑血流灌注断层显像技术进行分析12。脑电图(Electroencephalogram)是一种常见的无痛、无创的脑功能评估方法,常用于抑郁症、癫痫、阿尔兹海默症、精神分裂症等疾病的辅助诊断,其优点在于成本低、灵敏度高且便于记录大脑
11、活动。研究表明,抑郁症患者的认知能力受到情绪变化的影响而变化13,这些变化可以在一定程度上影响脑电图。因此,本文选择脑电模态数据作为多模态特征融合的其中一种模态进行研究。传统的脑电研究都是使用脑电图中的线性特征和非线性特征来进行识别,如Erguzel等人14提取脑电图频谱的线性特征,结合反向传播神经网络(BPNN)和遗传算法(GA)进行抑郁症患者的分类,准确率达到了89.12%。Hosseinifard等人15提取了4种非线性特征,包括去趋势波动分析、Higuchi分形、相关维数和Lyapunov指数对抑郁症患者和正常人进行分类,使用逻辑回归(LR)分类器,准确率达到了90.12%。除了线性与
12、非线性特征外,功能连通性也被作为判断抑郁症患者与正常人之间的差异的特征,并基于功能连通性进行区分。Orgo等人16通过提取功能连通性特征以及相干性、聚类系数等图论特征,采用支持向量机(SVM)和遗传算法对 64 名受试者进行分类,准确率达到了88.10%。Peng等人17提取用相位滞后指数值(PLI值),使用支持向量机和肯德尔秩相关系数进行分类,且分类效果理想。因此,本文借鉴Peng的方法进行特征提取,使用PLI值来描述EEG通道间的功能连通性并用于训练。除了通过上述所说的文本、图片、脑电等方式识别抑郁症,语音识别也是一种广泛用于抑郁症识别的方式。语音能够反映人的情绪,因此可以通过分析语音的情
13、感来识别抑郁症。如Balano等人18分析了正常人与抑郁症患者之间的语音差异,发现抑郁症患者的声音更为沙哑、结巴、低沉。Flint等人19发现抑郁症患者存在一定程度的语言障碍,他们的思维逻辑更为缓慢,停顿时间更长,停顿的次数更多。于是本文选择使用音频模态作为特征融合的另一种模态,提高抑郁症识别的准确率。本文通过结合音频模态和脑电模态的信息进行抑郁症识别,从预处理后的脑电图数据中提取PLI值作为脑电特征,从预处理后的音频数据中提取常用的语音识别系数如MFCC等作为音频特征,以特征融合的方式识别抑郁症,并与单模态抑郁症识别的准确率进行对比,另外在对比实验中加入决策融合和机器学习的方法。1相关研究本
14、章将介绍多模态数据融合的常见方法。多模态的融合方法大致可以分为2大类,分别是模型无关的融合方法和基于模型的分类方法20。模型无关的分类方法是根据融合的时期进行分类,共分为特征融合(又称为早期融合)、决策融合(又称为晚期融合)和混合融合。本文所使用的就是其中的特征融合。特征融合是指对各个模态的数据特征提取后对特征进行融合的一种方式,其优势在于可以在模型训练前充分利用各个模态特征之间的相关性,适用于模态高度相关的情况,如 Cai 等人21对 3 种模态下的EEG数据(中性音频刺激、负性音频刺激和正性音频刺激)进行特征融合,将不同模态下提取的特征进行线性组合,并使用t检验从组合后的特征矩阵中选出新的
15、特征作为分类器的输入,通过使用多个分类器进行对比实验,最高分类准确率可达86.98%。决策融合是指在每个模态都做出决策(分类或回归)后再进行融合,在深度学习模型中,决策融合的做法是先使用不同模态单独进行训练,训练后将训练的结果进行融合22。决策融合不需要模型之间有很强的相关性即可融合,其主要通过采用不同规则或采用深度学习模型来确定最终融合的方式,如最大值融合、平均值融合等融合方法23。Yang等人24使用由深度卷积神经网络(DCNN)和深度神经网络(DNN)模型组成的多模态融合框架,通过融合音频、视频和文本的特征对患者的抑郁程度进行测量。首先对各个模态都通过DCNN学习高级全局特征,然后将特征
16、输入DNN获得预测的PHQ-8的分数,最后将3个模态预测的PHQ-8分数使用DNN进行决策融合得到最终的PHQ-8分数。张迎辉等人25提出基于深度森林的多模态决策级融合方法,其通过选择出能够用于融合的特征进行基于深度森林的多粒度扫描和级联,实现了深度森林各级的决策融合,提高了抑郁症检测正确率。混合融合既包含了特征融合,又包含了决策融合,在综合两者优点的同时也复杂化了模型的结构,增加了训练的难度,但由于其结构灵活和多样,在手势识别和多媒体26等领域应用广泛。Lan等人27利用混合融合进行多媒体事件检测,结合了特征融合和决策融合的方法,捕捉模态间的特征关系,解决了模型过拟合的问题,这种混合融合的方
17、式使模型达到88.10%的准确率。上述3种方法各有优缺点,考虑到音频模态和脑电模态之间的联系,本文基于深度学习使用全连接神经网络进行多模态的特征融合:先通过全连接神经网络分别对2种模态数据进行单独训练,降低特征维度并得到2种模态抽象的特征。其次,将2种模态抽象的特征融合并使用前馈神经网络作为分类模型,将融182023年第10期合后的特征映射到分类空间进行分类,最终完成抑郁症的识别。2方法本文提出一种基于全连接神经网络的多模态特征融合方法,使用2种模态进行研究:脑电模态和音频模态。脑电模态记录了受试者静息状态下的脑电信息,而音频模态则记录了受试者在访谈、阅读和图片描述过程中的语音信息。由于模态包
18、含的信息和特性具有一定的相关性,因此使用全连接神经网络分别对不同模态的特征进行训练并融合,对融合后的特征使用前馈神经网络进行抑郁症识别。模型的整体框架如图1所示,整个模型主要由3个部分组成:脑电模态特征提取与选择,音频模态的特征提取与选择以及对双模态融合的特征进行训练与分类。图1多模态特征融合框架2.1脑电模态2.1.1脑电预处理本文使用兰州大学建立的MODMA数据集28,数据通过 128 通道 HydroCel 传感器和 Net Station 软件进行采集,采样率为250 Hz,参考电极为顶点电极(CZ电极)。针对原始数据,本文使用 MATLAB 中的EEGLAB29工具包对数据进行预处理
19、,主要流程如下:1)进行电极重定位和重参考(全脑平均参考)。2)使用Sinc FIR滤波器30进行滤波,带通为140 Hz,去除线噪声和电干扰。3)对EEG数据进行分段(每段长为2 s)并去除伪迹。4)使用独立成分分析(ICA)去除眼电(EOG)和肌电(EMG)伪影。2.1.2脑电特征提取与特征选择对预处理后的数据进行特征提取,计算相位滞后指数PLI。PLI值31用于估计EEG双通道之间相位差分布的不对称性,可以在一定程度上描述通道之间的功能连通性。对于给定的2个EEG信号x和y,PLI值的计算方法如公式(1)所示:PLIxy(h)=|(1)其中,x(h)表示该通道信号的瞬时相位,x(h)-y
20、(h)表示信号x和y在频率h下的相位差,sign()代表符号函数。PLI值的取值区间在0到1之间,0表示不耦合,1表示完全相位同步。通过上述计算方程,利用PLIxy值评估每对通道之间的功能连通性。因此,对于每个受试者,可以获得一个128128的功能连通矩阵F:F=f11f12f1nf21f22f2nfn1fn2fnn128 128(2)对于功能连通矩阵F,将矩阵的对角元素fii设为1,非对角元素fij(ij)设为PLIxy值。矩阵的每一列和每一行对应一个不同的通道,矩阵第i行第j列表示通道i和通道j之间连通性的强度。由于矩阵关于对角线对称,因此剔除无意义的对角元素和重复的下三角元素,提取矩阵的
21、上三角元素作为分类特征。因此脑电特征提取后得到的特征维数为 128(128-1)/2=8128。为了去除不相关和冗余的特征,提高模型的泛化能力,本文采用特征选择算法来对提取的特征进行降维。ReliefF32是一种特征权重算法,其不仅具有效果好、效率高的特点,还可以在一定程度上保留特征原有的物理意义。ReliefF算法的主要步骤如下:1)从所有样本中随机取一个样本x。2)从与样本x相同分类的样本集中取出k个最近邻样本。3)从其他与样本x不同分类的样本集中也取出k个最近邻样本。4)最后,计算特征的权重并从大到小进行排序,权重值越大,排名越靠前则代表该特征越重要,对样本的分类效果越好。通过Relie
22、fF特征选择方法,本文提取权重排名前500维的特征用于多模态特征融合。2.2音频模态2.2.1音频数据预处理本文使用的是兰州大学MODMA数据集的音频部分,语音采集软件为 Adobe Audition CS6,采样频率为44.1 Hz,采样深度为24 bit,单声道。音频内容为受试者对主试提出的问题作出的回答。针对原始数据,对数据进行的预处理流程如下:1)对音频数据进行预加重33,其作用就是在传输线的始端增强信号的高频成分,补偿其在传输过程中的衰减,提高输出信噪比。语音信号的预加重可以通过一阶FIR高通数字滤波器来实现,设时刻n的语音信号采样值为X(n),则预加重的输出信号Y(n)的计算公式如
23、下:Y(n)=X(n)-X(n-1)(3)其中,预加重系数的值应介于0.9和1.0之间,本文中的值取为0.97。2)对音频信号进行分帧,将原始语音信号分成大小固定的 N段语音信号,将每一段语音信号称为一帧,帧长通常取1030 ms之间,本文帧长取25 ms。在分帧过程中,相邻的2帧之间有所重叠,重叠部分被称为帧移,本文帧移取10 ms。3)为了消除各帧两端可能存在的信号不连续问题,采用窗函数加权法对音频信号进行加窗,窗函数选用长度为L的汉明窗,设时刻n的窗函数输出为w(n),则窗函数公式如下:音频数据脑电数据数据预处理数据预处理特征提取及特征选择特征提取及特征选择DNNDNN特征融合DNN分类
24、谷明轩,等:基于多模态特征融合的抑郁症识别19计算机与现代化2023年第10期w(n)=0.54-0.46cos 2n/(L-1),0 n L-10,otherwise(4)将时刻n的窗函数w(n)与信号f(n)相乘,得到加窗后的语音信号fw(n):fw(n)=f(n)w(n)(5)2.2.2音频特征提取与特征选择对预处理后的数据进行特征提取,本文将音频分为沉默段和语音段,共提取1600维特征。其中沉默段指的是音频信号中语音的沉默部分,即上一句话的结束到下一句话的开始之间的语音段。通过语音端点检测技术34提取 8个维度特征,包括最大沉默时间、总暂停时间等。通过 Open Smile35提取语音
25、段特征,共 1582 维特征,其中包括梅尔频率倒谱系数(MFCC)等重要特征,使用配置文件为emobase2010。对于音频特征,本文同样使用ReliefF特征选择方法进行特征选择,提取权重排名前500维的特征用于多模态特征融合。2.3多模态决策融合模型决策融合是子模型做出决策后再融合的方法,其特点在于可以选择合适的模型对不同的模态进行训练,然后根据子模型的训练结果选择合适的方式进行融合。本文设计一种多模态决策融合方法来作为对比实验。对于不同的模态,本文使用2种不同的子模型分别进行训练,然后使用线性加权的方式进行决策融合,决策融合的网络结构如图2所示。图2多模态决策融合网络结构对于音频模态数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多模态 特征 融合 抑郁症 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。