![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于混合特征网络的学生评教文本情感分析模型.pdf
《基于混合特征网络的学生评教文本情感分析模型.pdf》由会员分享,可在线阅读,更多相关《基于混合特征网络的学生评教文本情感分析模型.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 11期2023年 11月Computer Engineering 计算机工程基于混合特征网络的学生评教文本情感分析模型吴奇林,党亚固,熊山威,吉旭,毕可鑫(四川大学 化学工程学院,成都 610041)摘要:以学生评教文本情感分析任务作为切入点,针对传统基础深度学习模型特征提取能力不足、循环神经网络训练效率较低以及词向量语义表示不准确等问题,提出基于混合特征网络的学生评教文本情感分类算法。采用轻量级 ALBERT预训练模型提取符合当前上下文语境的每个词的动态向量表示,解决传统词向量模型存在的一词多义问题,增强向量语义表示的准确性;混合特征网络通过结合简单循环单元和多尺度局部卷积学
2、习模块以及自注意力层,全面捕捉评教文本全局上下文序列特征和不同尺度下的局部语义信息,提升模型的深层次特征表示能力,自注意力机制通过计算每个分类特征对分类结果的重要程度,识别出对情感识别结果影响较大的关键特征,避免无关特征对结果造成干扰,影响分类性能,将分类向量拼接后由线性层输出评教文本情感分类结果。在真实学生评教文本数据集上的实验结果表明,该模型 F1 值达到 97.8%,高于对比的 BERT-BiLSTM、BERT-GRU-ATT 等深度学习模型。此外,消融实验结果也证明了各模块的有效性。关键词:情感分析;预训练模型;自注意力;双向简单循环单元;多尺度卷积网络开放科学(资源服务)标志码(OS
3、ID):中文引用格式:吴奇林,党亚固,熊山威,等.基于混合特征网络的学生评教文本情感分析模型 J.计算机工程,2023,49(11):24-29,39.英文引用格式:WU Q L,DANG Y G,XIONG S W,et al.Sentiment analysis model of students teaching evaluation text based on hybrid feature network J.Computer Engineering,2023,49(11):24-29,39.Sentiment Analysis Model of Students Teaching E
4、valuation Text Based on Hybrid Feature NetworkWU Qilin,DANG Yagu,XIONG Shanwei,JI Xu,BI Kexin(School of Chemical Engineering,Sichuan University,Chengdu 610041,China)【Abstract】Taking the sentiment analysis task of students teaching evaluation text as the starting point,in view of the insufficient fea
5、ture-extraction ability of the traditional basic depth learning model,the low training efficiency of the recurrent neural network,and the inaccurate semantic representation of word vectors,a sentiment classification algorithm for student evaluation text based on a hybrid feature network is proposed.
6、The lightweight pre-training model ALBERT is used to extract the dynamic vector representation of each word that conforms to the current context,solve the problem of polysemy in the traditional word vector model,and increase the accuracy of vector semantic representation.The hybrid feature network c
7、omprehensively captures the global context sequence features of the teaching evaluation text and the local semantic information at different scales by combining the simple recurrent unit,multi-scale local convolution learning module,and self-attention layer,to improve the deep feature representation
8、 ability of the model.The self-attention mechanism identifies the key features that significantly impact the emotional recognition results by calculating the importance of each classification feature to the classification results.To prevent irrelevant features from interfering with the results and a
9、ffecting the classification performance,the classification vectors are spliced,and the emotional classification results of the evaluation text are output from the linear layer.In an experiment based on a real student teaching evaluation text dataset,the model achieves an F1 score of 97.8%,which is h
10、igher than that of the BERT-BiLSTM、BERT-GRU-ATT depth learning model.Additionally,an ablation experiment proves the effectiveness of each module.【Key words】sentiment analysis;pre-training model;self attention;bidirectional simple recurrent unit;multiscale convolution networkDOI:10.19678/j.issn.1000-
11、3428.0066181基金项目:国家重点研发计划(2021YFB40005)。作者简介:吴奇林(1997),男,硕士研究生,主研方向为自然语言处理、情感分析;党亚固(通信作者),副教授、硕士;熊山威,硕士研究生;吉 旭,教授、博士;毕可鑫,博士后。收稿日期:2022-11-04 修回日期:2022-12-13 Email:热点与综述文章编号:1000-3428(2023)11-0024-06 文献标志码:A 中图分类号:TP391第 49卷 第 11期吴奇林,党亚固,熊山威,等:基于混合特征网络的学生评教文本情感分析模型0概述 评教文本内容体现学生对教师授课过程的基本态度,是教师了解学生听课
12、需求,提高授课水平的关键途径1-3。快速且准确地识别出评教文本表达的情感倾向有助于教师及时发现不足,从而改善课堂质量。相较于一般的文本情感分析任务,学生在对教师课堂教学质量进行打分具有较强的主观性和差异性,包含更多的倾向观点信息,所表达出的情感极性也更为隐蔽。文本情感分析研究目前主要基于深度学习方法,传统机器学习方法需要手动构建特征工程,实现过程耗时耗力,无法适应于大规模文本数据。文献 4 提出了基于 BERT-BiLSTM 的文本分类模型,BiLSTM 模块捕捉文本全局序列特征,但循环机制导致其训练效率较低。文献 5 针对中文实体关系分类研究,构建了 BERT-GRU-ATT 模型,注意力模
13、块加强部分关键情感词对识别结果的影响权重,避免无关特征对结果造成干扰。文献 6 针对文本 分 类 任 务,提 出 了 双 向 门 控 时 序 卷 积 注 意 力(Bidirectional Gated Temporal Convolutional Attention,BG-TCA)模型,在双向时序卷积模块上加入了门控机制,注意力模块起到信息聚合的作用,提高重点词对分类结果的影响权重。文献 7 提出了基于多通道特征和自注意力的双向 LSTM 文本情感分类方法(MFSA-BiLSTM-D),能较好地捕捉情感句的语义极性及上下文信息,在公开数据集上取得了良好效果。文献 8 为解决微博评论的情绪分类问
14、题,提出了 基 于 EK-INIT-CNN(Emotional Knowledge enhanced INIT-CNN)的情绪分类模型,卷积模块仅能提取文本局部语义。基础模型 CNN 和 BiLSTM 特征提取能力较弱,无法全面捕捉深层次文本情感特征,且未能识别对情感倾向影响更大的关键特征。为解决上述研究存在的问题,本文提出基于混合特征网络的学生评教文本情感分析模型。该模型采用轻量级预训练 ALBERT9模型,通过结合具体上下文语境学习到词的动态语义表示,解决一词多义问题。ALBERT 模型参数量较少,易于进行大规模部署,具有工程应用上的优势,其中混合特征网络可全面捕捉学生评教文本上下文序列语
15、义和局部情感特征,挖掘深层次的情感信息,而自注意力机制10能够识别对分类结果影响更大的关键特征,避免无关特征对情感分类结果造成干扰,提高模型情感识别精度。1学生评教文本情感分析模型 1.1模型整体架构基于混合特征网络的学生评教文本情感分析模型整体结构如图 1所示。学生评教文本情感分析模型主要由预训练模型 ALBERT、混 合 特 征 网 络 和 线 性 输 出 层 构 成。ALBERT 通过结合当前词的具体上下文动态调整向量表示,提高词的语义表达能力。混合特征网络同时捕捉评教文本的不同尺度下的局部特征和高维全局情感语义信息,增强模型的情感特征提取能力。线性输出层通过降低维度后计算情感分类概率,
16、得到学生评教文本情感分类结果。其中,SA 表示自注意力机制,Conv2 表示卷积核大小为 2 的卷积操作,SELU 为非线性激活函数,Pool表示最大池化操作。1.2ALBERT预训练模型轻量级预训练模型 ALBERT采用词嵌入的因式分解和交叉层的参数共享等参数精简技术以降低参数量和加快训练速度,并引入自监督损失对句子间的连贯性进行建模,全面捕捉词的动态语义向量表征,提升下游任务的性能表现。ALBERT 模型结构如图 2所示。图 1模型整体结构Fig.1Overall structure of the model图 2ALBERT模型结构Fig.2ALBERT model structure2
17、52023年 11月 15日Computer Engineering 计算机工程在图 2 中,E=E1E2En表示 ALBERT 模型的输入向量,由字符嵌入、相对位置嵌入和分句嵌入构成。TR为 Transformer模块中的编码器,主要由自注意力机制和前馈神经网络组成。经多层编码器进行文本语义情感特征捕捉后,输出每个字符的动态向量表示T=T1T2Tn,由混合特征网络进行二次语义特征学习,捕获深层次情感特征。1.3混合特征网络混 合 特 征 网 络 主 要 由 双 向 简 单 循 环 单 元(Bidirectional Simple Recurrent Unit,BiSRU)网络 11和 改 进
18、 的 多 尺 度 卷 积 神 经 网 络(Multiscale Convolutional Neural Network,MCNN)串 联 组 成。首先由 BiSRU 捕捉文本上下文序列特征,再通过卷积神经网络进行不同尺度下的局部特征提取,全面捕获评教文本高维情感语义,自注意力机制识别出对分类结果影响权重较大的关键情感特征。传统循环神经网络如 LSTM12和 GRU13受限于循环依赖机制,当前状态ht的计算需要等待前一个状态ht-1运算结束,导致并行计算效率低,无法充分利用显卡资源来加速训练,影响模型整体训练速度。简单循环单元在维持高效序列建模能力的同时,简化步骤状态计算,矩阵乘法运算可轻易地
19、在任何维度和步骤中并行化,从而提高模型运算速度。SRU模块前向计算过程如式(1)式(5)所示:rt=(Wrxt+vr ct-1+br)(1)ft=(Wfxt+vf ct-1+bf)(2)ct=ft ct-1+(1-ft)(Wxt)(3)ht=rt ct+(1-rt)xt(4)UT=()WWrWfx1x2xL(5)其中:表示Sigmoid()激活函数;Wr、Wf和W为 SRU单元权重参数矩阵;bf和br为偏置项;ft和rt分别表示遗忘门和重设门,负责控制当前信息流入下一个时间步骤的程度大小;x1x2xL表示 ALBERT输出的文本特征向量矩阵。从式(4)可以发现,循环计算中当前时间状态不再依赖h
20、t-1,加快并行计算速度。式(5)中将矩阵Wr、Wf和W乘法运算合并,从代码层面提高并行效率。经 BiSRU 模块训练后,得到融合上下文序列情感特征表示H=(H1H2Hn)。多尺度卷积神经网络运算并行效率高,依靠设置不同大小的卷积核以提取多个尺度下评教文本的局部情感特征,全面提升情感分类特征的多样性和有效性14。多尺度卷积神经网络结构如图 3 所示,主要包括卷积层、自注意力机制和池化层。卷积层使用不同大小的卷积核在文本向量矩阵由上而下进行滑动操作,以提取局部文本特征。具体计算过程如式(6)、式(7)所示:ci=f(W Hi:i+m-1+b)(6)C=(c1c2cn-m+1)(7)其中:表示卷积
21、操作;W为参数权重矩阵;b表示偏置项;Hi:i+m-1表示BiSRU模块输出的第i至i+m-1行文本特征向量;f为非线性激活函数,提高模型对数据的拟合能力15。本文实验设置卷积核大小为(2,3,4),卷积操作后得到局部特征表示C2、C3和C4。本文采用性能表现更优的缩放指数线性单元(SELU)16激活函数替代原始的 ReLU 函数,使得输入在经过一定层训练后变成固定的分布,对数据原始噪声具有鲁棒性,可加快模型训练的收敛速度。SELU函数计算原理如式(8)所示:f(x)=(ex-1)x 0 xx 0(8)其中:和均为可训练参数。为增强模型对关键特征的识别能力,提高情感分类性能,在池化操作之前加入
22、自注意力机制计算过程,旨在捕捉词和短语级别特征之间的相互依赖关 系,突 出 对 情 感 分 析 结 果 影 响 更 高 的 重 点 特征17-18。首先计算卷积层输出每个特征ct对应的注意力得分t,通过加权求和后得到整体注意力输出V。具体计算过程如式(9)式(11)所示:ut=tanh(Wzct+bz)(9)t=exp(ut)texp(ut)(10)V=ttct(11)其中:tanh为非线性激活函数;Wz和bz为可学习权重图 3多尺度卷积神经网络Fig.3Multiscale convolutional neural network26第 49卷 第 11期吴奇林,党亚固,熊山威,等:基于混合
23、特征网络的学生评教文本情感分析模型参数。将每个卷积通道的注意力结果分别输入池化层,采用最大池化技术提取重点特征,得到池化结果P2、P3和P4。1.4线性输出层将卷积操作后输出的不同尺度下的局部语义特征进行拼接,计算过程如式(12)所示:Z=Concat(P2P3P4)(12)分类向量Z经线性层将其映射到实例分类空间,通过Softmax函数计算得到情感分类概率Ps,Max_index函数取概率最大值对应的情感标签作为分类结果Result。计算过程如式(13)、式(14)所示:Ps=Softmax(WsZ+bs)(13)RResult=Max_index(Ps)(14)2实验结果与分析 2.1数据
24、集和性能指标为验证本文模型在学生评教文本情感分析任务上的有效性,采用某高校多门课程的学生评教文本数据作为实验验证数据集。通过人工标注方式构建训练数据集,每条数据样本由评教内容和对应情感标签组成。经清洗和去除脏数据等操作后,得到评教文本数据共 2 355条,部分评教文本数据如表 1所示。按照 8 1 1划分训练集、测试集和验证集,划分过程完全随机。评价指标19采用准确率(Accuracy,A)、精确率(PrecisionP)、召回率(RecallR)和F1值(F1),相关计算过程如式(15)式(18)所示:A=TTP+TTNTTP+FFP+TTN+FFN(15)P=TTPTTP+FFP(16)R
25、=TTPTTP+FFN(17)F1=2 P RP+R(18)其中:TTP代表预测正确的正向样本数量;TTN代表预测正确的负向样本数量;FFP代表预测错误的正向样本数量;FFN代表预测错误的负向样本数量。2.2实验环境与参数设定本 文 实 验 环 境 的 配 置 如 下:操 作 系 统 为Ubuntu18.04,显卡为英伟达 1080 Ti,显存为 11 GB;采用 PyTorch1.8.1深度学习框架和 Python3.8进行模型构建和训练。实验模型参数设置如下:采用基础版本的中文预训练模型 ALBERT20,参数总量为 4106,隐藏层维度大小为 768;BiSRU 隐藏层单元数量为 256
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 混合 特征 网络 学生 文本 情感 分析 模型
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。