基于BERT的金融文本情感分析与应用.pdf
《基于BERT的金融文本情感分析与应用.pdf》由会员分享,可在线阅读,更多相关《基于BERT的金融文本情感分析与应用.pdf(6页珍藏版)》请在咨信网上搜索。
1、第26卷第11期2023年11月软件工程 S O F T W A R E E N G I N E E R I N GVol.26 No.11Nov.2023文章编号:2096-1472(2023)11-0033-06DOI:10.19644/ki.issn2096-1472.2023.011.008收稿日期:2 0 2 3-0 2-2 7基于B E R T的金融文本情感分析与应用季玉文1,陈 哲2(1.浙江理工大学计算机科学与技术学院,浙江 杭州 310018;2.浙江理工大学信息科学与工程学院,浙江 杭州 310018);摘 要:针对金融文本情感倾向模糊问题,设计了一种基于B E R T(B
2、 i d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s f o r m e r s,基于T r a n s f o r m e r的双向编码技术)和B i-L S TM(B i d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y N e t w o r k,双向长短时记忆网络)的金融文本情感分析模型,以B E R T模型构建词向量,利用全词掩盖方法,能够更好地表达语义信息。为搭建金融文本数据集,提出一种基于深度
3、学习模型的主题爬虫,利用B E R T+B i-G R U(双门控循环单元)判断网页内文本主题相关性,以文本分类结果计算网页的主题相关度。实验结果表明:本文所设计的情感分析模型在做情感分析任务时取得了8 7.1%的准确率,能有效分析文本情感倾向。关键词:情感分析;主题爬虫;长短时记忆网络;预训练语言模型中图分类号:T P 3 9 1 文献标志码:AF i n a n c i a l T e x t S e n t i m e n t A n a l y s i s a n d A p p l i c a t i o n B a s e d o n B E R TJI Yuwen1,CHEN Z
4、he2(1.School of Computer Science and Technology,Zhejiang Sci-Tech University,Hangzhou 310018,China;2.School of Inf ormation Science and Engineering,Zhejiang Sci-Tech University,Hangzhou 310018,China);A b s t r a c t:Aiming at the problem of vague sentiment orientation in financial texts,this paper p
5、roposes to design a financial text sentiment analysis model based on BERT(Bidirectional Encoder Representations from Transformers)and Bi-LSTM(Bidirectional Long Short-Term Memory Network)is designed.The BERT model is used to construct word vectors,and the whole word masking method is employed to bet
6、ter express semantic information.To construct a financial text dataset,a theme crawler based on a deep learning model is proposed,which uses BERT+Bi-GRU(dual Gate Recurrent Unit)to determine the topic relevance of text within a webpage,and calculates the topic relevance of the webpage based on the t
7、ext classification results.The experimental results show that the proposed sentiment analysis model achieves an accuracy of 87.1%when performing sentiment analysis tasks,and can effectively analyze text sentiment orientation.K e y w o r d s:sentiment analysis;theme crawler;long short-term memory net
8、works;pre-training language model0引言(I n t r o d u c t i o n)金融市场的发展水平是衡量社会商品经济发展水平的重要指标。学者们长期以来一直通过历史交易数据研究和预测市场变化规律。但是,金融市场的变化波动受到政策、股本、金融公司变动等多方面因素的影响,其数据具有非线性、非平稳性和高噪声等特点,因此研究难以取得有效的成果。软件工程2023年11月随着互联网和科学技术的发展,人们开始意识到可以通过网络监控金融舆情信息,进而分析行业动向和市场前景。已有研究表明,网络舆情信息可以影响投资机构或投资者的投资行为,进而对股市产生影响1。然而,网络文本
9、数据的噪声高、数据量大,传统的经济学方法难以准确挖掘文本中隐藏的信息,因此学者们开始将深度学习技术应用于该领域。本文基于深度学习主题爬虫,创建金融文本情感标注数据集,填补了当前金融文本情感标注数据集的空白;采用目前文本分析领域应用效果最好的B E R T模型,并结合B i-L S TM模型,丰富了深度学习方法在金融领域的研究。1相关研究(R e l a t e d r e s e a r c h)1.1主题爬虫主题爬虫是一种特殊类型的网络爬虫,它的初始统一资源定位符(U n i f o r m R e s o u r c e L o c a t i o n,U R L)集合是与预定义主题高度相
10、关的页面。主题爬虫从这些种子U R L开始,分析页面并提取与主题相关度高的链接,形成一个扩展U R L集合。主题相关度计算是主题爬虫的核心模块,它决定了爬虫是否能够很好地保留主题相关的网页和过滤掉与主题无关的网页。目前,主题爬虫常用的相似度计算策略主要分为两类:基于网页链接结构的搜索策略和基于内容评价的搜索策略。胡萍瑞等2根据互联网站点同一版块U R L在结构和语义特征上的相似性,设计了一种基于U R L模式集的主题爬虫,能够在下载页面之前判断主题相关度。于林轩等3将P a g e R a n k算法应用于主题爬虫,构建了一个垂直搜索引擎。需要注意的是,基于链接分析的搜索策略主要依据U R L
11、的构成进行主题相关度判断,忽略了网页正文内容,容易造成“主题漂移”的现象。传统的基于内容评价的搜索策略使用词频和向量空间模型作为核心算法,通过对当前爬取的页面正文内容、网页结构进行分析,判断当前页面是否与主题相关。Y OHA N E S等4采用遗传算法改进局部爬虫算法的缺陷,精确爬取和遍历主题相关的W e b,使爬虫主题更加聚焦。D U等5采用将向量空间模型和语义相似度模型相结合的方法,改进了主题相关度计算模块。近年来,随着深度学习在文本、语音和图像等数据处理领域的不断发展,它在文本分类问题上的应用也已经取得了显著的成果。W o r d 2 V e c、B E R T等词编码技术及T e x
12、t C N N、L S TM等模型的提出和发展极大地提高了分类的准确率。HU A N等6将多种深度学习模型结合使用,提高了分类的准确性。本文将主题爬虫中的主题相关度问题看作是一个文本分类问题,首先收集主题相关的文本数据集并训练模型,其次依据模型计算网页中文本的主题相关度,计算网页的主题相关度。1.2文本情感分析目前,主流的文本情感分析方法可分为基于情感词典、机器学习和深度学习三类。基于情感词典的方法是传统的情感分析方法,它利用情感词典中的情感极性计算目标语句的情感值。国外最早的情感词典是S e n t i W o r d N e t,李寿山等7使用英文种子词典和机器翻译系统构建了最早的中文情感
13、词典。尽管基于词典的分析方法实现简单,但准确率在很大程度上依赖于构建词典的质量,并且构建情感词典需要耗费大量人力物力,对新词的适应能力也较差8。相对于基于词典的方法,机器学习在文本情感分析任务上能够取得更高的准确率。唐慧丰等9使用几种常见的机器学习方法(如S VM、K N N等)对中文文本进行情感分类,通过多次实验比较,研究特征选择方法、文本特征表示方法等对分类结果的影响。刘丽等1 0和唐莉等1 1将条件随机场与依存句法规则等结合,实现了特征与情感词的提取。前者利用复杂句式规则进行粗粒度分析,计算整体情感倾向;后者基于情感词二分网,采用MH I T S(拓展的基于超链接的主题搜索)算法对特征词
14、和情感词的权值进行计算排序。虽然机器学习在文本情感分析方面取得了不错的效果,但是需要专业人员对相关特征进行专业分析和提取且其泛化能力较差。深度学习的自动提取特征的特点弥补了机器学习在特征提取困难,泛化能力差等方面的不足,它只需要对已标注的数据进行多次迭代训练,就可以实现高准确率的文本情感分析。潘红丽1 2基于R N N(循环神经网络)和L S TM(长短时记忆网络)对英文文本中的情感信息 进 行 分 析,准 确 率 达 到 了9 4.5%。B A S I R I等1 3提出了一种基于注意力的双向C N N-R N N(卷积神经网络-循环神经网络)模型(A B C DM),它考虑了时间信息流的双
15、向性,同时结合注意力机制突出重要的词语。近年来,研究者发现W o r d 2 V e c和G l o V e学习得到的是静态的词向量,忽视了上下文的关系,动态词向量算法E L M o和B E R T的提出解决了这种语境问题。刘思琴等1 4和方英兰等1 5利用B E R T预训练语言模型代替W o r d 2 V e c和G l o V e训练词向量,嵌入其他模型后获得了更好的分类效果。2主题爬虫设计(D e s i g n o f t h e m e c r a w l e r)主题爬虫的设计包括四个关键模块:网页获取、网页解析、搜索调度和网页存储。网页获取模块负责从目标U R L获取H TM
16、 L文件。网页解析模块则负责从H TM L文件中提取出当前网页的链接和文本,并根据链接目标与爬虫主题的相关性判断链接的主题相关度。搜索调度模块基于主题相关度或其他规则,制定合理的访问调度策略。网页存储模块将目标网页存储到数据库中。本文所采用的主题相关度计算是基于网页中文本的分类,在爬取新的网页时,先判断该网页包含的文本集合与爬虫主题的相关性,并根据结果计算该网页的主题相关度。这个过程是主题爬虫中至关重要的一环,它保证了爬虫能够针对性地爬取与主题相关的网页。2.1文本主题相关度判断模型2.1.1搭建数据集首先,在综合考虑各个金融网站的用户量和知名度等因素的基础上,筛选出排名靠前的几个U R L作
17、为主题爬虫的种子U R L集合,并从这些网站中获取短文本数据。其次,人工排除与主题无关的文本,将剩余的与主题相关的文本加入语料库,43第 26卷第 11期季玉文等:基于 BERT 的金融文本情感分析与应用并标记为1。此外,从T HU C N e w s、C h n S e n t i C o r p和今日头条新闻等数据集中选择部分非主题分类的数据集加入语料库,并标记为0。经过处理后,得到的语料库样例如表1所示。表 1 语料库样例Tab.1 Corpus sample语料标记商务部:上周食用农产品和生产资料价格有所下降12月9日:“农产品批发价格2 0 0指数”比昨天下降0.3 3个点1沪指振荡
18、收跌1%医药板块再遭重挫1美女如云的俄军:保卫祖国是她们最大的荣耀0“开国上将”都是什么级别的?在军队中担任什么职务?02.1.2文本主题相关判断模型相关度计算采用的模型是B E R T+B i-G R U模型,B E R T模型基于双向T r a n s f o r m e r结构生成上下文感知的动态词向量,能够更好地表示上下文语义信息。首先利用B E R T模型将中文字符转换为包含文本信息的词向量,其次将B E R T输出的词向量输入B i-G R U模型进行特征提取。G R U模型是L S TM模型的一种变种,相比L S TM,G R U只有两个门控开关,其一是将L S TM中的输入门和
19、遗忘门合二为一的更新门,用来控制前一神经元保留的数据量,其二是重置门,用于控制要遗忘多少过去的信息。G R U状态的传输是从前到后的单向传输,由于文本语义信息是由前后文语境综合得出,所以采用包含一个前向G R U和一个后向G R U的B i-L S TM作为特征提取模型,分别学习序列中各个词的左右和上下文信息。G R U合并了L S TM的门控函数,其参数数量要少于L S TM,所以G R U的计算更简单,实现更容易,也更加节省计算资源。2.2网页主题相关度计算对于网页中一个新的U R L链接,相关度计算的步骤如下。(1)判断新的U R L是否已被爬取。(2)分析网页内容,获取其中的所有文本集
20、合。(3)将集合中的短文本依次输入神经网络获得每一个短句是否为与主题相关的分类。(4)将“步骤(3)”中得到的两种分类数目的比值作为最终的主题相关度。2.3主题爬虫设计结合深度学习模型的主题爬虫具体步骤如下。(1)选择1 0个初始种子链接作为种子集合,将之放入等待队列W a i t Q u e u e中。(2)计算种子集合中各U R L的主题相关度。(3)选择集合中相关度最高的网页进行爬取解析并存储其中与主题相关的短句。(4)对“步骤(3)”中选择的U R L解析的新U R L集合进行相关度计算,并选取相关度最高的前1 0个U R L加入种子集,从种子集中删除当前U R L。(5)判断网页存储
21、数量是否到达目标数量,否则重复“步骤(3)”。3文本情感分析(T e x t s e n t i m e n t a n a l y s i s)3.1数据预处理文本情感分析数据集是通过主题爬虫爬取,专业软件数据导出等方式进行收集,并请金融从业专家进行标注。收集的原始文本数据样例如表2所示。表 2 原始文本数据样例Tab.2 Sample of original text data序号时间标题来源链接12 0 2 2-0 5-1 8A股三大指数收涨:创 业 板 指 涨1.6%北向资金净买入5 9亿元证券时报网h t t p:w w w.s t c n.c o m/a r t c l e/d e
22、 t a i l/7 1 5 2 4 8.h t m l22 0 2 2-0 5-1 8A股日报:创业板指涨逾3%资 金抢筹华润双鹤经济参考报h t t p:w w w.j j c k b.c n/2 0 2 2-1 1/0 3/c_1 3 1 0 6 7 2 7 3 7.h t m 针对表2中文本的处理工作主要包括数据清洗、数据标注等。具体来说,首先去除与金融无关的文本数据,其次去除文本数据中多余的符号和连接词等无用字符。再次邀请三位金融从业专家分别标注数据集,按照文本情感偏向分类,积极标1,消极标-1。最后将三位金融从业专家对每一条文本数据的标注值取平均值,大于0取1,小于0取-1,得到最
23、终的分类标注。最终标记完成的文本数据如表3所示。表 3 预处理结果Tab.3 Pretreatment results序号文本数据标注1标注2标注3最终标注1创业板指大涨逾3%新能源、芯片与医疗板块走强11112A股高台滑雪、4 0 0 0家下跌各种“茅”伤亡报告出炉-1-1-1-13德讯证顾:市场延续振荡 但 不 缺 结 构 性机会1-1113.2基于B E R T+B i-L S T M的金融文本情感分析模型本文采用基于B E R T+B i-L S TM的金融文本情感分析模型共包含四层,模型结构如图1所示。图1 模型结构F i g.1 M o d e l s t r u c t u r
24、e53软件工程2023年11月3.2.1B E R T预训练模型获得文本的向量表示本文采用哈尔滨工业大学讯飞语言认知计算联合实验室发布的中文预训练语言模型B E R T-w w m-e x t作为预训练模型。相比原始B E R T模型,随机掩盖1 5%的字进行上下文预测,B E R T-w w m-e x t模型采用WWM(W h o l e W o r d M a s k i n g)方法,将同一个词中的每个字全部掩盖,从而预测整个词,进一步增强了模型对上下文的理解能力和语义信息的学习1 6。该方法是当前中文预训练模型中最为适合的方法,能够为金融文本情感分析任务提供较高的语义信息提取和表达能
25、力。3.2.2B i-L S T M提取特征R N N常用于捕捉序列之间的依赖关系,通过将前一个神经元的输出作为后一个神经元的输入利用序列间的隐藏信息。然而在训练过程中,函数迭代会导致梯度消失或梯度爆炸问题。为了解决这个问题,L S TM被设计出来,它是一种特殊的R N N,具有独特的“门”机制。每个L S TM细胞都包含三个门和一个记忆单元,L S TM细胞的结构如图2所示。L S TM可以有效地处理长序列的训练,并在文本情感分析中表现出色。图2 L S TM细胞结构F i g.2 C e l l s t r u c t u r e o f L S TM遗忘门用来决定前一个细胞中信息的保留或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 金融 文本 情感 分析 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。