无监督的财经新闻情感标注和情绪指数生成_邵元海.pdf
《无监督的财经新闻情感标注和情绪指数生成_邵元海.pdf》由会员分享,可在线阅读,更多相关《无监督的财经新闻情感标注和情绪指数生成_邵元海.pdf(12页珍藏版)》请在咨信网上搜索。
1、财经新闻报道作为金融市场重要的信息来源,其情感倾向与市场走势有着密切联系。然而财经新闻具有专业性、客观性、无标注的特点,对其情感倾向进行精准量化往往十分困难。因此,本文设计了两阶段的财经新闻情绪指数提取方法,在第一阶段,针对财经新闻无标注的问题,本文通过改进的SO-PMI算法构造财经新闻领域情感词典来对新闻进行无监督标注;在第二阶段,为了提取精确的新闻情感强度值,本文构造了新闻情绪指数,先利用已标注的新闻数据训练情感分类模型从而生成类别概率,然后通过概率值计算得到情绪指数。为了进一步验证该方法的有效性,将生成的情绪指数结合股市历史价格数据来对上证股指波动趋势进行预测。结果表明,基于注意力机制的
2、预测模型在添加情绪指数变量后,准确率提升了3%5%,说明新闻情绪指数对于股指波动有较好的表征作用。关键词 财经新闻;无监督文本标注;情绪指数;注意力机制中图分类号 F832.5 文献标志码 A 文章编号 1004-1710(2023)03-0084-12DOI 10.15886/ki.hnus.202112.1611一、引 言新闻媒体对于金融市场信息的传播起着重要的作用,对于普通投资者来说,获取市场信息的第一渠道往往是新闻媒体报道中的财经资讯。这些资讯在发布后会影响投资者的市场预期和交易行为,从而引起股市的波动。2020年初,武汉市政府发布“新冠”疫情通告后,互联网媒体立刻报道了大量有关疫情感
3、染情况和政府管控的新闻1,投资者第一时间从新闻中感受到生产生活将受到疫情的影响,几乎同时投资者恐慌情绪的蔓延导致了股市开始剧烈波动。2021年7月,国务院发布了针对校外培训机构的“双减”政策,该新闻在互联网媒体的发酵下2,引起“新东方”“好未来”等教培股集体暴跌,给市场造成了冲击。近年来,越来越多研究者3-9将反映基本面的新闻信息应用于金融研究领域,进而发现新闻对金融市场走势有着重要的影响。刘海飞和许金涛(2017)7利用TF-IDF文本表征技术和事件研究法,研究了不同种类的异质性财经新闻对股票短期异常收益率的影响。宋丹丹和张东(2018)8采集了大中城市机关报和都市报关于房地产市场的新闻报道
4、,利用线性支持向量机对新闻标题进行文本分析并提取出房地产市场关注度和房地产市场情绪变量,发现媒体报道的情绪因素对市场有着显著的影响作用。齐甜方等(2021)9通过基于Seq2Seq的神经网络模型来挖掘新闻文本情绪特征,并利用自动文本摘要技术和情感挖掘技术来预测股票波动,取得了较高的预测准确率。从已有研究可以看出,自然语言处理技术在财经新闻分析领域有着广泛的应用,特别是在情感分析领域,如今的深度学习模型在基于大量已标注样本的情况下,已经能达到十分惊人的情感特征表示能力。但是,由于财经新闻具有无标注、专业性、客观性10-11的特点,许多研究者在使用人工智能模型分析新闻情感的时候,往往选择人工标注的
5、方式来获取训练数据,这无疑会给研究工作带来困难。从已有文献来看,通过构造情感词典可以实现文本的无监督情感标注,Turney et al.(2003)12根据收稿日期 2021-12-15基金项目 国家自然科学基金委面上项目(11871183);国家自然科学基金委地区项目(61866010);海南省自然科学基金高层次人才项目(120RC449)作者简介 邵元海(1983-),男,新疆伊犁人,海南大学管理学院教授,博士,博士生导师,主要从事支持向量机、机器学习和最优化方法及应用研究。中国改革发展研究84邵元海等:无监督的财经新闻情感标注和情绪指数生成点互信息(Pointwise Mutual In
6、formation,PMI)和潜在的语义分析(Latent Semantic Analysis,LSA)两种不同的词关联统计方法测量文本的语义方向,并以此来扩展基础情感词典。Li et al.(2020)13通过比较四种新闻情感值与股票市场技术指标结合后的预测效果,发现Loughran-McDonald金融词典生成的新闻情感特征显著提升了股市预测的准确性。聂卉等(2020)14基于点互信息算法对特征级情感极性进行自动判别,引入了依存句法分析语句间的情感转折来修正经典的点互信息算法,从而对上下文约束下的用户观点进行情感预测。姜富伟等(2021)15在Loughran-McDonald金融词典的基
7、础上通过人工筛选和word2vec算法扩充,构建了一个更新、更全面的中文金融情感词典。从上述研究可以看出,目前有许多的主流情感词典,但仍然缺少财经新闻领域情感词典,此外,研究者主要关注构建情感词典的语料质量、分词算法、词典拓展算法等方面,对于如何结合情感词典对中性和情感模糊财经新闻计算精确情感倾向值的问题,目前研究尚不深入。因此,为了实现财经新闻的无监督情感标注以及提取精确的新闻语义情感倾向值,本文设计了两阶段的财经新闻情绪指数(以下简称情绪指数)构造方法,同时提出了构建全新的财经新闻领域情感词典来解决财经新闻的无标注问题。首先,本文丰富了词汇情感倾向判别算法。该算法针对财经新闻专业性、客观性
8、、无标注的特点,在传统情感倾向的点互信息算法(Semantic Orientation from Pointwise Mutual Information,SO-PMI)12基础上做了进一步研究,解决了传统方法计算新闻分词情感值时出现的正负面情感词不平衡、正负面词共现等问题,并完成了财经新闻领域情感词典的构建。其次,本文创新性地解决了中性以及情感倾向模糊新闻文本的情感倾向值计算问题,通过构建的新词典对大规模财经新闻进行无监督标注,对新闻中正负面词比例较高的新闻分别赋予正负标签,随后将已标注情感标签的新闻语料作为训练数据代入到模型中训练新闻情感分类模型,最终通过模型得出的新闻类别概率值计算新闻情
9、绪指数;对于中性以及情感倾向模糊的新闻文本,根据模型的类别概率预测结果即可生成较为准确的情感指数值。最后,本文拓展了文本情感分析技术在金融市场上的应用研究,将量化得到的情绪指数应用于股指涨跌预测。实验结果表明,在股指预测模型中加入情绪指数变量后,模型的分类准确率显著提高,说明新闻情绪指数变量对于股指波动有较好的表征作用。二、构建财经新闻领域情感词典本文从财经门户网站采集了2019年1月1日到2021年2月28日期间内的235931条财经新闻快讯,并在此基础上利用算法自动构造财经新闻领域情感词典。词典的构建过程主要可以分为两个部分。第一个部分如图1所示,包括先对新闻进行初始分词,接着利用新词发现
10、算法16获取财经新闻领域内新词,最后更新Jieba分词工具词库(https:/ 新闻分词器更新流程图图2 财经新闻分词词云示例图85第3期2023年海南大学学报(人文社会科学版)进一步分析分词结果可以看出,分词工具无法完整切分出例如“由涨转跌”“新理念”“冲高回落”“补短板”等财经新闻领域内新词。为解决分词过程中Jieba分词无法识别部分新词的问题,本文对初始分词结果使用新词发现算法寻找可能的财经新闻新词。该方法通过衡量词语的内部结合度和边界自由度来发现新词。词语内部结合度通过点互信息公式来度量,公式如下所示:PMI(x,y)=log2p(x,y)P(x)p(y)(2.1)其中,x,y表示两个
11、相邻字串,p(x,y)表示x,y在财经新闻句子中相邻两个词语出现的概率,p(x)和p(y)分别表示某两个新闻词语各自出现的概率。如果PMI 0,表明x和y从信息论的角度来看是一个整体,字符串xy可能是一个新词。其次,新闻字符串左右两边的自由度也是判断这个字符串是否可以向左右两边拓展的重要依据,例如“下子”“巧可”“证监”它们的词内部结合度很高,却不是一个完整的词语。因此,我们对字符串片段左右两边的信息熵的计算来判断字符串的边界自由度,左信息熵计算公式如下:Hi(W)=-wl sp(wl|w)log2p(wl|w)(2.2)这里,p(wl|w)表示候选词w出现的条件下左邻字wl出现的概率,同理也
12、可计算字符串的右自由度。对于字符串来说,如果边界的自由度越小,那么这个字符串就可以停止向左右两边拓展,而它自身构成的整体则是一个新词。经过新词发现并通过阈值筛选后,在Jieba分词工具词库中加入发现的新词,从而完成对Jieba分词器的更新。接下来,更新后的分词工具将用来对新闻文本进行再次分词,从而提高分词的准确性。图3展示了新词发现前后分词效果示例,通过新词发现算法,在已有分词的基础上可以进一步识别出例如“由涨转跌”“冲高回落”“大湾区”“健康码”等一系列新词。分词工具在加入新词后,进一步提升了财经新闻文本分词的质量。构建财经新闻领域内情感词典流程的第二部分如图4所示,本文提出新的新闻词汇情感
13、倾向点互信息(News Vocabulary Semantic Orientation Pointwise Mutual Information,N-SO-PMI)算法来对财经新闻重新分词后的词语进行情感倾向判别,判别过程结合了种子情感词和分词的向量化表示来共同计算词语的N-SO-PMI值。接着,根据N-SO-PMI值将判别得到的正负面情感词汇和已有基础情感词典合并,完成对基础金融情感词典的自动扩充,最终构造出财经新闻领域内情感词典。图3 新词发现前后分词效果示例86邵元海等:无监督的财经新闻情感标注和情绪指数生成基础情感词典15中的情感词和新闻分词的交集将构成财经新闻种子情感词,如“创新”“
14、繁荣”“廉政”“暴跌”等词同时出现在财经新闻语料和基础情感词典中,将它们作为种子情感词。而部分基础情感词词语如“疤痕”“绊倒”“联姻”等未出现在财经新闻语料中,将它们删去。经过上述处理后共产生了5682个种子情感词,包括正面词汇3226个,负面词汇2456个。表1给出了正负面种子情感词汇示例,这些情感词在新闻语料和基础情感词典中同时存在并且情感极性比较明确。接下来将新闻分词词汇作为候选情感词,通过计算这些候选情感词与种子情感词的N-SO-PMI值进行情感判别,再根据判别结果对基础情感词典进行扩充,从而得到财经新闻领域情感词典。本文提出的N-SO-PMI算法通过计算候选情感词和种子情感词之间的余
15、弦相似程度和点互信息值,结合两者来判断词语情感类别。点互信息值利用共现概率表示两个单词之间的相关性,二者相关性越大,则越有可能属于同一个情感类别,其计算公式如下:PMI(w1,w2)=log2p(w1,w2)P(w1)p(w2)(2.3)其中,w1表示候选情感词,w2表示情感词典中的已有情感词,p(w1,w2)表示w1和w2在新闻文本中共现的概率,p(w1)、p(w2)分别表示情感词w1和w2在新闻文本中各自出现的概率。本文根据词频估计情感词出现的概率,通过计算固定文本长度中候选词和情感词的共现频数来估计共现概率。此外,词语的文档频率也反映了词汇的重要性,如图5所示,图中统计了不同情感词的文档
16、频率,例如“发展”“增长”等词语在采集的新闻中的文档频率较高,而“诟病”“幌子”等某些突发事件或新闻中的个别专有名词出现的文档频率较低。由于词语之间的文档频率存在较大差异,导致一些有明显情感倾向但文档频率较低的情感词被忽略。因此,本文在用词频估计词语概率时引入了文档频数敏感因子,公式如下所示:i=ni,w/nwnw/n(2.4)其中,i代表候选词i的文档频数敏感因子,ni,w表示候选词和情感词的共现文档频数,nw是情感词的文档频数,n代表文档总数。乘上i值,点互信息算法考虑了词语的词频和文档频率因素,计算结果更加合理。此外,在候选词情感值计算过程中,可能会有正负面词共现的情况。例如词语“旺季不
17、旺”出现在负面新闻语料中,该词语上下文语境中充斥大量的负面倾向词汇,可能造成“旺季”被划分到负面词典中。因此,本文利用预训练模型17中的词向量表征,计算候选词和情感词的语义相似度来避免正负类词汇被划分到一类词典中,语义相识度计算公式如下:图4 财经新闻情感词典构建流程图表1初始种子情感词示例积极种子词消极种子词发展、繁荣、增殖、一流、榜样、促进、大受欢迎、独创性、繁荣、鼓励、活跃、欢呼雀跃、合作、荣获、赢得、遵纪守法巨亏、涉嫌、资不抵债、腐败、暴跌、被告、剥离、不合法的、撤销、低迷、动荡、反叛者、高利贷、减产、破产、伪造、冻结87第3期2023年海南大学学报(人文社会科学版)i,w=VwiVw
18、|Vwi|Vw|(2.5)其中,Vwi和Vw分别代表预训练模型中候选词和情感词的向量表征,i,w可以看作两个词语在高维语义空间中的余弦相似度。由于预训练模型是在大规模文本语料上训练得到,其产生的词向量表征蕴含了词语的语义信息,能够使相似度计算结果更加准确。最后,本文在计算过程中发现当情感词典存在正负面词不平衡的现象时,会影响点互信息的计算结果。如图6所示,该图统计了部分候选情感词对于情感词典中正面情感词的覆盖比例,可以看出不同候选词之间比例差距较大,例如“建设”“创新”等词汇和35%比例的正面词汇共同出现过,“短板”“反常”等词语与超过20%比例的正面词同时出现过。由于正负面情感词的不平衡,候
19、选词和情感词的点互信息值经过累加后无法正确反映候选词情感倾向。例如:“在美元上涨的同时,通常与其走势反向的黄金价格周四也反常地同步走高,一度上破1530美元关口。目前,金价在过去七个交易日已有六天上扬,惯例的跨年攻势无疑已经开启!”,这则新闻中的候选词“反常”与情感词“上涨”“走高”“上扬”等正面词出现在同一文本片段中,这些正面词都会提高“反常”的正向点互信息值。因此,本文在计算候选词最终点互信息值时,通过除以候选词的情感词覆盖个数得到平均值而不是累加值来计算情感倾向。图5 情感词文档频率示例图图6 候选词覆盖情感词比例示例图200001500010000500050250文 档 频 率175
20、2117000926086008423情感词2525242323发展 增长 创造 下跌 风险 诟病 幌子 挪用资金 疑点 申诉建设创新创造反常受益调查短板特殊投资财经新闻候选词覆盖情感词比例01020304015222325272931323588邵元海等:无监督的财经新闻情感标注和情绪指数生成为解决上述问题,本文通过如下新闻词汇情感倾向点互信息(News Vocabulary Semantic Orientation Pointwise Mutual Information,N-SO-PMI)公式对词语进行情感倾向值计算来扩充基础情感词典:(2.6)其中,wi代表候选词,wp和wn分别表示正
21、类和负类情感词,i和i,*分别表示本文提出的文档频数敏感因子和语义相似度因子,Nipos和Nineg分别代表基础词典中与候选词i在同一长度文本中共现过的正面词和负面词数量。与传统的点互信息算法公式12相比,公式(2.6)引入了文档频数因子(2.4)和语义相似度因子(2.5),并且使用平均值来计算最终值。公式(2.6)充分考虑了候选词和情感词在语料中的词频和文档频率因素,并对正负面词在语料中共现的问题做了修正。通过公式(2.6)计算新闻文本中候选情感词的N-SO-PMI值,再根据阈值选取词语与基础情感词典合并得到财经新闻领域的情感词典。为了最大限度避免引入噪声情感词,在实际应用中则会将阈值调高,
22、将整个情感词分类算法迭代多次进行,直到新计算出的候选情感词点互信息值低于设定的阈值或者达到模型最大迭代次数,即完成情感词扩充。本文生成的最终情感词典共包括正类词7678个,负类词9782个。合并后的财经新闻领域情感词典示例如图7所示,左边为根据阈值截取的正面情感词汇示例,右边为截取的反面情感词汇示例,字体的大小反映了该词语在语料中的词频。相比于基础情感词典,积极金融情感词增加了4452个,消极金融词汇增加了7326个,包括“肺炎疫情”“贸易战”“负增长”“ST”“对外开放”“以点带面”“阔步”等新的金融情感词都被纳入其中。三、财经新闻情绪指数生成在生成新闻情绪指数时,由于财经新闻的专业性、客观
23、性,大量中性及情感模糊新闻的情感倾向难以被量化。因此本文通过训练情感分类模型计算新闻的情感类别概率并将其转化为情绪指数值。具体流程如图8所示,首先利用上文中生成的财经新闻领域内情感词典建立自动标注模型,完成对新闻语料的自动标注。随后利用已标注正负情感标签的新闻语料训练神经网络情感分类模型。最终,通过神经网络情感分类模型得到新闻类别预测概率,并根据概率值计算情绪指数。由于中文用语中出现“不算好”,“不太高”等“委婉”的否定结构表达方式,常常会提高正面词出现在负面文本中的比例,使得基于情感词典的情感判别方法会失效。因此,图8在自动标注模型中还引入了否定结构词典和程度副词词典,通过否定词词典识别否定
24、结构表达方式,才能准确判断句子的情感倾向。程度副词词典根据不同的情感强化等级可以分成五组不同权重值,如图9所示,词语的情感权值等于-1表示否定结构词,情感权值大于1时表示情感强化副词。通过计算情感词前面的否定词数量,来处理语法结构中的否定和双重否定问题,新闻情感词语的情感倾向会因为否定结构词发生反转。图7 财经新闻领域内情感词典词云示例图89第3期2023年海南大学学报(人文社会科学版)接下来,在本文构造的情感词典、程度副词以及否定结构词的基础上,我们对23万条新闻数据进行了无监督情感标注,由于基于情感词典的无监督标注仅仅生成了新闻的情感类别标签,还没有生成精确的情感强度值。为了解决上述问题,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 监督 财经新闻 情感 标注 情绪 指数 生成 邵元海
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。