面向股票的财经新闻关联度研究——基于新闻价值量化理论.pdf
《面向股票的财经新闻关联度研究——基于新闻价值量化理论.pdf》由会员分享,可在线阅读,更多相关《面向股票的财经新闻关联度研究——基于新闻价值量化理论.pdf(13页珍藏版)》请在咨信网上搜索。
1、科 技 情 报 研 究SCIENTIFIC INFORMATION RESEARCH第5卷第3期Vol.5No.32023年7月Jul.2023面向股票的财经新闻关联度研究基于新闻价值量化理论石静1,2张斌1,2陈烨1,21.南京大学数据智能与交叉创新实验室,南京 2100232.南京大学信息管理学院,南京 210023摘要:目的/意义 为了从海量财经新闻中快速、准确识别与特定股票相关的重要信息,充分挖掘其潜在价值,文章开展面向股票的财经新闻关联度研究。方法/过程 利用自然语言处理与机器学习方法实现新闻全文本分析,细化到词语粒度挖掘并量化股票-财经新闻关联关系。在此基础上,基于新闻价值量化理论
2、,建立“面向股票的财经新闻关联度测度体系”。结果/结论 构建了融入新闻价值评价的股票-财经新闻关联度测度体系,实现了个性化、自动化的股票-财经新闻关联程度测量;进一步分析了各个维度指标对关联度测度的影响。关键词:新闻评估;文本挖掘;股票市场;语义关联中图分类号:G353文献识别码:A文章编号:2096-7144(2023)03-0036-13DOI:10.19809/ki.kjqbyj.2023.03.004收稿日期:2023-03-31修回日期:2023-05-05基金项目:江苏省“双创博士”(编号:JSSCBS20210044);国家自科基金面上项目“基于注意力机制的学术信息动态推荐研究”
3、(编号:72074109)。作者简介:石静(ORCID:0000-0003-1863-1559),女,1995 年生,博士研究生,主要研究方向:知识关联与发现,E-mail:;张斌(0000-0002-5591-7874),通讯作者,男,1984 年生,副教授,主要研究方向:数据智能与知识系统工程,E-mail:;陈烨(0000-0002-7619-3246),女,1990 年生,助理教授,主要研究方向:数据挖掘与用户研究,E-mail:。1引言信息不对称是股票市场上的严重问题,对各类参与者的交易行为和投资策略影响极大,易引发投资者与媒体的非理性行为,降低资本市场信息效率1,带来内幕交易、逆向
4、选择等经济难题。同时催生一些无法用传统金融理论解释的市场“异象”,如周末效应、IPO 抑价等。而财经新闻不仅涉及上市公司的经营状况、各行业政策条例,还包含经济形势、政策风向等信息。财经新闻内容更丰富、表述更客观、体量更大、传播更快,可以帮助缓解信息不对称2问题,已成为各类股票投资者的主要信息来源。但网络技术与新媒体的普及,使得新闻数量激增、质量不一、来源多样、话术庞杂。一方面,造成个体用户无法快速、准确地获取个体所需信息,加剧新闻生产和需求之间的矛盾:供量巨大、需求迫切,且苦于无法打362023年7月破供需屏障,将正确的信息在正确的时间展示给正确的人;另一方面,提供咨询服务与金融数据分析的机构
5、主体面对“数据海洋”也无从下手,导致资源闲置与浪费。针对个体用户的问题,已通过推荐系统解决,但机构主体如何利用大量财经新闻数据的问题,仍未得到很好地解决。机构主体首要任务是如何从海量财经新闻中自动识别出与特定股票相关的高价值信息。新闻价值量化研究常见于新闻传播领域,传统方法大多直接对新闻事实或新闻文本评估,未考虑主体差异性,但事实上,对于不同主体而言,新闻价值是不同的。其次,新闻价值评估方法大多依赖量表和人工打分,主观性较强,且依赖人工带来的高投入和低效率,也无法适应当前的大数据环境。这就导致有效信息无法被准确评估和抽取,新闻价值被极大湮没。新闻价值属于关系范畴,包含2个主体(传者和受众)和
6、2 个客体(新闻事实与新闻文本)的关联。因此,新闻价值量化,可以从利用者角度判定蕴含在新闻中的主、客体关系,进一步指导关联度测量与高关联新闻抽取,实现面向特定主体的个性化度量3。基于此,本文基于新闻价值量化理论,深入探析了股票-财经新闻关联关系的含义,设计了融合多源信息的股票-财经新闻关联关系抽取与测度框架;并利用文本挖掘的相关技术方法,实现了兼具个性化和全面性的股票-财经新闻关联程度测量。2相关研究概述2.1新闻价值量化理论新闻价值是事实所具有的、能满足社会与公众的新闻需要的要素的总和4。作为新闻客体(新闻事实与新闻文本)与新闻主体(传者和受众)之间的一种关系,新闻价值可以被量化,新闻价值量
7、化就是衡量这种关系程度的研究。对新闻价值量化的探讨最早开始于1690年,托比亚斯 朴瑟5提出“应该把那些值得记忆和知晓的事件挑选出来加以公开报道”。20世纪 20 年代,我国徐宝璜、任白涛、潘公展等学者也对新闻价值开展了诸多研究,例如:有新闻价值是事实本身所包含的、引起各类人群共同兴趣的素质集合的“素质说”6;有新闻价值是一则新闻所产生的社会效应的“功能说”7;有新闻价值是新闻生产者判断和选取真实事件的准则的“标准说”8等;也有融合事实素质、选择标准以及社会效应的“源流说”9等。目前,对于新闻价值的内涵及要素仍众说纷纭。但在以服务为目的的新闻价值量化研究中,仍以基于新闻受众角度的价值评价为主。
8、新闻价值量化指标体系常基于新闻价值要素构建。加尔通10等于 1965 年提出,新闻价值 12 要素具有开创性的意义;托尼 哈库普等11在其基础上,不光考察了主流媒体的新闻选择,还对 Facebook、Twitter等社交媒体新闻的分享情况进行研究,提出了新的、符合当代媒体特征的 12 要素。而国内认可度较高的“五要素说”,即时新性、重要性、接近性、显著性、趣味性,则是基于美国学者弗莱德 希伯特12的理论建立,已成为新闻业界、学界判断新闻价值的重要参考。以“五要素说”及其扩展框架所构建的量化体系也占多数。面向受众的新闻价值量化,需要将每个受众与每条新闻之间的关系程度数字化,根据数字化方法的不同产
9、生了各种量化方法。其中,使用最多的是测评量表和人工打分结合的方法,一般是将关系程度划分为多个等级,以 5级、7级为主,之后选择特定受众打分。例如有学者从真实性、新鲜性、接近性、有益性和重要性5个方面,选择部分受众对各价值要素打分,结合发行量和传播广度计算传播值,对新闻价值进行量化13。这种方法操作简单,但受打分者主观意识影响较大且难以在较大规模数据集上实现。也有学者将新闻价值公式化,结合数学模型计算指标得石静,张斌,陈烨:面向股票的财经新闻关联度研究37科 技 情 报 研 究第5卷第3期分。例如根据指标体系建立等级函数、设计和计算评估因子实现指标量化。这种量化方法相对客观,但在量化过程中也或多
10、或少依赖人工判断,且无法针对不同受众实现“千人千面”的个性化度量。综上所述,从新闻价值评价角度来看,基于新闻受众评估新闻价值是主流观点;从评价要素来看,美国学者弗莱德 希伯特的“五要素说”是重要参考。由此,本文基于新闻价值理论,构建面向股票的财经新闻关联度测度体系,以期为财经新闻使用者定位高价值信息。2.2股票-财经新闻关联关系研究股票与财经新闻之间的关联关系,不等同于股票市场与财经新闻之间的关联关系,前者是客观存在的本质关系,而后者是在前者的基础上,通过信息传播影响参与者的认知和情绪,调节其行为而建立的。因此,财经新闻与股票的关联是更本质、更基础的客观联系,而财经新闻与股票市场的关联依托于财
11、经新闻与股票间的关联形成。本文关注股票与财经新闻的客观联系,但其大多蕴含于对财经新闻与股票市场关联的研究中。这些研究对股票与财经新闻关系的发现具有启发意义。基于信息影响用户行为的2种方式,相关研究可以分为:基于新闻内容、属性信息的研究和基于新闻中情感信息的研究14。新闻内容和属性信息可概括为数量、质量、内容3 大类,早期研究以新闻数量特征为主。近些年随着文本挖掘技术的发展,学者开始关注新闻内容特征,而对于质量指标的研究仍较少。新闻数量是反映媒体关注度的重要指标,且便于量化,常常作为一项重要指标纳入研究。但财经新闻数量与股票及股票市场之间并非简单的线性关系,会因所关注的变量差异呈现非线性15-1
12、7,1148、非同步性特征18。财经新闻在内容方面,使用较多的是文本主题、类型等特征,尤其是新闻主题及主题分布规律19常作为文本内容的代表,用于建立财经新闻与股票的关系。此外,不同类型的财经新闻与股票及股票市场之间的关系也具有异质性,相比单一类型财经新闻,多类型财经新闻与股价之间的关联性更强20。关于财经新闻质量的研究则涉及时效性21、可信度、相关性22等特征。基于情感信息的研究,是指通过挖掘新闻中蕴含的情感信息(包含情感极性与强度)及其大众引导性,即媒体引致的情绪23来分析新闻与股票之间的关联,包含情感极性与强度。首先,情感极性常被划分为积极、消极和中性,依赖情感词典对单个词的极性进行判断后
13、,计算得到整体的情感倾向。不同方向的情感信息会带来不同的影响,正面情绪往往带来价格收益类指标的增长24,波动类指标的下降;而负面情绪主导时,情况则相反。情感强度的测量多通过划分修饰词的情感级别实现25,不同的情感强度会相应增强或削减财经新闻对股票的影响程度。情感极性和强度也可以结合使用,常见做法是将强度作为极性的权重来量化关联程度。总之,当前研究的关注点主要在财经新闻与股票市场的关系,对财经新闻与股票之间客观关系的探讨一般蕴含在上述问题中,较少被单独研究,且大多研究中联系的建立仅依赖单维度信息,难以全面刻画关联关系。3研究设计3.1指标体系构建本节面向股票构建财经新闻关联度测度体系。此体系基于
14、新闻价值的哲学内涵,结合股票市场的研究情境与用户需求特点构建,并融入多维度的股票-财经新闻关联关系,兼具个性化与全面性。主要包括2个部分:指标体系构建和指标量化方法。测度体系的构建方法众多、标准不一,需要根据具体问题的需求开展。在本文研究情境下,从受众角382023年7月石静,张斌,陈烨:面向股票的财经新闻关联度研究度构建更为合适,即将股票及其代表的上市公司看作财经新闻的受众,以此为出发点测度财经新闻与股票的关联度,量化财经新闻对不同受众的价值。在新闻价值理论方面,采取国内外认可度较高的“五要素说”作为基本框架,包含接近性、显著性、重要性、时新性和趣味性。由于“趣味性”这一因素主观性色彩较浓重
15、,并且不是财经新闻的主要特征,经权衡决定舍弃这一要素。本文结合问题情境对接近性、重要性、显著性、时新性4种要素的内涵进行了重新定义,见表1。表1 与股票关联的财经新闻关联度测度指标指标名称接近性重要性显著性时新性指标内涵财经新闻与股票及其实体的行业/概念/地理/利益的接近性,即与股票的相关性财经新闻影响股票的多少、涉及利益大小、影响时间长短、影响空间广度构成财经新闻事实各种要素的知名度和显要度财经新闻报道相对于事件发生时间的及时性,与其他新闻相比的新颖性指标量化主要利用机器和统计学习技术实现,原因如下:一是,在本文研究情境下,股票与新闻之间的关联是客观关系,应尽量避免个体的主观判断;二是,机器
16、处理更适应当前的大数据环境。评价指标可以分为2部分:一是,仅涉及新闻自身的属性指标,包括重要性、显著性和时新性,通过离散化实现特征标签化;二是,同时涉及财经新闻和股票的个性化指标,即接近性,借助核心词集与关联关系矩阵量化。3.1.1接近性接近性,用以衡量不同股票与不同新闻之间的近似程度,通过构建股票-财经新闻关联关系矩阵量化。股票与财经新闻之间关联的中介是实体名称,即股票代码所代表的各个企业。股票代码与企业的关系简单直接、一一对应,但财经新闻与企业的关系错综复杂,涉及领域、行业、政策、关键人物等多个层面。本文选择最重要、最具代表性的实体、行业和概念 3 个维度,抽取财经新闻与股票的关联关系,如
17、图1 所示。实体是指每支股票所对应的上市公司,通过企业名称表示;行业是指上市公司所属的行业分类,通过行业分类词表示;概念是指股票所具有的某种特别内涵,常以话题词的形式体现。进一步,将“实体词+行业词+概念词”汇总,构成核心词集。其中,通过实体词建立的连接近似性较高,而通过行业、概念词建立的连接近似性较低,所有关联关系程度均标准化为01的概率值。图1 股票与财经新闻关联关系框架3.1.2重要性重要性,以给受众、社会产生的影响为度量尺度,主要包括:事实影响人数的多少、涉及人们利益的大小、影响时间的长短、影响空间的广度等。但这些很难从财经新闻文本中提取,有学者为我们提供了另一种衡量事件重要性的标准,
18、即考察能够产生重要新闻事实的基本范围(主要指新闻主题类型)。接近性指标中已涵盖主题内容,此处的重要性指标主要衡量主题重要性,借助新闻栏目分类实现。栏目分类标准不一,但大同小异。本文选取一种常见分类,共 4 大类,即市场类、泛产品类、新闻资讯类和其他,下分 27 小类。对于股票市场各主体来说,泛产品39科 技 情 报 研 究第5卷第3期类中的股票类信息与其直接利益相关,定为最高级别 1。结合专业人士建议,将其余栏目分类按照“财经新闻资讯类市场类泛产品类其他”进行重要性排序。据此,信息级别划分,见表2。表2 新闻栏目级别划分表注:InfoLevel:新闻栏目重要性级别,1代表最高级别,5代表最低级
19、别。InfoLevel12345Category5/股票1/要闻,2/宏观,3/国际,14/产经,15/公司,21/滚动新闻4/证券市场,19/港股,20/美股,22/新三板,26/科创板6/基金,7/债券,8/期货,9/私募,10/外汇,11/黄金,12/理财,13/衍生金融,16/银行,17/保险,18/信托,23/期权,24/中国存托凭证,25/股票期权27/其他3.1.3显著性显著性,衡量构成新闻事实各种要素的知名度和显著度,主要包括新闻主体、事件、时间、空间等方面的显著性。对于新闻来说,其发布机构的权威性是衡量该指标的重要方面,例如,在内容主体差不多的情况下,一篇由“新浪财经”发布的
20、财经新闻比“牛股王”发布的财经新闻具有更高显著性。由此,借助新闻发布媒体的权威性度量“显著性”。为衡量该指标,爬取网站(https:/ 个关键值。其中,T1 可直接从财经新闻数据中获取,T2 则需要从新闻文本中抽取时间关键词,结合规则进行推理。进一步,将“T1-T2”,即 2 者之间的时间差,划分为 5 个等级。综上,得到面向股票的财经新闻关联度测度体系,见表3。3.2数据收集与处理3.2.1数据收集3.2.1.1股票数据通过 Python 爬取聚宽数据平台(https:/ 年 12 月 31 日全部 A 股数据。去除信息缺失严重的股票,最终得到 1 173 支。字段包括:股票代码、股票名称、
21、行业分类信息、股票概念信息等,进行数据清洗和梳理后,以二维表形式存储。3.2.1.2财经新闻数据由于2005年的股权分置改革对股市造成了较大影响。截至 2007 年初,改革大致完成,因此选取 2007年后的数据。数据来自于上海聚源数据服务有限公司,随机抽取 2017 年 1 月 1 日至 2019 年 12 月 31 日由网络财经媒体发布的新闻 9 000 条。字段包括:新闻 ID、标题、摘要、正文、信息发布时间、媒体出处、媒体出处代码、撰写作者、撰写机构、撰写机构代码、栏目分类等。3.2.1.3其他数据爬取网站(https:/ 2 003 个核心词,见表4。表3 与股票关联的财经新闻关联度指
22、标量化方法注:S-N_Score:接近性分数;Mag_Score:重要性分数;Sig_Score;显著性分数;Tim_Score:时新性分数;MediaRank:媒体排名指标名称接近性重要性显著性时新性量化指标S-N_scoreMag_scoreSig_scoreTim_ score量化方法基于股票-财经新闻关联关系矩阵InfoLevel=1InfoLevel=2InfoLevel=3InfoLevel=4InfoLevel=50.8 1/MediaRank1 1.00.6 1/MediaRank1 0.80.4 1/MediaRank1 0.60.2 1/MediaRank1 0.40 1/
23、MediaRank1 0.20dT1-T21d1dT1-T22d2dT1-T23d3dT1-T24d4dT1-T2Mag_Score=5Mag_Score=4Mag_Score=3Mag_Score=2Mag_Score=1Sig_Score=5Sig_Score=4Sig_Score=3Sig_Score=2Sig_Score=1Tim_Score=5Tim_Score=4Tim_Score=3Tim_Score=2Tim_Score=1表4 核心词集特征分类Entity_infoIndustries_infoConcepts_info特征描述股票对应的上市公司全称股票对应的申万行业分类词股
24、票对应的聚宽平台股票概念词核心词数量共计1 173词共计365词,去重后299词共计576词,去重后531词数据收集与处理流程,如图2所示。3.2.3关联关系抽取3.2.3.1股票-核心词集关联矩阵构建将股票与核心词集的关联关系转化为 01 矩阵,即股票-核心词集关联矩阵。在该矩阵中,若股票与实体词集中的词一致,则值为1;否则,值为0,见式(1)。由于股票与核心词集中的实体词、行业分类词和股票概念词都是同一来源的规范词汇,因此,只需检索便可精确匹配,最终得到股票-核心词集矩阵(1 1732003维)。S-C_scorei,j=1,该股票的实体名称、所属行业、所属概念与核心词集相同0,否则,()
25、i)0,1173,j 0,2003)(1)石静,张斌,陈烨:面向股票的财经新闻关联度研究3.2.3.2财经新闻-核心词集关联矩阵构建财经新闻-核心词集关联矩阵更为复杂,新闻文本提到实体名称与仅涉及相关行业与概念应当具有不同的重要性。因此,此处将矩阵分为2部分:财经新闻-实体词矩阵与财经新闻-主题词(包含行业分类词与股票概念词)矩阵。财经新闻-实体词矩阵构建首先需通过自然语言处理中的 NER(命名实体41科 技 情 报 研 究第5卷第3期识别)从新闻文本中抽取实体。结合任务特征,当前效果较好的是BERT+RNN/DNN+CRF 模型框架26,由于 BERT 每一层对文本的理解都有所不同27,为比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 股票 财经新闻 关联 研究 基于 新闻 价值 量化 理论
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。