基于知识图谱技术的上市企业产业链风险预测.pdf
《基于知识图谱技术的上市企业产业链风险预测.pdf》由会员分享,可在线阅读,更多相关《基于知识图谱技术的上市企业产业链风险预测.pdf(8页珍藏版)》请在咨信网上搜索。
1、金融数据安全与治理Financial Data Security and Governance基于知识图谱技术的上市企业产业链风险预测董士豪,郑3朗,王特,于晓娟,王耀君(中国农业大学信息与电气工程学院,北京10 0 0 38)摘要:随着产业互联网的飞速发展,面对海量的产业数据,构建知识图谱等自然语言处理应用需求逐渐增长。产业信息的有效管理和挖掘有助于及时发现所面临的风险和机遇,产业链风险预测可以为监管部门提供产业风险预警手段。针对以上问题,本文以知识图谱相关知识为科学依据,提出了基于知识图谱技术的产业文本数据实体标注准则,对海量上市公司产业信息进行知识抽取,形成自上而下的三维产业知识图谱。同
2、时研究了上市企业产业知识图谱特定产业链知识的内在联系,总结规律并结合产业链往年时序图特征信息实现图谱推理,成功的对产业链中上市企业市值等信息进行了预测和分析。关键词:知识图谱;产业链分析;风险预测;实体关系标注中图分类号:F830引用格式:董士豪,郑朗,王特,等基于知识图谱技术的上市企业产业链风险预测J网络安全与数据治理,2023,42(9):21-28.Risk prediction of the industrial chain of listed enterprisesDong Shihao,Zheng Lang,Wang Te,Yu Xiaojuan,Wang Yaojun(Colle
3、ge of Information and Electrical Engineering,China Agricultural University,Beijing 100083,China)Abstract:With the rapid development of the industrial Internet,the demand for natural language processing applications such asbuilding knowledge graphs is gradually increasing in the face of massive indus
4、trial data.The effective management and mining ofindustrial information can help to discover the risks and opportunities faced in time,and the risk prediction of the industrial chaincan provide regulatory authorities with early warning means for industrial risks.In view of the above problems,this pa
5、per takes theknowledge related to knowledge graph as the scientific basis,and puts forward the criteria for labeling industrial text data entitiesbased on knowledge graph technology,extracts knowledge from massive listed companies industrial information,and forms a top-down three-dimensional industr
6、ial knowledge map.At the same time,the intrinsic relationship of specific industrial chain knowl-edge of listed enterprises in the industrial knowledge graph is studied,the law is summarized,and the graph reasoning is realizedby combining the characteristic information of the time series chart of th
7、e industrial chain in previous years,and the market valueof listed enterprises in the industrial chain is successfully predicted and analyzed.Key words:knowledge graph;industry chain analysis;risk prediction;entity relationship callouts0引言产业知识图谱是结构化的产业语义知识库,通过形式化描述产业领域的概念、实体、属性及其相互关系,使概念、实体间相互联结,构成网
8、状知识结构。产业涉及范围广泛,本研究以产业大类中的上市企业、基金、上市企业业务链、产业链、基金经理和股东等为研究对象,形成了知识覆盖面广、数据更新实时、精准度高的自上到下的三维度产业知识图谱。根据中国产业经济信文献标识码:Abased on knowledge graph technologyDOl:10.19358/j.issn.2097-1788.2023.09.004息网和中国证券业协会规定的18 大类产业为第一维度知识;以上市企业、基金、基金经理和股东组成的第二维度知识;再到第三维度的公司业务链知识,最终完成了产业知识图谱的构建。根据研究目标及思路,下文确定了数据获取方向和主要的获取方
9、法。1产业知识定义及产业链分析产业主体知识包括产业种类、上市企业数据、产业链数据和公司业务产业链数据等。产业链数据又包括大2023年第9 期(第42 卷总第557 期)丨2 1投稿网址:类主营业务和细分主营产品,产业链数据包括某产业中的上市企业上游和下游信息数据。此外,分析上市企业在产业链和产业链中的时空特性,可以发现产业发展的规律,需要得到上市企业的月份市值数据和产业链时间序列数据。分析产业发展规律会关联到基金、基金经理和股东在其中的影响作用,涉及到基金、基金经理和股东相关数据。以产业知识主体为基础,以产业链及公司业务产业链数据为扩展,以相关联的基金、基金经理和股东等相关数据为补充,进一步丰
10、富产业知识图谱的内容。123.80物制品亿元农药主要产品市值上海兽药主营业务生物股份产业知识图谱涉及产业领域内的知识内容,并能表达产业领域内知识的关联关系。完善产业知识图谱,能够更好地服务自然语言处理较高层面的相关研究,其中智能问答系统、信息检索系统、个性化推荐与分析系统均能将产业知识图谱上的知识与之相结合,提供更优质的服务。例如,根据某产业中上市企业研究报告文本信息可以构建如图1所示的上市企业产业链示例图。上游由以农药、饲料为主营业务的上市企业组成,中游由生猪养殖、家禽养殖为主营业务的上市企业组成,下游由食品加工、食品包装为主营业务的上市企业组成。兽用生334.57亿元市值主要产品主营业务大
11、北农饲料原料饲料2625亿元一市值中海牧原股份主营业务一生猪养殖146.28市值亿元益生股份主营业务主要产品主要产品鸡鸭鹅家禽养殖绝味鸭脖市值60.47下装亿元2相关工作随着信息技术的发展,学者们对于产业信息的需求也在不断变化,对于更深人的产业信息,需要更多的数据和分析手段的支持。产业互联网的概念由此被提了出来。它是指通过互联网技术对产业链上的各个环节进行整合、协同、优化,实现资源的高效配置和价值的最大化 2。产业互联网的兴起,越来越多产业信息资源涌2212023年第9 期(第42 卷总第557 期)新五丰市值91.82亿元主营业务主要产品主要产品主营业务食品加工鸭脖熟食图1上市企业产业链示例
12、图现出来,与此同时,如何将海量产业信息资源科学地管理起来成为了信息化时代的挑战。然而,随着人工智能技术逐渐应用于产业信息领域,知识图谱技术在产业信息领域的应用有效地解决了产业信息管理困难的问题。知识图谱技术可以将不同数据源的产业信息进行集成、关联和重构,促进产业信息的交流和共享,为产业的发展提供更多的信息支持 3食品包装冷链金融数据安全与治理Financial Data Security and Governance知识图谱技术对产业信息处理和应用主要有以下三个方面:(1)实现产业信息的语义化:传统的产业信息描述往往只能提供文字信息,缺乏语义化的表达。而知识图谱技术可以将产业信息进行语义化处理
13、,将实体、属性和关系结构化表示,可以直观地理解和利用产业信息。(2)提高产业信息的查询和检索效率:知识图谱技术可以将不同数据源的产业信息进行关联,构建出一个完整的知识图谱。利用知识图谱,可以快速地查找到自已需要的产业信息,同时可以利用关系推理等技术快速地发现产业信息之间的隐藏关联和趋势。(3)支持产业信息分析和决策:通过将产业信息进行结构化表示和关联,可以直观地分析和展示产业信息的关系和趋势,支持决策者做出科学的决策。知识图谱技术逐渐在医疗、金融、工业等领域蓬勃发展。2 0 18 年袁凯琦等人对医疗知识图谱进行了系统性的研究 4;2 0 2 0 年中国林业科学研究院的丁浩宸等人研究了油茶知识图
14、谱构建与应用 5;2 0 2 1年曾广荣对海洋产业知识图谱构建的信息抽取技术进行了研究 6);2 0 2 2年南京邮电大学的胡婷婷基于知识图谱对国内电影产业研究热点与演化进行了分析 7 ;同年陈晓军等人在金融领域构建了公司风险知识图谱并对其进行了研究。随着各细分领域知识图谱的发展,产业知识图谱的概念也被提了出来并迎来发展。2 0 19 年贵州大学管理学院李桥兴等人基于知识图谱的现代产业体系进行了研究,其为了解我国现代产业体系研究的发展现状,采用可视化软件绘制知识图谱并分别从时间、作者、机构、期刊、学科、高被引论文等角度对高引文文献进行分析 ;2020年Bader等人对产业信息进行充分考量,构建
15、出了产业知识图谱4.0 l01;同年南京林业大学的施佳露基于知识图谱对长三角文化产业进行了研究和可视化分析;2021年中国电子技术标准化研究院李瑞琪等人对产业知识图谱应用及标准化需求进行了研究 12 。产业知识图谱是知识图谱在产业领域的拓展,是结构化的产业语义知识库,通过形式化描述产业领域的概念、实体、属性及其相互关系,使概念、实体间相互联结,构成网状知识结构。3产业数据获取数据获取共分为两步,即确定数据来源并研究数据获取方法。产业种类知识来源于中国产业经济信息网。上市企业、上市企业业务链、产业链和基金、基金经理和股东知识来源于财经网站、Wind金融终端和Tushare财经数据接口包。中国产业
16、经济信息网为本文中的产业种类提供了本体支撑,结合中国证券业从业协会划分产业大类18 种,细分产业54类。各大财经网站中的研究报告数据作为非结构化文本数据源,为后续从非结构化文本数据中抽取出结构化产业数据提供数据支撑。金融终端可以提供结构化数据,包括产业、上市企业、基金、基金经理和股东及其各实体的基础属性数据。对于非结构化产业文本数据,设计爬虫程序,适用于各种网页,使用Selenium获取编写网页包装器,实现网页数据的自动爬取。首先,对于Google Chrome,需下载与浏览器版本相对应的ChromeDriver。然后,安装Se-lenium库并配置ChromeDriver后,检验Seleni
17、um是否能自动发起和控制GoogleChrome。最后,导入Selenium的webdriver类并将其实例化,浏览器设置为GoogleChrome,参数设置了ChromeDriver的安装路径和URL变量,即可以进行数据爬取工作。网页中含有多个iframe的情况下,可在不同iframe之间进行切换,以执行相应操作。在定义了与不同网址相对应的模板,也是XPath 及其相应的实体与属性信息之后,数据抽取十分便捷,只需按照模板解析目标网页即可。半自动行业网址数据解析的过程见表1。表1半自动财经网站数据解析步骤示例流程内容输人网页链接URL,C h r o m e D r i v e r 安装路径P
18、ath第一步导人Selenium的webdriver类第二步获得URL,获得PathWebdriver实例化,浏览器设定为Google Chrome,第三步参数为Path第四步获取网页内容,XPath获得数据并输出输出网页内容对于结构化产业数据,使用Python库中的Panda、Numpy等库对接口进行结构化数据获取,数据获取的结果保存为CSV格式。通过以上数据获取方式从各大网站和数据接口中获得了非结构化数据1457 1条文本,结构化数据千万条。4产业标注数据集构建产业标注数据集的构建包含以下四个步骤:1)产业标注数据集语料的构建;2)数据预处理;3)产业标注策略研究并确定方案;4)阅读研究报
19、告进行句子分割,将获取研究报告文本数据进行人工阅读并分割,并保存为TXT文档形式;5)半自动化标注平台,在后续的标注步骤中采用了半自动化标注平台Label Stu-dio进行标注工作;6)实体序列标注,将整理分隔好的2023年第9 期(第42 卷总第557 期)丨2 3投稿网址:文本句子,进行BIOS四位序列标注法标注;7)关系标注,将实体标注完成的序列句子再进行关系标注;8)标注成果展示。4.1数据集语料产业标注数据集Financial_Industry_RE的主要数据来源是各大财经网站的研究报告文本和新闻文本,如新浪财经、搜狐财经等。各网站涵盖了全国所有的上市企业及其全领域覆盖的研究报告文
20、本数据。实验通过采用Python编程语言的Scrapy爬虫框架根据该网站的布局特性和文本特征,对网站文本数据进行特征分析。同时,考虑到避免图片等干扰因素对爬虫的影响,设置爬虫规则进行数据爬取。获取到初始产业研究报告文本数据,共爬取了1457 1条研究报告文本数据,涵盖全部国内上市企业和18 大类产业信息。4.2数据预处理数据预处理的目的是为了获取到高质量的文本数据。在获取初始研究报告文本数据后,对爬取的数据内容进行分析,产业研究报告文本的内容结构如图2 所示。共包含题目、数据分析、分类分析和结尾四部分,数据分析部分为穴余信息,分类分析和结尾部分为信息主要来源部分。完整的一句话数据分析余信息产业
21、研报以领域分类分析以板块分类分析分类分析以业务分类分析以产品分类分析盈利评级结尾风险评估图2 产业研究报告文本结构示例图通过设置人工审阅规则进行数据预处理和数据清洗,对爬取到的非结构化文本数据进行处理,并清洗无关内容和余信息。对与本次实验设定的实体关系无关的文本,几乎不存在实体关系的文本,实体数过低或者只存在不属于已定义十二种关系的文本进行过滤和剔除,如盈利数据分析部分,最终得到无噪声纯文本语料。清洗后的文本包括较少的无关内容,为实体关系抽取任务提供了便利。2412023年第9 期(第42 卷总第557 期)4.3数据标注策略研究数据标注的目的是为了构造标注数据集,使得实体关系抽取模型可以学习
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 图谱 技术 上市 企业 产业链 风险 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。