面向科技文献技术脉络分析的聚类算法研究.docx
《面向科技文献技术脉络分析的聚类算法研究.docx》由会员分享,可在线阅读,更多相关《面向科技文献技术脉络分析的聚类算法研究.docx(9页珍藏版)》请在咨信网上搜索。
1、 面向科技文献技术脉络分析的聚类算法研究 尹宝生 宋芷薇摘 要:科技文献网络是一种特殊的复杂信息网络,每一篇文献都有对应的标题、作者、刊物、关键词、引文等信息,从而形成了以文献为中心,其他对象通过文献链接在一起的星型网络结构。聚类分析是基于文献进行技术脉络信息抽取工作的重要手段之一。本文在传统层次聚类算法的基础上,融合了文献网络所特有的引文信息,从而有效的改善了施引文献和被引文献之间的聚类效果。基于万方数据库抓取的文献进行了聚类实验,标准化互信息(NMI)值有明显提升,为后续文献技术脉络分析工作打下了良好的研究基础。关键词:自然语言处理 聚类算法 科技文献 技术脉络分析:TP391.1 :A
2、:1003-9082(2019)07-000-02引言科技創新的不断出现与发展是科技革命发生的必然前提。每年期刊和会议上都会涌现出大量优秀的文献,而技术创新往往是对已有技术的反复推演之后的逻辑重组,对特定领域已有的科技文献进行技术脉络信息抽取与分析,总结科学技术的涌现,发展和分裂,这既能快速地掌握特定领域过去的发展情况,也能对后续研究者选择研究方起到有指引作用,无论在科学研究方面还是在实际工程方面,对科技文献进行快速自动化的技术脉络梳理都显得尤为重要。现实世界中存在很多信息网络,如文献信息网络、社交网络、医疗网络、交通网络等1。近年来,基于文献信息网络进行的研究有很多,如专家发现、相似文献推荐
3、、同名作者排歧、作者合作关系预测、作者性别预测、学术主题挖掘、领域异常检测、技术脉络分析等研究。技术脉络分析主要是研究网络中的对象如何形成不同的簇,簇与簇之间是如何演变的。具体难点主要体现在以下三个方面:(1)中文文献图谱少之又少,如何构建高质量的中文文献图谱。(2)如何构建大规模学术知识库,构建学术知识点的发展脉络。(3)如何将技术脉络进行可视化展示,清晰的展示技术的演变关系。对某一特定领域的技术脉络梳理的一个关键步骤是对复杂信息网络中的对象进行聚类,形成不同的簇,并分析各簇之间的连接关系,好的聚类效果对后续的技术脉络分析与处理起到至关重要的作用。科技文献的题录信息属于短文本,与长文本相比,
4、短文本语言表达简洁,携带信息较少,描述信息较弱,这就增加了科技文献聚类的难度2,如何对有限信息的短文本进行信息抽取与快速聚类是一个值得讨论的课题。针对这一问题,近年来,涌现一些相关的文献计量分析系统,如AMiner、Citespace、VOSViewer、Citeseer、Hiscite等。一、相关研究文献信息网络中的连接分为两种,一种是强连接,另一种是弱连接,通常弱连接比强连接更有价值,弱连接更能促进两个簇之间的信息流动3,对于每一篇文献,都有作者集合、关键词集合、引文集合的链接,这些集合的链接类型都属于强连接,它们之间可以形成以文献为中心,其他类型为属性的星型网络模式,从自然语言理解角度分
5、析文献,弱连接对找到簇间关系非常有意义。现有的文献计量分析系统大部分是针对英文文献进行处理与分析,并且大部分是基于文档层面的关键词词频统计、共现词分析及共引分析,只要关键词在文献中出现或该文献被其他文献引用,便为之计数,并没有从自然语言处理角度对文献的语义进行分析。SimRank算法4通过基于链接的方法来评估对象之间的相似性,然后使用图聚类方法来产生聚类5,但文献信息网络中的对象进行两两相似度评价比较耗费时间和空间。Yizhou Sun等人提出的RankClus算法6,该算法利用文献的刊物和作者信息,是一种基于排名的迭代算法,排名和聚类可以相互影响,在每个聚类中排名高的对象更有助于明晰化聚类。
6、Yizhou Sun等人提出的NetClus7算法也是基于排名的聚类,是一种软聚类,每个对象可以柔性地属于多个聚类。国内对文献技术脉络分析的研究较少。要一璐等人通过抽取关键词及其语义关系构建知识脉络8,将文献中的关键词作为核心,抽取关键词之间的同义关系、上下位关系以及共现关系,以关键词为结点,关键词之间的关系为边,构建科技文献知识脉络。李信等人利用文献的标题,从学术文本词汇功能的角度出发,考虑科研文献中词汇的语义功能,设计并实现了一个基于词汇功能识别的科研文献分析系统9。本文在利用文献题录信息的基础上,融合被引文献和施引文献间的引文信息对传统层次聚类算法进行改进,从而有效的改善聚类的文献簇生成
7、效果。二、算法描述1.聚类算法的选择目前已有很多成熟的聚类方法,但没有任何一种聚类算法可以普遍适用于各种多维数据集所呈现出来的多种多样的结构10。聚类本质上是集合划分问题,要求簇内样本尽可能相似,根据簇内样本相似度的方法判断,聚类算法可分为以下几类:第一类是连通性聚类,如层次聚类算法,它根据样本之间的连通性来构造簇,所有连通的样本属于一个簇;第二类是基于质心的聚类,如K均值算法,它用一个中心向量来表示这个簇,样本属于的簇由它到每个簇的中心距离确定;第三类是基于概率分布的聚类,如EM算法,它根据极大似然估计进行聚类;第四类是基于密度的聚类,如DBSCAN算法,它将簇定义为空间中样本密集的区域;第
8、五类是基于图的聚类,使用图论中的方法完成聚类,由于不知道实验所用的文献数据集具体应该分成几类,也不确定簇划分的形状,所以采用基于聚合的凝聚层次聚类方法进行实验。文献网络中含有文献的相关信息包含六类实体:文献(P)、标题(T)、刊物(V)、作者(A),关键词(K),引文(R),对于每一篇文献,都有标题、刊物集合、作者集合、关键词集合、引文集合的链接,它们都属于链接类型的集合。文献与关键字或标题之间存在着“包含”和“被包含”的关系;文献与作者之间存在着“写作”和“被写作”的关系;文献与刊物之间存在着“发表”和“被发表”的关系。文献与文献之间存在着“引用”和“被引用”的关系。文献网络形成如图所示的星
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 科技 文献 技术 脉络 分析 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。