基于知识结构突变的学科新兴主题识别研究.pdf
《基于知识结构突变的学科新兴主题识别研究.pdf》由会员分享,可在线阅读,更多相关《基于知识结构突变的学科新兴主题识别研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、情报学报 2023 年 9 月 第 42 卷 第 9 期Journal of the China Society for Scientific and Technical Information,Sept.2023,42(9):1018-1028基于知识结构突变的学科新兴主题识别研究段庆锋,陈红,闫绪娴,刘东霞(山西财经大学管理科学与工程学院,太原 030006)摘要 知识结构动态是识别学科新兴主题的重要途径。知识要素的新颖分布是学科新兴主题的体现,而知识结构突变则成为新兴主题涌现的重要特征。基于此,采用WL(Weisfeiler-Lehman)子树核测度知识网络结构演化特征,构建反映主题涌现
2、强度的结构突变率指标;采用PageRank算法,构建主题影响力增长率指标。上述指标组合形成二维识别空间,形成基于知识网络拓扑动态的综合识别方案。该识别方案的有效性得到基于情报学领域的实证支撑,对于短期涌现的高价值主题表现出较好的敏感度与区分能力。拓扑动态指标有助于加强主题知识演化的结构视角定量分析能力,为洞见学科知识演化提供了独特视角。关键词 学科新兴主题;结构突变;知识网络;WL子树核Identifying Emerging Scientific Topics by Abrupt Change of Knowledge StructureDuan Qingfeng,Chen Hong,Yan
3、 Xuxian and Liu Dongxia(School of Management Science&Engineering,Shanxi University of Finance&Economics,Taiyuan 030006)Abstract:Understanding the structural transformation of knowledge is key to identify emerging scientific topics.Novel distribution of knowledge elements implies that emerging topics
4、 occur,and transformation of knowledge structure has become the characteristic to identify emerging topics.Following these ideas,we measured the difference of structure between two knowledge networks in sequential time using the WL subtree kernel and propose an indicator in terms of structure transf
5、ormation of knowledge to suggest the extent to which a new topic emerges.In addition,we propose another indicator that measures the growth rate of a topic s influence over time using the PageRank algorithm.Then,these two indicators together compose a two-dimensional space for identification and form
6、 an integrated solution based on the dynamic topology of the knowledge network.The empirical research in the field of information science well-validated our method,with high sensitivity and effective discrimination towards emerging topics with high value in the short term.These topological transform
7、ation-based indicators are capable of quantitatively analyzing the evolution of academic topics and offer a unique view of knowledge structure to enable scientific evolution.Keywords:emerging scientific topic;abrupt change in structure;knowledge network;WL subtree kernel收稿日期:2022-08-29;修回日期:2023-02-
8、17基金项目:教育部人文社会科学项目“基于学术社交媒体的学科新兴趋势识别研究”(20YJA870005),“学术资源配置公平、效率与影响因素研究:学者、大学与区域的多层嵌入”(19YJAZH052)。作者简介:段庆锋,男,1977年生,博士,副教授,硕士生导师,主要研究领域为科技情报,E-mail:;陈红,女,1972年生,博士,教授,博士生导师,主要研究领域为科技创新;闫绪娴,女,1978年生,博士,教授,博士生导师,主要研究领域为智能决策;刘东霞,女,1975年生,博士,副教授,硕士生导师,主要研究领域为科技创新。DOI:10.3772/j.issn.1000-0135.2023.09.0
9、02第 9 期段庆锋等:基于知识结构突变的学科新兴主题识别研究0引 言学科新兴主题是科技竞争的关注焦点,对国家、企业及研发人员获取科技优势至关重要1。然而,相比于其他一般主题,新兴主题涌现时间短、数量稀少,从快速增长的海量文献中快速、准确地发现具有科技决策价值的新兴主题并非易事2-3。这种挑战性主要源于学科知识的复杂动态性,跨学科知识交叉融合,知识更迭日益加速,均增加了把握学科趋势规律难度。由此,学科新兴主题发现的根本在于深刻认知知识演化规律,尤其是通过知识之间的关联模式揭示主题涌现的关键特征。学科主题分析通常可以建立在某种网络形式之上4。共词分析是常见的知识网络工具,将涌现的关键词聚类视为新
10、兴主题5,这些关键词集合通过共现关系形成紧密联系结构,并指向相同的主题范畴6。共词网络背景下,主题探测建立在连接模式上,新颖独特的知识嵌入成为学科新兴主题的发现逻辑。另外,建立在引用关系之上的多种类型网络(常见有共引网络、耦合网络、引用网络)也被用于新兴主题探测7,具有相同主题内容的学术文献通过连接关系形成聚集结构,文献间引用关系模式成为主题发现的关键依据8-9。由此可见,不论何种形式的主题建模,网络拓扑都是揭示学科格局不可缺少的工具,而知识结构层面的动态变化更是识别新兴主题的关键。然而,从复杂多变的知识结构演化中发现新兴主题并非易事。挑战性很大程度上源于准确捕捉拓扑动态:一是庞大的知识网络规
11、模带来的计算成本,二是拓扑动态比较的困难。知识网络演化不但是要素节点的增减,更是网络关系的变化,两者共同影响形成复杂的网络演化与结构动态。主题分析需要考虑大范围的知识嵌入特征,新兴主题更强调动态变化10,结构动态成为亟须有效揭示的关键环节。反映网络拓扑的方法及模型在新兴主题研究领域得到了广泛应用。面对网络结构,社会网络分析与复杂网络理论方法被引入科技情报分析11-12。多种基于结构嵌入的特征指标被用于探索新兴主题,如反映微观嵌入的度中心性、反映中观结构的社区特征、反映宏观特征的网络密度13。这些面向网络的指标或模型能够揭示主题格局分布,但基本是静态反映,对于网络拓扑的动态刻画不足。动态成长性是
12、新兴主题区别于其他类型主题的最重要特征14,只有通过知识拓扑动态才能从根本上捕捉主题涌现。值得注意的是,近年来,链路预测被用于新兴主题趋势分析,通过对知识关系的预测反映主题动态趋势15-16。这种面向未来的刻画能力具有较大应用潜力,但众多指标差异较大,面临指标选取及场景优化问题。另外,以 LDA(latent Dirichlet allocation)为代表的统计模型在主题分析中取得了良好效果17,尤其是考虑时间的动态模型能够刻画主题知识的分布演化过程18,但是文本表示的“词袋”模型忽视了主题之间的关联性,无法揭示主题知识结构特征。上述定量指标及方法在一定程度上揭示了主题涌现过程的某些侧面,但
13、面对大规模的学科知识网络演化的复杂动态性,仍存在诸多局限性,尤其是在拓扑动态比较方面对人工经验及观察判断的依赖程度依然较高,能够有效反映知识网络拓扑动态特征的研究不够充分。本文旨在通过知识结构突变的探讨,形成具有知识结构动态感知能力的学科新兴主题识别方案。针对主题涌现过程的结构特征,构建基于知识网络拓扑的主题结构突变率指标与主题影响力增长指标,基于此,形成学科新兴主题的二维识别框架,并通过综合性识别方案,发现具有战略价值的学科新兴主题。1研究设计1.1分析框架主题是凝练与抽象的特定内容,可以表现为知识要素的某种组合或分布19,且这些要素存在广泛关联,并形成知识网络20。主题知识网络不断动态演化
14、,如知识元素的生灭重组、关系模式的重构以及知识群落的融合分裂21,动态变化之中蕴藏了影响学科未来的新兴主题。新兴主题的价值在于巨大的潜在影响力,如理论突破可以引发科学范式的颠覆,重大科学发现能够引发技术革命进而推动人类社会的进步。科学范式的变化在知识层面更大程度地体现为结构突变,不仅涉及元素与关系的数量增减,更是知识结构的重组重构22。因此,知识结构突变成为嵌入视角下新兴主题的重要特征,更成为刻画新兴主题的有效手段。基于此,可以将发生结构突变或新颖结构涌现的知识网络界定为学科新兴主题,其拓扑结构的改变不但程度剧烈,而且时间短促,即知识结构突变越迅猛,越可能预示着高影响力、高价值新兴主题的涌现。
15、1019第 42 卷情 报 学 报结构观视角下,知识结构突变成为新兴主题识别过程中的关键环节,需要对结构突变性开展有效度量。网络结构是学科探测与知识发现领域关注的内容,如节点中心性、最短路径、社区探测等23,已有大量文献说明网络分析指标及算法在结构揭示方面的有效性。然而,这些常用指标及方法大多基于静态分析,并不善于揭示网络结构在多大程度上发生了改变,或者缺乏对拓扑差异性给出有效度量。网络拓扑的动态比较是较为困难的任务,制约了知识结构突变的探测与新兴主题的发现能力。图 同 构(graph isomorphism)是 判 断 两 个 图(网络)是否具有相同拓扑结构的研究领域24,是可以揭示主题知识
16、网络拓扑动态的有效方法。主题知识网络在不同时期的同构性越低,则结构变化的程度越大,即结构突变的可能性越大;反之,亦然。借助图同构分析,可以有效刻画知识网络的结构突变性。虽然已有大量文献采用网络嵌入指标及模型对知识网络演化开展研究,但鲜有针对知识网络动态场景开展的图同构分析及应用解决方案25。据此,非常有必要采用图同构方法,通过知识网络的同构性分析刻画结构突变,进而捕捉新兴主题涌现的结构特征,以推动对新兴主题的探测能力。具体地,从知识网络的微观和宏观两个层面分析新兴主题的结构特征,如图 1 所示。以关键词为节点、共现关系为边构建的共词网络能够反映知识分布模式26。主题词 i 的知识网络嵌入体现在
17、两个层面:一是由焦点主题词 i 和其邻居节点(与焦点主题存在共现关系的主题词)共同构成的个体知识网(Egoi),反映了主题 i 的局部嵌入;二是包含所有主题词的整体知识网(Net),反映了主题的全局嵌入。个体知识网和整体知识网体现不同层级结构,前者针对某个主题个体,通过存在邻居关系的主题词集合,反映焦点主题的知识嵌入;后者面向学科整体,反映学科主题的全局知识体系。另外,两者的用途不同,个体知识网旨在通过知识嵌入刻画焦点主题的结构性涌现特征;整体知识网反映学科知识的全局嵌入,旨在揭示主题在学科整体层面的影响力。本文基于知识网络拓扑动态特征,构建识别框架,如图 2 所示。具体地,分别从知识网络的局
18、部和全局视角出发,构建主题结构突变指标和影响力增长指标;综合两个指标特征,形成知识结构动态视角下新兴主题的二维识别方案。在动态演化视角下,个体知识网随时间的改变反映了焦点主题的知识嵌入变化,这种变化越急促、越剧烈,意味着新颖知识的结构性涌现越强烈。因此,基于个体知识网拓扑改变程度,构建主题结构突变指标,度量主题知识的结构涌现。另外,基于主题在整体知识网的嵌入地位,构建主题影响力增长指数,反映主题图1局部和全局的主题知识网络嵌入图2基于知识结构突变的学科新兴主题识别框架1020第 9 期段庆锋等:基于知识结构突变的学科新兴主题识别研究对学科的贡献与影响。这两个指标均基于知识网络拓扑动态形成度量,
19、但分别从知识嵌入和外在影响力两个层面揭示新兴主题在知识网络演化过程的结构性特征。基于这两个指标,构建二维识别方法,通过知识结构涌现的局部和全局视角综合,形成较为平衡的探测结果。1.2 基于图核的主题结构突变1.2.1WL子树图核图核(graph kernel)是旨在解决图同构问题的核方法,将图对象映射至 Hilbert空间,通过内积运算度量图的拓扑结构相似性27。具体地,图核是定义在图空间上的对称正定函数,表示为 Hilbert 空间的内积运算。给定图集合上G的映射函数 k:G G R,若存在从图空间到 Hilbert 空间的特征映射:G Hk,满足条件 k(x,y)=(x),(y),其中x,
20、y G,,代表内积运算,则称函数k为图核。WL(Weisfeiler-Lehman)子树核是经典的图核算法,主要思想是将图分解为多个不同的子树,通过比较子树之间的相似程度反映图的相似性28。WL 子树图核算法主要过程如下:对于给定节点标签的图,首先,对每个节点邻居进行聚合并排序,节点标签与完成排序后的邻居标签共同构成多重集合(multiset);其次,将每个节点的多重集合映射至一个新的未曾出现的标签,这些标签成为节点的新标签,节点标签的更新意味着一次迭代完成;最后,据此进行节点标签的多轮迭代,直至结束。节点标签的更新映射关系在所有图之间是共享的,若两个图的所有节点标签数量相同,则认为两者同构;
21、否则,标签数量差异越大,同构性越低。定量地,将迭代h次的WL子树核定义为khWL(G1,G1)=hWL(G1),hWL(G2)(1)其中,hWL(G)表示标签出现次数序列,即(c0(G,01),c0(G,0|0|),ch(G,ih),ch(G,h|h|)(2)其中,ci(G,ij)表示第i次迭代中标签j出现的次数。1.2.2主题结构突变指标由上文所述的知识结构观定义可知,新颖知识结构的涌现是学科新兴主题的体现,这种结构性改变的程度与快慢直接反映主题新兴涌现的强烈程度。个体知识网体现了焦点主题的嵌入分布,通过比较不同时期个体知识网的结构差异,构建主题结构突变指标。因网络演化既有节点也有网络连接的
22、增减,故网络结构的比较是具有挑战性的任务。知识网络拓扑结构差异程度可以通过图同构加以刻画。图核方法主要有 3 大类:基于路径图核、基于子图图核以及基于子树图核。其中,作为子树图核经典算法的 WL 子树核应用广泛,获得了学界主流的共识,在图分类及比较的文献中表现不俗29。因此,本文采用 WL 子树核度量知识网络的结构突变程度,并基于此构建主题结构突变性指标。值得注意的是,WL 子树核算法一般流程中并没有明确如何确定节点标签,需要在实际应用中给节点赋予标签。考虑到网络结构是关注点,采用Louvain 社区算法对个体知识网探测社区结构,并将反映结构嵌入的社区编号作为节点标签,用于WL 子树核算法。个
23、体知识网除了以焦点主题词为核心的星型连接之外,其邻居节点之间可能存在相互语义依赖并形成连接,由此形成相对连接稠密的不同知识社区,每个社区代表特定的内涵语义,通过社区结构可以揭示焦点主题的微观知识结构。新兴主题是知识嵌入不断深化的过程,也是向日益复杂的社区结构演化的过程,如图 3 所示。可以看出,稠密、规模化的知识社区动态呈现是新兴主题成长过程的重要特征。Louvain 算法是主流的社区探测方法,通过启发式算法寻找最优的网络社区划分,以实现模块度的最大化目标,模块度已经被证实是衡量社区划分合理性的有效度量,基于模块度寻优的算法能够有效揭示主题的知识社区分布30。首先,基于WL子树核算法,定义主题
24、i相邻两期个体知识网的结构相似性S为 Si(t-1,t)=kWL(Gi,t-1,Gi,t)kWL(Gi,t-1,Gi,t-1)kWL(Gi,t,Gi,t)(3)其中,t 为时间;kWL(Gi,t-1,Gi,t)为采用 WL 子树核度量的网络Gi,t-1和Gi,t的结构相似性,由式(1)计算获得,事实上为通过子树核将知识网络Gi,t-1和Gi,t映射为 Hilbert空间向量后的内积结果。为了比较方便,对相似性进行归一化处理,式(3)采用了余弦公图3个体知识网社区结构演化示意图1021第 42 卷情 报 学 报式形式,其中分母部分的计算与分子部分同理。指标 Si度量了主题 i 个体知识网的邻期同
25、构性,即知识结构相似性。其次,基于指标 Si,构建反映主题 i 涌现程度的结构突变度指标Di,即Di(t-1,t)=1-Si(t-1,t)(4)该指标刻画了知识网络拓扑的跨期差异性,反映了主题 i 发生的结构变化强烈程度,反映个体知识网结构变化强度。指标 D 数值区间为0,1,D=0,说明主题的知识结构保持不变;D=1,说明发生了完全的结构变化。最后,以结构突变度 D 为基础,通过差分运算,构建指标主题结构突变率Di,即Di=Di(t+1,t)-Di(t,t-1)(5)指标 D 度量了主题结构突变度的变化率,反映了主题知识结构变化的加速度,取值为正,说明结构突变呈加速状态;反之,则呈减速状态。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识结构 突变 学科 新兴 主题 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。