基于专利文本挖掘的细粒度技术机会分析.pdf
《基于专利文本挖掘的细粒度技术机会分析.pdf》由会员分享,可在线阅读,更多相关《基于专利文本挖掘的细粒度技术机会分析.pdf(14页珍藏版)》请在咨信网上搜索。
1、情报学报 2023 年 10 月 第 42 卷 第 10 期Journal of the China Society for Scientific and Technical Information,Oct.2023,42(10):1199-1212基于专利文本挖掘的细粒度技术机会分析吴柯烨1,2,孙建军1,2,谢紫悦1(1.南京大学信息管理学院,南京 210023;2.南京大学数据智能与交叉创新实验室,南京 210023)摘要 新一轮科技革命和产业变革中,技术机会分析在研发管理、企业决策中的战略地位不断攀升。然而,利用传统链路预测指标开展的技术机会分析精度已达到瓶颈,且固有的专家知识无法应对
2、技术创新的动态性和复杂性,难以实现细粒度技术机会识别与分析。鉴于此,本文提出了基于专利文本挖掘的细粒度技术机会分析框架,该框架将专利文本挖掘和图神经网络链路预测法有机结合,将技术机会分析拆分为知识网络构建及演化分析、知识元素链路预测以及技术机会评估与筛选3个研究子任务。实证研究结果表明,利用多维关键词特征构建的知识网络能够完整呈现交叉领域的知识全貌,结合复杂网络指标和时间序列能进一步揭示技术发展脉络,为后续技术机会分析提供方向指引。BERT(bidirectional encoder representations from transformers)模型配合图神经网络方法适用于各技术生命周期
3、的知识元素链路预测任务,相较于传统预测指标,BERT表现出更高的准确率和鲁棒性。经过与多源技术报告的对比评估,证实了基于该框架所析出的9个技术机会与计算机视觉技术发展实际情况相吻合,具备实际研发价值。关键词 技术机会分析;文本挖掘;图神经网络;链路预测;多源数据互证Research on Fine-Grained Technology Opportunity Analysis Based on Patent Text MiningWu Keye1,2,Sun Jianjun1,2 and Xie Ziyue1(1.School of Information Management,Nanjing
4、 University,Nanjing 210023;2.Laboratory for Data Intelligence and Cross-Innovation of Nanjing University,Nanjing 210023)Abstract:In the new round of scientific and technological revolution and industrial transformation,the strategic position of technology opportunity analysis in R&D management and c
5、orporate decision-making is growing.However,the accuracy of technology opportunity analysis based on traditional link prediction indicators has reached a bottleneck,the stubborn expertise can hardly cope with the dynamics and complexity of technological innovation,and fine-grained technical opportun
6、ity identification and analysis are difficult to realize.As a result,this study proposes a fine-grained technical opportunity analysis framework based on patent text mining that combines patent text mining and the graph neural network link prediction method and divides technology opportunity analysi
7、s into three research subtasks:knowledge network construction and evolution analysis,element link prediction and technology opportunity assessment,and screening.An empirical study in the field of computer vision shows that the knowledge network built using multi-dimensional keyword features can full
8、y present the knowledge panorama of cross-fields,and the combination of complex network indicators and time series can further reveal the context of technological development and provide direction for subsequent technological opportunity analysis guidance.The BERT model combined with the graph neura
9、l network method is suitable for the knowledge element link prediction task of each technology life cycle,and it shows higher accuracy and robustness than traditional predic收稿日期:2022-09-16;修回日期:2023-08-03基金项目:国家自然科学基金项目“引文扩散理论及实证研究”(18ZDA326)。作者简介:吴柯烨,男,1996年生,博士研究生,研究领域为科学计量、技术预测;孙建军,通信作者,男,1962年生,
10、教授,博士生导师,研究领域为网络信息资源管理、大数据分析,E-mail:;谢紫悦,女,1997年生,博士研究生,研究领域为政策计量、文本挖掘。DOI:10.3772/j.issn.1000-0135.2023.10.006第 42 卷情 报 学 报tion indicators.Following a comparison and evaluation with multi-source technical reports,it is confirmed that the nine technical opportunities based on this framework are in l
11、ine with the current development of computer vision technology and have practical R&D value.Keywords:technical opportunity analysis;text mining;graph neural network;link prediction;multi-source data mutual verification0引 言随着新一轮的科技革命与产业变革席卷全球,科技已逐渐成为评估国家综合实力、促进社会经济转型、提升企业竞争优势的关键变量。及时洞悉技术发展变化并快速识别潜在机会
12、,不仅是各级科研单位实现自主创新,攻克核心技术壁垒,国家提升科技竞争力的必经之路;更是技术密集型企业高效管理生产活动,合理调配研发资源,提高科技成果转化率的先决条件。因此,技术机会分析对于技术创新活动的开展,具有重大的战略指导意义。为清晰识别不同场景下的技术机会,满足企业的异质性需求,技术机会分析需要对于复杂技术创新系统进行细粒度拆解。鉴于此,现有研究通常以关键词形式细粒度地表征领域知识,并采用技术主题或SAO(subject-action-object)语 义 结 构 表 示 技 术 机会1。然而,此类方法主要依赖于专家预先定义的领域专业词表来确定领域关键词2,知识体系较为固化,难以匹配技术
13、的动态发展;而技术机会又具备较强的时效性,应精准适配当下的环境变迁与技术发展。因此,技术机会分析的前提工作是实现自动化构建细粒度领域知识网络并探究其演化路径。只有在清晰掌握领域知识全貌、明确技术生命周期的基础上,才能精准且高效地开展技术机会识别和分析。另外,在学科交叉与技术融合的大背景下,知识重组俨然成为了技术机会的核心特征3。通过整合来自不同领域的知识,可以有效解决复杂技术难题,推动技术发展。组合性和递归性作为技术的本质特征,使得技术需依赖于自身结构完成自循环式的进化4,因此,现有研究通常从知识挖掘与组合的角度开展定量化技术机会分析5。链路预测法通过测算网络中每一对节点产生链接可能性的链路预
14、测法,不仅能够最细粒度地直观体现知识元素间关联性,还可以灵活地应用于大规模的图结构数据,是技术机会分析的主流方法之一。然而,该类研究中所采用的链路预测指标较为传统,一方面对图结构信息的捕获能力有限,另一方面又依赖于固定的前提假设,只抽取片面的节点或图结构特征,难以整合技术机会分析所需要的多方面信息,预测精度已达瓶颈。鉴于此,本文以专利文本为数据源,利用文本挖掘、网络分析、链路预测、深度学习等多种方法构建了一套细粒度技术机会分析框架。该分析框架的优势主要包括:基于关键词的多维度文本特征构建了特定领域下的技术知识网络,克服领域知识表征不准确、不全面等问题。在此基础上开展的技术演化分析有助于把握技术
15、发展脉络,为技术机会识别提供方向指引。将 BERT(bidirectional encoder representations from transformers)预训练向量模型与图自编码器模型有机结合,充分捕获并融合了词语间共现关系特征及自身语义特征,显著提升知识网络链路预测精度,为技术机会分析产出高质量候选集。基于产业链结构和链路预测结果,佐以多源技术发展报告,模块化产出并验证细粒度的技术机会。1研究综述根据 Lee6总结的技术预测研究框架,现有技术机会分析可大致划分为 4 个步骤:数据收集、技术知识测度、技术机会挖掘以及技术机会评估。其中,专利作为技术研发的成果文件,最直接地反映了技术本
16、身的发展现状和演化过程,是技术机会分析最主要的数据来源7-8。由于研究对象和研究场景的差异,各研究在技术知识测度、技术机会挖掘等环节存在异同,但也呈现一定的研究特点和趋势。1.1技术知识测度单元日趋细化技术机会被认为是“技术进步可能性的集合”,而这种可能性往往蕴藏于细微的技术变化之中9。传统的技术机会分析方法通常采用粗粒度的 IPC(international patent classification)分类号或单篇专利表征技术知识,无法从微观层面对技术细节变化实施监测。譬如,Kim 等10基于异常值检测方法在专利引文网络中识别出离群专利,并从中析出未来技术创新方向。然而,离群专利所涵盖的技术
17、知识十分广泛,难以表征确切的技术机会方向,可解释1200第 10 期吴柯烨等:基于专利文本挖掘的细粒度技术机会分析性较弱。随着自然语言处理的进步和发展,基于专利文本内容的细粒度技术知识挖掘与技术测度受到大多数学者的青睐。以主题11、关键词1和关键词组12等作为技术知识的最基本表示单元,为技术机会分析提供语义特征,更精准地揭示技术内容和细节。Tshitoyan 等12基于领域关键词表利用 word2vec 模型训练出材料科学领域的关键词向量,以达到超前预测材料功能性应用的目的;Feng 等2利用 TF-IDF(term frequency-inverse document frequency)指
18、标并佐以专家知识识别特定领域下的技术创新元素。然而,此类测度方式通常初始化于固化的领域知识,无法匹配技术的多维度、跨领域发展与应用,难以动态揭示领域全貌,且仅依据单一的词语特征,如词频或 TF-IDF 指标,抽取的领域关键词较为片面,无法精准捕获新兴知识元素。鉴于此,本 文 集 成 了 TF-IDF、RAKE(rapid automatic keyword extraction)和 BERT 这 3 种关键词抽取算法,综合考量词语的词频、语法结构以及语义特征,从细粒度与自动化两个方面入手,实现对技术领域知识的抽取与知识网络的组织,有效避免了固有领域知识的参与。1.2技术机会挖掘注重知识关联性现
19、有研究中机会挖掘方法未形成统一范式,呈现百花齐放的态势,主要包含技术空白法、形态分析法、异常值检测法、科学与技术关联性法、链路预测法等主流机会挖掘方法13-14。根据分析方法的不同,各研究涉及的技术机会分析环节上存在较为明显的差异,如表1所示。虽然技术机会表征形式不一,但是其本质均是揭示技术知识之间的关联性。在针对技术空白的相关研究中,龚惠群等16、Lee 等17以领域关键词作为技术信息载体,采用主成分分析法降维并生成专利地图,将地图中的空白区域定义为所研究领域的技术机会。在探索科学与技术关联性的相关研究中,黄鲁成等22通过主题聚类和 SAO结构相似度从语义层面细粒度地揭示科学与技术间主题差异
20、性,将此种差异性解释为可能出现的技术机会。由此可见,大多数学者是以知识元素间的组合关联或差异归纳来表达技术机会的主要特征14,从知识挖掘和组合的角度开展技术机会分析5。链接预测作为上述方法中最能直接体现知识之间关联性的技术机会挖掘方法,主要从特定领域的技术知识网络出发,通过链路预测指标计算网络中未来最有可能产生链接的“IPC 对”25或“关键词对”12。但是,此类研究中所采取的链路预测指标均需要具备较强的前提假设和应用场景。譬如,AA(Adamic-Adar)26指标在社交网络中具有很强的解释性,认为两个节点的共同领域中度小的节点贡献大于度大的节点,即若两位用户同时处在某一位小博主的朋友圈内,
21、则可能产生较高的链接概率;反之,若两位用户同时是一位名人的粉丝,则其相互认识的概率较小。但知识元素间的共现关系可能并不会受到“明星”节点的影响,一切与研究热点相关的知识元素都可能在未来产生联动,促成相关技术的创新与发展,因此,该指标并不适用于技术知识网络。图神经网络方法的兴起为解决上述问题提供了契机,该方法有效避免了预定义节点间相似度的计算方式,通过卷积操作学习图结构信息,并利用节点向量表征有效地融合了节点自身特征与图结构特征,为链路预测任务提供丰富信息。其中,图自编码器27作为该类方法的开篇之作,在各领域中有着广泛的应用。譬如,自编码器模型在生物领域中常被用于预测人类基因与疾病之间关联性,经
22、验证其具备较高的准确性和鲁棒性28-29。在社交网络中,图自编码器也已经成为商品推荐、消息推送等任务的主流推荐算法30。另外,在交通领域,学者们基于图自编码器对交通流量31、交通事故32和交通需表1不同机会挖掘方法所涉及的知识测度与机会表示差异机会挖掘方法技术空白法15-17形态分析法1-2异常值检测法18-19科学与技术关联法9,20-22链路预测方法12,23-24主要数据源专利专利专利期刊论文+专利专利技术知识测度与组织专利地图、GTM(generative topographic mapping)专利地图等技术形态矩阵SAO结构、单个专利文本等文本向量、文本主题;引文网络等IPC共现网
23、络、关键词共现网络等技术机会定量表示地图中的空白区域未出现过的技术形态组合离群专利文本主题差异性、聚类差异性等预测的IPC间引用、共现;预测的关键词的引用和共现1201第 42 卷情 报 学 报求等实现了智能化的时空预测33。类似地,本文将图自编码器模型应用于技术机会挖掘,在大规模的技术知识网络中识别出未来可能产生链接的知识元素对,为后续技术机会分析提供高质量的候选集。2研究框架及方法结合现有研究特点和存在问题,本文设计了如图 1 所示的基于专利文本挖掘的细粒度技术机会分析框架,以关键词或词组的形式细粒度表征技术知识,并采用关键词或词组的组合关系表征技术机会,凸显技术机会的知识关联特性。该分析
24、框架主要包含知识网络构建及演化分析、知识元素链路预测以及技术机会评估与筛选 3 个模块。下文将着重介绍技术知识网络构建方法和知识元素链路预测方法。2.1技术知识网络构建及演化分析方法在知识网络构建方面,本文秉持知识表征的细粒度原则,基于“关键词与词组是知识最基本的载体单位”这一假设34,融合关键词的多维度特征,自动化抽取具有技术表征能力的知识元素并构建网络。如图 2 所示,知识元素的具体抽取流程依赖于3 种不同的关键词抽取算法,分别捕获专利文本中词语的词频、语法和语义特征。首先,采用 TF-IDF算法抽取专利文本中的高频关键字,将其作为知识元素的必要组成部分。其次,通过 RAKE 模型捕获词语
25、之间的共现关系,识别出占据核心语法位置的 n-gram 关键词组35。再其次,利用 BERT 预训练模型和向量相似度,计算得出与文本内容最契合的关键短语36。需要注意的是,上述两组关键词中都必须包含 TF-IDF 候选字,以保证领域专指性。最后,合并 RAKE 与 BERT 模型的抽取结果,即可得到同时具备高词频、动名词性以及核心语义等多个关键特征的技术知识元素。在构建网络连边方面,为避免知识元素间的语义重复性,将网络中连边由简单的共现关系改为仅关联非语义重复的知识元素对,即两个知识元素没有相同的 TF-IDF 关键字才可以建立链接。例如,“training sample”和“training
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 专利 文本 挖掘 细粒度 技术 机会 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。