集成传统学术评价和Altmetrics指标的论文高被引预测研究.pdf
《集成传统学术评价和Altmetrics指标的论文高被引预测研究.pdf》由会员分享,可在线阅读,更多相关《集成传统学术评价和Altmetrics指标的论文高被引预测研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、302023年第19卷第9期摘要:随着Web 2.0和社交网络的发展,补充学术成果评价的Altmetrics指标应运而生,已有研究表明Altmetrics指标与被引频次之间存在相关性,但集成Altmetrics指标的论文高被引预测研究较少。因此,基于引用理论,将Altemetrics指标与学术层面指标相结合,构建论文高被引预测的指标体系;选取ESI高被引论文榜单,获取2022年4月经济与商业学科高被引论文合集,由此从Web of Science数据库获取论文集相关的学术层面数据,并从Altmetric LLP平台获取论文集相关的Altmetrics指标数据;经过数据清洗和预处理,共得到27 9
2、53篇论文数据,对比3种常用机器学习算法的论文高被引预测结果,得到最优的预测模型。研究结果表明:相较于仅使用学术层面指标,引入Altmetrics指标的论文高被引预测效果更优;Altmetrics指标中的在线阅读平台读者数对论文被引频次的影响最大,随后是学术层面指标中的期刊被引半衰期、论文首次被引两年内被引频次、一作总被引频次。研究可以为探究论文高被引的影响因素及其影响程度,完善学术成果的评价体系提供理论依据。关键词:论文引用;高被引预测;替代计量学;引用理论;机器学习中图分类号:G353.1;G203 DOI:10.3772/j.issn.1673-2286.2023.09.004引文格式:
3、吴冰,齐思贤.集成传统学术评价和Altmetrics指标的论文高被引预测研究J.数字图书馆论坛,2023(9):30-37.吴冰 齐思贤(同济大学经济与管理学院,上海 200092)集成传统学术评价和Altmetrics指标的论文高被引预测研究学术论文作为科学研究成果的主要形式之一,是公认的知识传播的重要载体。随着科学技术的不断发展,全球范围内发表的学术论文数量逐年指数级增长。对学术论文影响力的评价关系着学术论文的影响力以及学术研究者自身价值,由此成为研究机构或团体研究能力的重要评判标准1。高被引论文和高被引学者近年来引起广泛关注。不少学术服务权威机构依托自身学术数据库推出学术论文高被引影响力
4、相关榜单,其中科睿唯安(Clarivate Analytics)每年发布的ESI(Essential Science Indica-tor)高被引论文和高被引学者榜单受到全球范围的广泛认可。基于旗下Web of Science数据库中的学术论文和引文数据,Clarivate Analytics构建了学术论文的科学绩效指标ESI,评选出不同学术领域以及学科中被引频次排名靠前的学术论文和学者。由此,国内外很多研究机构和组织都依托ESI,将高被引论文的数量和高被引学者的数量视为科研水平和科研实力的象征2-3。与此同时,伴随着Web 2.0的兴起和社交媒体平台的流行,社交媒体和网络平台及时传播与交流科
5、研成果,从而对更广泛的社会公众产生影响,由此Altmetrics应运而生。以在线环境和网络平台的公开数据源为基础的Altmetrics指标可以为度量学术成果的社会影响力提供参考4-5,但目前融合Altmetrics指标的高被引影响因素研究较少。本研究基于引用理论,首先将学术层面指标与Alt-metrics指标结合,构建论文高被引预测指标;其次,选取Clarivate Analytics旗下知名的Web of Science数据库,以经济学与商业学科的论文集合为研究对象;最学术评价收稿日期:2023-06-2831集成传统学术评价和Altmetrics指标的论文高被引预测研究吴冰,齐思贤2023
6、年第19卷第9期后,采用机器学习模型预测论文高被引,旨在充分挖掘论文高被引的影响因素及其影响程度。在理论上,一方面拓展了预测论文高被引的研究视角,另一方面有助于构建和完善学术成果的多维评价体系。在实践上,研究结果可以分别从学术层面和网络传播层面,为提升学术成果综合影响力和完善学术成果综合评价方法提供指导方向。1 文献综述1.1 论文高被引相关研究从被引频次出发,当前对高被引论文的定义和划分采用绝对阈值和相对阈值两种方式6。以绝对阈值划分时,固定数值是评价高被引论文的基准,将一时段内被引频次在固定数值以上的论文认定为高被引论文。在绝对阈值划分方式下,判定变得直接高效,但有可能出现学科领域之间高被
7、引论文的分布差异性,因为学术论文引用率高的学科领域会产生大量的高被引论文,而学术论文引用率低的领域内高被引论文会很稀缺。与绝对阈值划分方式不同,相对阈值的判别逻辑是以学术论文所在学科领域为比较范围,将该学科领域内被引频次相对较高的论文视为高被引论文。随着论文高被引判定标准逐渐明晰,研究者从不同的学科领域出发,在统计分析的基础上,从作者维度、期刊维度和论文维度分析高被引论文的特征7-8,以深入探讨论文高被引的影响因素及其原因9-11。1.2 Altmetrics 伴随社交媒体的发展,越来越多的研究人员通过使用社交媒体开展学术活动,Altmetrics应运而生,可以用于衡量学术研究成果的社会影响力
8、12。Altmetrics为测度论文影响力提供补充评价指标,其数据来源广泛,有着高社会公众参与度,涵盖博客、新闻网站、政府平台、社交媒体和在线文献管理软件等不同平台,因此Altmetrics指标不仅可以从社交媒体角度解读学术成果的社会影响力,还具有数据源开放、数据获取免费、数据反馈及时和更新速度快的优势13。2010年以来,Altmetrics的数据集成服务商以及指标工具逐渐发展,由此研究者开始关注Altmetrics指标,研究和评估Altmetrics指标在衡量学术成果影响力方面的价值。论文被引领域的Altmetrics相关研究主要有两大方向。从Altmetrics指标数据出发,将其视为学术
9、成果社会评价的数据来源,以构建评价学术成果影响力的Altmetrics综合指标体系,由此将来自Altmetrics平台的综合评分及其指标数据作为研究对象,验证了Altmetrics指标的合理性14。将Altmetrics指标引入论文被引研究,探究Altmetrics指标与论文被引之间的关系以及影响机制,证实在不同学科领域中Altmetrics指标和论文被引频次呈现出一定的相关性,由此说明Altmetrics指标可以作为传统文献计量指标的重要补充。在此基础上,选取特定期刊的文献,自定义高被引阈值,融合Altmetrics指标和传统文献计量指标预测论文高被引。然而,研究对象的选取范围不广,研究数据
10、的代表性有待提升15。1.3 综述评述被引频次是学术成果的重要评价指标,高被引论文引起广泛关注,由此围绕论文高被引问题,目前研究主要关注论文、期刊和作者这3个维度涵盖的学术层面影响因素,不断丰富和完善学术层面的指标及其内涵。随着Web 2.0和社交媒体的不断发展,来自网络和社交媒体平台的数据为学术影响力评价提供了补充,由此以Altmetrics指标为代表的社会影响力评价指标为学术成果评价提供了新的视角。虽然已有研究证实Altmet-rics指标与论文被引频次之间存在一定的相关性,并进一步应用Altmetrics指标预测论文被引频次,但目前将学术层面因素与社会层面因素结合的论文高被引影响因素研究
11、较少。因此,本研究从ESI高被引论文出发,基于当前丰富的Altmetrics应用服务带来的开放、丰富和可获取的数据,将Altmetrics指标与论文学术层面的指标相结合,借助机器学习算法16,分别从学术层面和社会网络传播层面探究论文高被引的影响因素及其重要性,为完善学术成果的评价体系提供理论依据。2 基于引用过程概念模型的论文高被引影响因素2.1 引用过程概念模型引用理论主要包括规范引用理论和社会建构主义322023年第19卷第9期作者的学术产出或学术声望对论文的被引和传播也有显著的影响19。由此,选取具有代表性的作者指标,统计在当前高被引论文发表之前作者的各维度指标值,包括一作论文数、一作总
12、被引频次、一作H-index、合作者最大论文数、合作者最大总被引频次、合作者最大H-index。在期刊维度,从双向选择的角度出发,在学术成果的传播过程中学术影响力高的期刊更容易吸引高质量的论文,同样高质量的论文也更倾向于在高影响力期刊上发表。研究发现,期刊的声誉和学术影响力对论文高被引起到决定性作用10。由此,选取具有代表性的期刊特征,包括期刊总被引频次、期刊影响因子、期刊五年影响因子和期刊发文数。其中,与影响因子相比,五年影响因子更能反映期刊的长期影响力,因为它考虑了引用时滞。此外,根据Web of Science数据库提供的评价指标,期刊维度的指标还包括期刊即时指数、被引半衰期、特征因子得
13、分和影响力得分。其中,即时指数是指期刊当年发表论文的平均被引水平,衡量了期刊短期内的热度和受关注程度。2.3 基于引用过程概念模型的Altmetrics指标以在线环境和网络平台的公开数据源为基础,Altmetrics数据应用服务提供商提供多平台多渠道的数据收集服务,使得Altmetrics指标不断丰富和完善,为度量学术成果的影响力提供了补充性指标。由于社交网络中的信息传播具有及时性和迅速性,学术成果在社交媒体平台中的被提及量、被收藏量等具有一定相关性26,为了避免同类型指标高度相关对论文高被引预测结果的影响,对各类指标进行保留或合并处理,选取具有代表性的Altmetrics指标,具体包括社交平
14、台提及量、百科提及量、在线阅读平台读者数、搜索引擎检索量、开放新闻站点提及量、同行评议平台提及量。3 数据获取3.1 学术平台选取选取Web of Science数据库中的ESI高被引论文为研究对象。首先,Web of Science是全球具有权威性的大型在线文献检索平台,数据库收录了万余种期刊中的引用理论17。规范引用理论认为引用行为表示对同行的认可,更多的引用意味着更大的认可,由此引用主要取决于引用者对被引文献的感知价值。规范引用理论假设引用出于对同行的认可,但社会建构主义引用理论质疑这一假设的有效性,认为引用是复杂的过程,人们更倾向于引用由学科领域内被认为更权威或更有声望的作者发表的文章
15、,作为研究结果和知识主张的论据支持。综合规范引用理论和社会建构主义引用理论的实证研究,研究者提出了由三大核心要素组成的引用过程概念模型,包括被引文献、引用过程、施引文献17。作为核心要素之一的被引文献包含内容特征、作者特征、期刊特征以及感知价值4个部分,其中感知价值可以分为5类:认知价值、功能价值、条件价值、社会价值和情感价值。认知价值定义为作者对被引文献满足知识需求或信息需求的感知效用;功能价值定义为被引文献对施引文献做出贡献的感知效用;条件价值是指感知效用与社会群体或个人的特征有关;社会价值定义为特定社会群体对被引文献的感知效用;情感价值定义为被引文献引起的积极或消极情感的感知效用。由此基
16、于引用过程概念模型,针对被引文献这一要素,从内容特征、作者特征、期刊特征以及感知价值4个方面对论文高被引的影响因素展开讨论,其中:内容特征、作者特征、期刊特征为学术层面的影响因素;由于感知价值体现了被引文献的社会影响,可以用表征社会影响的Altmetrics指标来衡量。2.2 基于引用过程概念模型的学术层面影响因素在内容维度,论文内容质量是论文被认可的最重要因素,论文的外部特征从形式和内容方面概括和展示了论文的特点,对论文被引情况有一定程度的影响11,与此同时,论文的早期被引特征也对论文被引预测有重要作用18-20。由此,从特征完备性和代表性出发,选取具有代表性的论文层面的特征21-22,包括
17、论文页数、作者数量、参考文献数量、首次被引的时间间隔、首次被引当年被引频次和首次被引两年内被引频次。在作者维度23,作者的学术声誉和影响力对论文早期被关注有重要的影响,尤其第一作者的学术声望和产出24-25经常被认为是论文影响力的关键影响因素。随着对作者维度因素的挖掘,实证研究表明论文合33集成传统学术评价和Altmetrics指标的论文高被引预测研究吴冰,齐思贤2023年第19卷第9期超千万篇论文。ESI一般以10年为计算周期,每两个月更新一次,从各个角度对国家/地区科研水平、机构学术声誉、科学家学术影响力以及期刊学术水平进行全面衡量,由此ESI高被引论文和高被引学者榜单为学界广泛接受和认可
18、,具有权威性和代表性。其次,ESI划分了22个专业领域,根据每个领域的学术论文的被引用情况进行科学排名,提供筛选高被引和高热度论文的各种层次,有助于快速查找特定领域的高被引论文集合。最后,所有ESI高被引论文及其相关信息都可以在Web of Science中快速检索,因此高被引论文具有可得性。3.2 Altmetrics指标平台选取选取Altmetric LLP平台提供数据作为论文Alt-metrics指标数据的来源。首先,Altmetric LLP平台是目前市场上最大的Altmetrics服务提供商,其旗下产品集成了从众多渠道收集到的数据,可全面衡量学术成果。在此基础上,通过加权将不同数据源
19、集成到一起,得出论文的综合性指标,由此数据涵盖面广且具有代表性。其次,作为最早的Altmetrics服务提供商,Altmetric LLP平台的Altmetric Explorer和Altmetric API分别提供了DOI和PubMed ID等标识符来追踪学术成果,研究者可根据自身的需求申请相应的权限,进而获取所需的Altmetrics指标数据集合,因此数据可得性高。3.3 论文集合的获取选取来自Web of Science数据库中经济与商业学科领域的论文集合作为研究对象:一方面是由于这个领域的论文发表数量可观,另一方面是由于这个学科领域与Altmetrics指标表征的网络传播和社会影响紧密
20、相关。基于2022年4月的ESI榜单,筛选出经济与商业学科领域的高被引论文集合,以Web of Science数据库的主标识符WOS号为检索标识,识别出共3 340篇高被引论文,发表时间范围为20122022年,平均每篇被引178次。在此基础上,以DOI为标识,根据高被引论文及其作者信息,通过Web of Science数据库检索获取作者之前发表的所有学术论文;将DOI作为关键字关联Alt-metrics指标数据,得到30 916条论文数据记录;进行数据清洗,排查异常值和重复值,最终得到27 953篇论文的数据,其中高被引论文共有4 403篇,非高被引论文共有23 550篇。4 论文高被引预测
21、4.1 描述性统计分析对论文维度的指标进行描述性统计,如表1所示。在论文早期被引特征中,论文首次被引的时间间隔最小值为0,即发表当年即被引用,论文整体首次被引的时间间隔平均为1.57年。论文首次被引当年被引频次平均为3.36次,2020年发表于The New England Journal of Medicine的文章“Use of CAR-Transduced Natural Killer Cells in CD19-Positive Lymphoid Tumors”首次被引当年被引频次最高,为164次,因其作者涉及社科领域而被收录至本数据集。论文首次被引两年内被引频次最大为601次,是20
22、21年发表于Asian Economic Papers的“The Global Macroeconomic Impacts of COVID-19:Seven Scenarios”。由此可见,与疫情相关的研究引起了社会的广泛关注。对作者维度的指标进行描述性统计,如表2所示。合作者最大论文数均值是一作论文数均值的近3倍,说明高被引论文的合作者处于持续发表论文的状态。在论文影响力方面,第一作者之间总被引频次差距很大,而H-index基于被引论文数计算,因而标准差相对较小。对期刊维度的指标进行描述性统计,如表3所示,不同期刊的影响力水平相距甚远。Nature期刊总被引频次最大,总被引频次为915 9
23、39次。Scientific Reports期刊发文数最大,总发文数为21 179篇。表1 论文维度指标的描述性统计数据类 别最小值最大值平均值标准差论文页数/页119818.2912.39作者数量/个11 3133.728.39参考文献数量/篇178159.6839.18首次被引的时间间隔/年0301.570.90首次被引当年被引频次/次11643.364.47首次被引两年内被引频次/次160110.8715.69342023年第19卷第9期表2 作者维度指标的描述性统计数据类 别最小值最大值平均值标准差一作论文数/篇12 50829.8356.07一作总被引频次/次0282 9042 51
24、9.645 913.71一作H-index021613.3913.42合作者最大论文数/篇13 09074.48119.73合作者最大总被引频次/次0324 8836 282.4112 635.28合作者最大H-index021625.7219.88表3 期刊维度指标的描述性统计数据类 别最小值最大值平均值标准差期刊总被引频次6915 93951 806.32138 381.45期刊影响因子0916.026.15期刊五年影响因子0897.456.79期刊即时指数02591.769.31期刊发文数6221 179620.942 208.06期刊被引半衰期0374.115.49期刊特征因子得分01
25、20.652.27期刊影响力得分04210.865.64对Altmetrics层面的6个指标进行描述性统计,如表4所示。Altmetrics指标数据来自多个开放社交媒体和网络平台,不同平台数据的覆盖度各不相同。在社交平台被提及、在开放新闻站点被提及、在搜索引擎被检索、在百科被提及、在在线阅读平台被阅读、在同行评议平台被提及的论文分别有3 806(13.62%)、679(2.43%)、747(2.67%)、27 953(100.00%)、27 953(100.00%)、8 722(31.20%)篇。百科和在线阅读平台数据覆盖度最高,但标准差较大,说明论文在这两个平台上的影响力有较大差异。表4 A
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 集成 传统 学术 评价 Altmetrics 指标 论文 高被引 预测 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。