生物医学领域多源文献数据学科映射方法优化研究_李晓瑛.pdf
《生物医学领域多源文献数据学科映射方法优化研究_李晓瑛.pdf》由会员分享,可在线阅读,更多相关《生物医学领域多源文献数据学科映射方法优化研究_李晓瑛.pdf(9页珍藏版)》请在咨信网上搜索。
1、1生物医学领域多源文献数据学科映射方法优化研究李晓瑛,刘懿,李爱花,等2023年第19卷第3期摘要:针对生物医学领域多源文献数据分类体系不一致、学科归属判别困难的问题,在分析国内外主流文献分类体系内容结构与已有映射方法优缺点的基础上,制定生物医学领域分类体系映射规则,提出集语义自动匹配、文献分类数据验证、人工审核于一体的融合映射方法。最终分别建立国际三大分类体系Web of Science、Scopus、FOR中生物医学类目与教育部 研究生教育学科专业目录(2022年)相关类目的语义映射关系,开展用于肿瘤专题文献篇级分类的国内外学科体系映射实践。研究成果能够促进国际学术成果的集中检索、分类组织
2、、统计评价等科研管理与学术分析工作,并为我国学科专业目录调整、人才培养、科研布局等提供决策依据与信息支撑。关键词:语义映射;学科归属;分类体系;映射规则中图分类号:G250 DOI:10.3772/j.issn.1673-2286.2023.03.001引文格式:李晓瑛,刘懿,李爱花,等.生物医学领域多源文献数据学科映射方法优化研究J.数字图书馆论坛,2023(3):1-9.李晓瑛 刘懿 李爱花 杨雪梅 唐小利(中国医学科学院医学信息研究所,北京 100020)生物医学领域多源文献数据学科映射方法优化研究*收稿日期:2023-03-08*本研究得到中国医学科学院医学与健康科技创新工程重大协同创
3、新项目“生物医学文献信息保障与集成服务平台”(编号:2021-I2M-1-033)资助。新医科建设背景下,医学与理、工、农等学科交叉融合深化,对高校科研管理与学术分析任务提出了新要求和挑战。目前各高校的科研管理和学术评价主要以多来源且分类体系各异的数字文献数据为基础,采用知识组织方法、文献计量法和信息分析方法,对多源跨库数据进行融合分析。其中,来自Web of Science(WoS)、Scopus等国际权威引文数据库的外文期刊数据是统计分析的基础与对象。然而,这些文献数据库基于相对独立的分类体系组织各自的资源,与我国高校和科研院所普遍采用的教育部 研究生教育学科专业目录(2022年)(以下简
4、称 学科目录)有所差异。将多来源的国际文献数据按照统一的分类体系进行组织,解决资源的学科归属问题,是我国高校开展科研管理与学术分析任务的一个重要前提。一般而言,可通过两种不同的途径来解决跨库文献数据的学科归属问题。一种是基于不同分类体系的映射与互操作1,即在理解源分类与目标分类内涵的基础上,建立等同或相近类目之间的映射关联,将文献数据的源分类信息匹配到目标分类体系中。另一种则是摒弃文献原有分类数据,将其视为大数据分类问题2-3,应用神经网络和深度学习模型,按照目标分类体系进行统一归类。鉴于当前缺少成熟的标注语料,加之生物医学文献数据体量庞大、学科高度交叉,第一种映射方法较之后者更加易于实现和扩
5、展。近年来,国内外学者在分类体系映射的理论方法和互操作实践等方面开展了许多研究,其中大部分围绕知识组织22023年第19卷第3期应用较为广泛的 杜威十进分类法(Dewey Decimal Classification,DDC)、中国图书馆分类法(以下简称 中图法)展开。典型成果包括瑞典图书分类法(Sveriges Allmnna Biblioteksfrening,SAB)与DDC第19版、第21版的映射,相关结果已经应用于瑞典图书馆联合目录系统;欧盟著名的学科信息门户项目Renardus采用DDC作为交叉浏览的知识框架,将其分别与荷兰、瑞典、德国、法国、英国等国家分布信息源采用的自编分类体系
6、进行映射4;英美学者对DDC与美国国会图书馆图书分类法(Library of Congress Classification,LCC)5、国际十进制分类法(Universal Decimal Classification,UDC)6之间的映射进行了有益探索。国内分类体系映射研究主要聚焦DDC与 中图法7-10、LCC与 中图法11、国际专利分类法(International Patent Classification,IPC)与 中图法 的映射12,以及近年来面向科研评价需求的国家自然科学基金项目分类与中国知网、WoS等国内外大型数据库学科分类体系的映射13。国外学者更加关注学科分类体系映射支
7、持浏览、检索等应用及项目实践,国内学者则致力于改进新兴信息技术驱动下的学科分类体系映射方法。在实证研究方面,国内外学者更倾向于选取内涵凝练、外延清晰的学科,例如化学、农学、林学、法学等;鉴于生物医学领域类目繁杂、学科交叉度高、专业性强,近年来仅有个别学者采用编辑距离法建立了医学分类表之间的映射关系14。随着深度学习、神经网络等技术的深度应用,学科分类体系映射方法不断优化,映射效率和准确率逐步提升,但是相关研究仍未有效解决生物医学领域多源跨库文献数据的学科归属判别问题。1 国内外主要分类体系及映射方法1.1 国内外主要分类体系随着网络信息资源增长及数字图书馆兴起,WoS分类体系、Scopus分类
8、体系、研究领域(Fields of Re-search,FOR)等文献数据库分类法应运而生,因其均依据现代学科设置类目,故可与教育部 学科目录 建立映射关系。表1简述了本研究涉及的7种国内外分类体系的编制机构、内容结构、编制目的及应用现状等基本情况,WoS、Scopus等数据库面向国际文献分类组织而自建的分类体系主要针对期刊级别,而适应重点学科建设的细粒度专题分类体系或将成为未来的发展趋势。相对而言,国内学科分类体系建设虽起步晚但发展快,日渐赶上国际步伐。中图法 初版发布于1975年,至今已修订发布了五版15-18,第六版文本已通过审查,新版可期。学科分类与代码(GB/T 137452009)
9、、学科目录 等信息分类标准与学位授予依据,以及支撑文献深度组织与图书编目的 中图法,成为目前国内学科分类体系的典型代表。1.2 国内外主要分类体系映射方法 按照分类体系映射过程中的人力参与程度,将现有的主流映射方法分为三大类:人工映射、自动映射及人机结合(表2)。其中,类目相似度计算、同现法(包括数据统计法)、交叉检索法、机器学习法等自动映射方法执行效率高12,19-21,并且可通过反复优化不断提升映射效果,成为实践探索的首选。然而,由于编制目的和面向对象不同,文献分类体系与学科分类体系存在类目内涵粒度不一致等情况,导致自动映射结果不准确,因此需要借助领域专家的专业知识进一步从语义层面调整优化
10、。2 生物医学领域多源文献数据学科映射规则与方法研究2.1 多源文献数据学科映射规则研究为了充分保障WoS、Scopus、FOR文献分类体系与教育部 学科目录 之间的映射结果质量,同时避免后期反复修正,提前制定映射规则。本研究在遵循国际标准ISO 25964-2:2013的基础上,提出面向生物医学领域不同分类体系映射的等同、上位、下位和相关4种映射通用规则以及针对一对一类目映射关系要求的专用规则。(1)等同映射。当文献分类体系与学科分类体系的类目内涵相同时,通过等同映射,在二者之间建立同义关系。(2)上位映射。WoS文献分类体系的类目揭示粒度较细,但教育部学科目录的类目粒度粗,导致大部分类目之
11、间无法建立等同映射。对WoS非交叉类目,以就宽不就窄的上位映射规则与同一个学科类目建立多对一关联关系;WoS交叉学科类目经上位3生物医学领域多源文献数据学科映射方法优化研究李晓瑛,刘懿,李爱花,等2023年第19卷第3期表1 国内外主要文献学科分类体系概况分类体系内容结构编制目的应用现状WoS分类体系科睿唯安公司针对WoS数据库核心合集采用的学科分类体系,内容涉及自然科学、工程技术、生物医学、社会科学、艺术与人文五大领域,包含22个一级大类、254个二级学科类别对WoS数据库中SCIE、SSCI等独立子库收录的2万余种期刊,依据现代学科进行分类组织,便于用户从现代学科角度检索获取论文细粒度,适
12、用于期刊级别的学科分类(见WoS数据库)Scopus分类体系爱思唯尔公司用于Scopus数据库的期刊分类体系,包含生命科学、社会科学、自然科学、医学四大一级领域、27个二级大类、334个三级学科子类对Scopus数据库收录的4万余种期刊进行学科分类粗粒度,适用于期刊级别的学科分类(见Scopus数据库)FOR数字科研解决方案有限公司基于 澳大利亚与新西兰标准研究分类法(Australian and New Zealand Standard Research Classification)改编形成;为两级体系,包含一级大类24个、二级类目212个对Dimensions数据库收录的1.3亿篇论文、
13、1.5亿件专利、620万项基金等数据进行分类组织,支持用户按FOR体系分类导航进行过滤检索细粒度,适用于篇级文献的学科分类(见Dimensions数据库)IPC改 编自国际 专利 分类 斯 特 拉 斯 堡 协定(International Patent Classification Strasbourg Agreement),严格按照部、大类、小类、大组和小组的五级体系组织,最新的第八版基本版约有2万条类目对海量专利文献进行组织和管理,为适应世界各国专利新颖性、创造性和检索有效性等特点,改革形成第八版细粒度,国际通用的专利分类和检索工具(见Dimensions数据库)ICRP CT由国际癌症研
14、究合伙组织(International Cancer Research Partnership,ICRP)建立并维护的癌症分类体系(Cancer Types,CT),共62个类目对癌症研究相关的文献、基金、奖励等数据,按照具体的癌症类别进行分类组织细粒度,适用于肿瘤领域篇级文献的分类(见Dimensions数据库)学科目录国务院学位委员会及教育部发布的 学科目录 是我国开展学位授权审核与学科管理、高校开展学位授予与人才培养工作的依据,分14个学科门类、181个一级学科为适应我国经济、社会、科技和高等教育的发展,规范学科专业的设置与管理而编制的学科分类体系粗粒度,适用于研究生专业设置及学士、硕士
15、、博士的学位授予工作,亦是现阶段高校和科研院所普遍采用的学科分类与评估依据中图法由中国国家图书馆编制与维护,是我国图书馆和情报单位普遍使用的综合性分类法。包含马列主义、毛泽东思想、哲学、社会科学、自然科学、综合性图书五大部类、22个大类。第五版为最新版,共53 713个类目充分吸取国外分类法编制理论和技术,针对我国图书资料的内容与特点,依据学科分门别类形成的一套分类体系细粒度,被我国高校及专业图书馆和情报机构广泛使用映射,与多个学科目录类目之间形成多对多映射关系。(3)下位映射。Scopus分类体系中带有“miscella-neous”杂项标识的类目揭示粒度较粗,无法对应教育部 学科目录,只能
16、采用下位映射,将大概念映射到具有包含关系的小概念中。(4)相关映射。当上述3种映射规则都不适用时,考虑语义关系较弱的映射关系,用于辅助映射但不建立映射关系。以上4种映射规则并非同级并列关系,而是具有明确的优先级,优先级从高到低依次为等同映射、上位映射、下位映射、相关映射。此外,本研究增加一条专用规则,即在一对多关系中区分最优映射和推荐映射,通过添加不同标识,为对学术成果进行唯一分类提供便利。例如将Scopus分类体系中的“2732 Orthopedics and Sports Medicine”最优映射到教育部 学科目录 中的“1002 临床医学”(标识P),同时推荐映射到“1009 特种医学
17、”(标识S)。42023年第19卷第3期2.2 多源文献数据学科映射方法研究本研究在上述映射规则的指导下,充分发挥类目相似度计算、交叉检索法、同现法、专家映射法等已有映射方法的优势,提出一种面向生物医学领域分类体系映射的融合方法(见图1),涉及预处理、自动映射、人工映射及映射优化4个关键环节。预处理自动映射映射优化 自动翻译(英译中)数据清洗等同映射文本字面相拟度(词频向量+余弦相拟度)语义相拟度(同义词)人工映射同现法上位映射下位映射相关映射交叉检索法(InCites、SciVal、WorldCat等工具系统)111132222图1 分类体系映射融合方法框架(1)预处理。预处理主要包括自动翻
18、译和数据清洗。自动翻译指将英文语种的文献分类体系类目翻译成中文,减少在外文类目识读上的时间和精力消耗,提高分类体系映射工作效果。可利用的成熟翻译工具较多,如百度翻译、CNKI翻译助手等,这在一定程度上保障了自动翻译的可行性与准确性。数据清洗指对个别未整体翻译的中英混合类目进行拆分清洗及人工翻译,为后续的自动映射处理做好数据基础。(2)自动映射。按照制定的4种分类体系映射规则,基于同义关系的等同映射规则具有最高的优先级,且容易通过计算机算法模拟实现。从类目术语的文本字面相似度和语义相似度两方面入手,完成文献分类体系与学科分类体系中等同类目的自动映射。前期实验表明,融合词频向量的余弦相似度法因具有
19、良好的结果区分度23,优于Jaccard、Dice等同类算法,故成为本研究的首选。此外,医学领域积累了 中文医学主题词表(CMeSH)等成熟的医学词表24。现有医学词表提供了规范的术语同义关系,从语义层面提升了自动映射效果。(3)人工映射。鉴于计算机程序较难自动判断文献分类体系与学科分类体系的类目内涵,无法准确地完成上位映射、下位映射及相关映射,本研究在前两个阶表2 国内外主要分类体系映射方法概况类 别方法名称基本原理优 势不 足人工映射专家映射法领域专家依据其自身经验与主观判断,在分类体系的类目之间建立对应关系映射结果汇聚了领域专家的智慧,准确性较高工作量大、执行周期长;易产生结果不一致的问
20、题,缺乏衡量结果的金标准自动映射类目相似度计算计算类目文本之间的相似度,选取与当前类目文本相似度最高的类目作为映射结果文本相似度计算过程简单,易于工程化仅计算类目字面相似度,忽略了深层次的语义信息同现法利用分类标引后的期刊文献或书目数据,通过统计类目在同一批标引数据中的同现频次,计算类目之间相关度映射结果来源于大量分类标引数据,具有一定的科学性与普适性对分类标引数据的完整性和准确性要求高,否则所得映射结果无意义交叉检索法用一种分类体系检索另一种分类体系标引的资源,通过分析检索结果,建立两种分类体系之间的映射关系处理过程直观、易懂,具有较高的可操作性得到的映射结果多为一对多的关系,粒度较粗机器学
21、习法将人工映射结果作为标注语料,训练机器学习模型,产生分类器,进一步预测类目之间的归类匹配关系高性能计算设备的普及、深度学习模型的兴起使得该方法受到极大关注需要预先准备质量高且具有代表性的语料,且映射结果可解释性较差人机结合基于众包模式的分类映射法22通过自动映射方法生成候选映射类目,在此基础上引入众包模式,利用群体智慧解决计算机难以完成的任务,提高映射准确率和覆盖率在自动映射的基础上进行人工干预,有效纠正错误并扩展更多映射关系,提高了映射结果质量大众参与分类映射存在一定难度,需要专业培训5生物医学领域多源文献数据学科映射方法优化研究李晓瑛,刘懿,李爱花,等2023年第19卷第3期段自动处理的
22、基础上,参考类目释义等注释信息,进行必要人工调整与增补。(4)映射优化。交叉检索法与同现法是一类复用现有资源和成果的分类体系映射方法。科睿唯安In-Cites、爱思唯尔SciVal等科研学术分析工具支持用户按照教育部 学科目录 交叉检索WoS、Scopus等数据库。通过获取这些数据库收录期刊的分类信息,可侧面了解国际出版商建立的WoS、Scopus等文献分类体系与教育部 学科目录 的映射关系,用于优化验证本研究初步得到的映射结果25。此外,由于WoS、Scopus、Dimensions等数据库收录的国际期刊存在较高的重合度,可借助同一种期刊在WoS、Scopus、FOR等国外文献分类体系中的分
23、类数据,采用同现法优化完善其与我国教育部 学科目录 相关类目的映射关系。3 生物医学领域多源文献数据学科映射实践生物医学领域文献量大,以期刊为分类对象的WoS、Scopus分类体系类目设置不均衡,特别是临床医学相关类目粒度过细,无法较好地满足按类统计分析的需求。以FOR为代表的国外学科分类体系受国情和学科发展背景影响,分类原则和类目划分具有鲜明的地域特色。目前我国教育部 学科目录 根据学科专业发展规律,将医学专业分为基础医学、临床医学、口腔医学、公共卫生与预防医学、中医学、中西医结合、药学、中药学、医学技术、法医学、护理学11个大类,各类之间专业粒度较为均匀,同时符合教育统计分类的要求。因此本
24、研究在期刊层面,将WoS、Scopus、FOR、IPC等国际主流分类体系与教育部 学科目录 进行映射,以适应国内分析研究和教育统计等工作需要。由于教育部 学科目录 分类粒度较粗,在单篇文献层面,选取细粒度并以学科为分类标准的 中图法作为映射目标。3.1 WoS、Scopus与教育部 学科目录 映射为了满足我国生物医学相关高校和科研院所建设一流学科的学术成果分析评价和国际对标等需求,在自动映射的初步结果基础上,基于InCites分析工具及WoS、Scopus类目完成双重优化,最终建立了WoS的104个类目与教育部学科目录 14个生物医学类目之间的147对语义映射关系,以及Scopus的154个类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物医学 领域 文献 数据 学科 映射 方法 优化 研究 李晓瑛
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。