标准知识数字化表达通用模型与自动抽取技术研究.pdf
《标准知识数字化表达通用模型与自动抽取技术研究.pdf》由会员分享,可在线阅读,更多相关《标准知识数字化表达通用模型与自动抽取技术研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、83STANDARD SCIENCE2024,No.1标准知识数字化表达通用模型与自动抽取技术研究马小雯1 孙红军2*刘彦林1 甘克勤2(1.之江实验室;2.中国标准化研究院)摘要:标准数字化是国内外标准化发展的重要领域和方向。研究以食品与农产品领域标准为研究对象开展标准知识数字化表达的通用模型与自动抽取技术研究,明确了国内外标准化数字化研究现状与问题,提出了标准知识数字化表达的通用模型,开展了标准知识数字化自动提取技术研究,实现对表达模型的知识要素的自动标注和抽取,并据此形成具有语义关联的标准知识。最后,以2000项食品与农产品领域标准为例进行标准知识数字化表达模型与自动提取技术的实证研究。
2、关键词:标准知识,数字化,通用模型,自动抽取,语义关联 DOI编码:10.3969/j.issn.1674-5698.2024.01.012Research on Universal Model of Digital Representation of Standards Knowledge and Automatic Extraction TechnologyMA Xiao-wen1 SUN Hong-jun2*LIU Yan-lin1 GAN Ke-qin2(1.Zhejiang Lab;2.China National Institute of Standardization)Abstr
3、act:Standards digitization is an important field and direction of development at home and abroad.This research takes the standards in the field of food and agricultural products as the research object to carry out the research on the universal model of digital expression of standards knowledge and t
4、he automatic extraction technology of standards knowledge,defines the current situation and problems of standardization digitization research at home and abroad,puts forward the universal model of digital expression of standards knowledge,and carries out the research on digital automatic extraction
5、technology of standards knowledge.The knowledge elements of the representation model are automatically labeled and extracted,and the standards knowledge with semantic association is formed accordingly.Finally,the digital representation model and automatic extraction technology of standards knowledge
6、 are studied by taking 2,000 food and agricultural product standards as examples.Keywords:standards knowledge,digitization,universal model,automatic extraction,semantic association基金项目:本文受之江实验室开放课题“面向图表识别的标准数字化知识提取标准研究”(项目编号:K2022NH0AB02)、中国标 准化研究院院长基金项目“数字标准馆标准体系构建及关键标准研制与应用”(252023Y-10411)资助。作者简介:
7、马小雯,硕士,之江实验室智能科技标准化研究中心工程师,研究方向为标准数字化。孙红军,通信作者,博士,副研究员,研究方向为标准数字化。刘彦林,学士,高级工程师,研究方向为标准数字化、数据要素标准化。甘克勤,硕士,中国标准化研究院国家标准馆副馆长,研究方向为标准数字化。Research on Standard Application84标 准 科 学 2024年1期0 引 言以新一代信息技术为代表的新一轮科技革命和产业变革加速演进,经济、产业数字化转型成为时代趋势。标准作为经济活动和产业发展的技术支撑,以及国家基础性制度的重要方面,无论在深度还是在广度上都即将受到这一趋势的影响。国家标准化发展纲要
8、指出,“发展机器可读标准、开源标准,推动标准化工作向数字化、网络化、智能化转型”。标准数字化转型已成为新时代我国重点产业发展的战略任务,对增强我国产业发展安全、参与全球市场竞争具有重要意义。随着我国食品与农产品行业的迅速发展,企业规模不断增长,食品与农产品行业的安全形势比较严重,面临的挑战和竞争前所未有,同时暴露出的安全、健康、环境问题也愈来愈多,在新产品研制面临的对象、要求的技术条件、新工艺、新技术应用等方面的安全与环保问题日益突出。为进一步加快标准数字化转型步伐和有效解决食品与农产品领域安全与环保问题,本研究将以食品与农产品领域标准为研究对象开展标准知识数字化表达模型与自动提取技术研究,首
9、先,明确国内外标准化数字化当前研究现状与问题;其次,通过文献和实地调研,提出标准知识数字化表达模型;再次,开展标准知识数字化自动提取技术研究,实现对表达模型的知识要素的自动标注和抽取,并据此形成具有语义关联的标准知识库;最后,以2000项食品与农产品领域标准为例进行标准知识数字化表达模型与自动提取技术的实证研究,以验证理论或技术的可行性。1 国内外研究现状有关标准知识数字化表达模型主要集中于以下3个方面。(1)在图书文献领域,越来越多的信息研究机构正在推进语义解析,支持各种细粒度的知识单元关联与计算,不仅包括段落、表格、人物、机构,还包括知识点、概念等复杂本体关系的构建。并通过XML系列置标语
10、言的描述和标记,与特定领域的各种知识相关联,支持可计算、可推理的智能检索与语义知识发现。国外已推出文献知识表达服务,将传统以文献为中心的搜索平台,转换为以事件为中心和RDF为基础的复合语义架构。许多国际信息研究机构已经在语义解析方面进行诸多实践,卓有成效。数字技术和数字环境在颠覆传统资源形态的同时,也在全面改造信息资源建设与服务模式。国家科技图书文献中心(NSTL)构建科技知识组织体系共享服务系统(STKOS),收录615,384个概念,2,321,681个术语,应用于NSTL数以亿计的外文期刊内容的本体揭示,形成NSTL更具语义特征的知识搜索和关联体验。(2)在商业应用方面,知名医学数据库P
11、ubMed通过医学主题词(MeSH),对自然语言表达的医学文献进行规范化处理和标引,表明文章核心内容,实现基于语义树的引导式搜索。PubMed凭借其语义级别的标引,在医学领域得到广泛应用,在知网以PubMed为关键词搜索,可以查到2000余篇论文是基于PubMed产出的科研成果。目前,国内也有一些数字化公司开发产业数字大脑平台,即按照产业链的思路,对某一企业发展的上下游企业、所需人才、技术、资源进行语义化关联,实现对企业或产业的动态跟踪和管理。(3)在标准知识层面,2019年,ISO/IEC正式提出了一种名为SMART(Standards Machine Applicable,Readable
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 标准 知识 数字化 表达 通用 模型 自动 抽取 技术研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。