国外档案关联数据项目的建设概览与本土启示.pdf
《国外档案关联数据项目的建设概览与本土启示.pdf》由会员分享,可在线阅读,更多相关《国外档案关联数据项目的建设概览与本土启示.pdf(7页珍藏版)》请在咨信网上搜索。
1、(栏目编辑:胡菡)摘要:论文对国外近十年档案关联数据项目的建设现状进行全面梳理,总结其建设特点及应用场景,为我国档案领域加快应用关联数据、推进档案数字化转型提供启示。本文通过网络调查法、案例研究法和内容分析法,从项目背景、项目环节和项目成果三个维度分析了国外档案关联数据项目特点,总结了关联数据应用场景包括的语义描述、资源整合和知识服务三个方面,提出了国外档案关联数据项目对本土的启示,即加快构建档案关联数据集、树立需求导向的开发理念、促进跨领域的对话与合作。关键词:档案 关联数据 语义描述 资源整合知识服务Abstract:This paper comprehensively sortsout
2、the construction status of foreign archiveslinked data projects in the past ten years,summarizes their construction characteristics and application scenarios,and provides inspiration for accelerating the application of linked data and promoting the digital transformation of archives inChina.Using on
3、line investigation,case studies,and content analysis,the characteristics of foreign archives linked data projects are analyzedfrom three dimensions:project background,project process,and project outcome,and the application scenarios of linked data are summarizedas semantic description,resource integ
4、ration,and knowledge service.The enlightenment of foreign archives linked data projects for China include:accelerating the construction of archivallinked data sets,establishing the demand-oriented development concept,and promoting cross-field dialogue and cooperation.Keywords:Archives;Linked data;Se
5、manticdescription;Resource integration;Knowledge service一、引言关联数据是在万维网上表示和链接结构化数据的一系列技术,旨在构建一张计算机能够理解的语义数据网络,而不仅仅是人能读懂的文档网络,以便在此之上构建更智能的应用。1从技术视角来看,它作为互联网协会(W3C)所推荐的一种信息组织、联结和发布的规范,要求以通用资源标识符(URI)为统一的访问数字资源路径,利用HTTP协议在网络上发布资源描述框架(RDF)格式的数字资源。随着档案领域不断迈向信息化、数据化和智能化,语义、关联、开放和共享已然成为档案数字化转型中的突出关键词。关联数据以其所
6、具有统一标识、标准描述、多维揭示、整合共享等功能,在档案资源描述、档案资源组织与整合、档案资源共享与利用服务等场景中不断表现出应用潜力,相关应用研究和实践探索不断推进,为解决异构数据分散、资源整合程度不深、档案知识价值实现等问题提供新思路和新途径。在实践探索层面,国外档案领域已形成不少代表性项目应用实践。欧盟、美国等地区和国家纷纷加大对档案关联数据的开发和应用,越来越多的档案馆发布关联数据形式的档案数据。如2022年8月25日,美国国家档案与文件署(National Archives and Records Administration,NARA)发布数字保存框架的国外档案关联数据项目的建设概
7、览与本土启示*沈永生1加小双2林妍歆2域外采风北京档案二二四年第二期52关联开放数据集版本,以此提升数字保存框架的透明度和可访问性。2相较而言,我国档案管理实践领域对于关联数据的应用广度和深度与国外相比存在一定差距。如何借助关联数据的技术力量,推动档案数据的生产与服务的全新方式,是我国档案实践部门在推进数字转型过程中亟需关注和重视的问题。在理论研究层面,我国档案领域对于关联数据的应用类研究较为分散,可主要归结为三个层面:一是基于关联数据的档案资源整合研究,主要是提出理论层面的构建框架,如LAM馆藏资源整合实现流程及其推动措施3、电子病例资源的构建模型4、历史档案的聚合框架5;二是基于关联数据的
8、档案利用价值研究,如社交媒体档案价值的实现6;三是关联数据的应用影响因素研究7。整体来看,现有研究多数是在档案资源建设与开发利用的议题下,以关联数据为技术手段,探索其在档案领域中的应用方案,缺乏对于档案关联数据项目及其应用场景的关注和探讨,也未能实现对当前实践项目的经验总结与宣传介绍。基于此,在国外应用实践显著领先于国内的情况下,本文选择国外近十年的档案关联数据项目,进行内容调查与数据收集,从项目背景、项目环节和项目成果三个维度梳理其实践特点,从中总结档案关联数据的三大应用场景并得出本土启示,以期为我国档案领域加快开展关联数据项目、推进档案数据互联、实现数字转型提供参考借鉴。二、国外档案关联数
9、据项目的建设概览(一)国外档案关联数据项目的建设现状确定数据收集对象。首先,以 LODLAM 官网()8、W3C图书馆关联数据孵化小组(LLDXG)提交的关联数据用例分析报告9、美国档案学会官网(SAA)10、档案与关联数据国际研讨会官网(The International Workshop on Archives andLinked Data)11作为核心数据源,进行相关项目的初步检索与收集;其次,采用引文追溯法和项目滚雪球法,从已有的文献研究中梳理相关的关联数据项目及其资料;最后,利用百度、谷歌、必应、雅虎等国内外网络搜索引擎,输入“archive”和“linked data”等关键词进行
10、模糊检索,尽可能扩大数据收集的范围。筛选所收集到的数据。考虑样本选择的全面性和本文的研究问题,筛选条件为:(1)项目必须涉及关联数据在实践部门的落地应用,而非纯粹的理论性研究;(2)项目必须涉及对档案资源的加工和处理(包含手稿、口述历史等);(3)项目资料以中英文为主,便于本文作者理解和分析。本次数据收集在2022年10月20日至11月20日展开,依据上述收集和筛选策略,本研究最终选定25个项目作为分析样本(详见表1)。对这25个项目样本进行初步分析,结果如下:首先,从时间维度上看,项目数量主要集中于近十年之间,这与关联数据技术的提出、应用等发展的整体历时性演进保持一致;其次,从地域维度上看,
11、项目样本主要分布于英国、美国、法国、意大利、挪威等多个国家地区,这表明目前国外档案领域对关联数据的研究和应用仍主要集中在发达国家层面,这与国家的技术发展水平和档案事业发展水平密切相关;再次,从主导和参与机构来看,绝大多数项目都由提供档案资源的档案馆等公共文化机构和提供技术研究支撑的高校院所、研究单位合作完成;最后,从项目级别来看,多数项目属于机构项目级别,并未形成整体性或者国家性行动。总体而言,国外的档案关联数据项目取得了可观的成果,积累了相当的经验,在很大程度上能够为回答“为什么要利用关联数据”“档案关联数据有什么作用”“如何达到档案关联数据应用的预期目的”等问题提供经验借鉴。(二)国外档案
12、关联数据项目的建设特点1.项目背景:以机构管理需求为内驱力。通过项目背景梳理可以发现,档案关联数据开发的驱动力主要来自档案机构内部的管理需求,同时也契合以“用户需求”为导向的服务目标特点。换言之,关联数据在档案领域的应用并非盲目地将理论研究成果照搬、套用到现实的实践领域之中,而是具有充分的现实场景需求和强烈的问题导向。比如CPDOC项目15的研究人员和历史学家希望采取创新灵活的管理工作模式,为此需要对现有的数据模型加以改进,但这又需要尽可能在原有的基础上对现有的数据进行转换,最终该项目组选择利用关联数据技术将自身的档案数据与其他本体模型、外部数据集进行关联,以增强自身档案资源的互操作性;ARC
13、HIVE项目16考虑到现有的数据模型可能存在传统收集和著录方式所导致的一种潜在“档案偏见”问题,因此尝试借助关联数据技术全面地描绘整个档案资源,尽可能保留所有档案的原始面貌,包括档案的分类和存储方式,从而避免档案资源描述的“扭曲”,进而为用户提供全面的信息资源。综合来看,档案部门借助关联数域外采风北京档案二二四年第二期53据技术在数据语义化、标准化描述等方面表现出的强大优势,为眼前档案管理和利用领域的一些突出问题的解决提供了思路和工具,进而为未来实现更大范围内档案数据的集成整合,以及高质量的档案知识服务奠定基础。2.项目环节:强调语义转换与语义关联。通过项目内容梳理可以发现,档案关联数据项目的
14、两个重点环节在于档案关联数据的构建和共享数据网络的构建,而其中的语义转换和语义关联则是与之相对应的、应用和发挥关联数据技术价值的核心关键步骤。语义转换是档案关联数据构建的基础性环节,它是指对元数据方案、规范档、分类法、叙词表、主题标题表等不同的档案组织系统(KOS)进行转换,主要将其转化为符合RDF数据模型的语义三元组形式,以便为后续赋予HTTP URI标识、形成符合关联数据环境的馆藏RDF描述文档、发布RDF序列化格式,构建语义链接等环节奠定基础。目前档案实践领域存在着数据格式标准及知识组织方案的数量增多且交叉重叠的普遍现象17,只有先做好语义转换这一步才能确保消除档案资源微观结构在馆与馆、
15、机构与机构之间的异构障碍。语义关联是共享数据网络构建的重要环节,它可以将档案馆中来自不同领域的资源对象进行聚合,也可将分布式的异构资源数据项进行关联,从而实现档案资源的语义聚合及语义之间的互操作。18相较于语义转换针对的是档案资源自身的描述方式,语义关联针对的则是多个档案资源之间语义层面的关联关系。因此只有实现语义关联才能真正实现不同组织的档案资源从分散管理走向集成管理,从孤立保存走向互通利用。综上,无论是从管理视角还是技术视角来看,档案语义转换与关联都是档案关联数据项目的突出环节。3.项目成果:贯穿多个场景的价值实现。通过项目成果梳理可以发现,目前主要存在两种类型:一是档案关联数据集的创建与
16、发布,包括:(1)各类概念体表1 国外代表性档案关联数据项目基本情况(部分)序号序号序号序号 项目时间项目时间项目时间项目时间 项目名称项目名称项目名称项目名称 主导机构主导机构主导机构主导机构 项目内容项目内容项目内容项目内容 项目背景项目背景项目背景项目背景 项目环节项目环节项目环节项目环节 项目成果项目成果项目成果项目成果 1 2 0 1 0 社交网络和档案环境项目 1 2(S o c i a l Ne t w o r k s a n d A r c h i v a l C o n t e x t P r o j e c t,S N A C)弗吉尼亚大学人文高级技术研究所、加州大学伯克利
17、分校信息学院、加州大学加州数字图书馆 希望个人、祖先或机构的传记历史被整合到一个文件中,而不是通过不同的协会传播数据,从而减少了搜索各种记忆组织来定位所寻找的知识的任务 1.从参与机构收集资源数据,从 MA R C目录和 E AD查找辅助工具中汇编记录说明,并将其转化为 E AC-C P F文件 2.管理识别和配对类似 EA C-C P F记录的过程,以创建一个可搜索的统一文件 开发一个用于发现、定位和使用关于个人、家庭和组织的分布式历史记录的本体模型,用于档案语义描述 2 2 0 1 3 欧洲数字合作存档体系结构项目 1 3(C o l l a b o r a t i v e E u r o
18、 p e a n D i g i t a l A r c h i v e A r c h i t e c t u r e P r o j e c t,C E ND A R I)欧洲委员会 希望为历史研究者建立一个开放共享的查询系统,因此需要档案的数据描述集具有互操作性 1.开发设计出一个基于关联数据的 C E N DA R I 集合模型 2.将此集合模型与现有档案标准进行兼容 1.整合中世纪和现代欧洲历史的数字档案 2.开发一个易于使用、获取历史数据的知识库,提供灵活的查询功能 3 2 0 2 1 A R T c h i e v e s 项目 1 4(A R T c h i e v e s P
19、 r o j e c t)意大利波伦亚大学 为挖掘档案数据的知识价值,利用关联数据技术建立档案资源的知识图谱,便于研究人员检索资源,并进行定量研究1.建立基于众包项目的档案数据管理系统,采集档案信息 2.开发基于关联数据的档案编目系统,支持档案信息的编目过程 开发出一个提供 S P A R Q L 检索方式的知识图谱 域外采风北京档案二二四年第二期54系受控词表的发布(即将KOS发布成SKOS),如雪城大学图书馆项目19(Syracuse University LibraryProject)针对三种类型的馆藏档案(静态图像、声音记录和视频记录)进行分析,建立并发布了一个基于关联数据的本体模型作
20、为KOS加以推广和应用;(2)关联数据形式的档案资源集合的发布,如博洛尼亚大学文化遗产领域艺术照片档案项目(Zeri&LODEProject)20将Zeri照片档案目录中使用的描述性元素映射到RDF中转换为关联数据形式,创建并发布映射数据集输出的RDF。二是根据所获得的档案数据资源,支持档案资源整合与共享、档案知识服务工作,如“战后昆士兰的建筑实践:建立和解释口述历史档案”项目(Buildingan Online Digital Archive of Architectural Practicein Post-War Queensland)21利用关联数据技术将从个人口述历史中提取的隐性知识与
21、个人、公司、国家机构中存在的有形知识(图画、书籍、照片、手稿)关联起来,利用通用本体模型和Web用户界面建立一个知识库,提供知识发现功能。综合来看,档案关联数据技术通过对档案发布内容的数据或文件格式、资源描述的颗粒度进行控制,挖掘出其中有价值、深层次、多方位的关联点,建立起内外多个维度的档案资源组织和互联,从而有效地提升档案资源整合水平和知识服务能力。可以说,无论从档案部门内部管理视角,还是从用户的利用视角,档案关联数据的项目成果从实质上来看就是贯穿于多个场景的价值实现,即全方位地发挥档案资源的数据价值、信息价值和知识价值。三、关联数据在国外档案管理领域的应用场景通过对项目成果的深入分析,可以
22、进一步将档案关联数据的应用场景拆解为档案语义描述、档案资源整合和档案知识服务三个方面。研究发现,这三个应用场景之间事实上暗含着档案资源从建设、开发到利用服务全流程的关系,同时展现出档案关联数据在档案管理领域应用的阶梯式递进发展脉络。(一)档案语义描述“档案语义”是指由依附于档案载体的自然语言文本或符号所映射的,特定时空当中参与各类社会职能的机构、人员、实物等实体的属性、关系及其互动过程等事实性信息的集合。22对档案语义进行描述就是揭示出档案的内容信息,如人、事、地、时、物等实体及实体概念之间的隐含关系。根据描述深度的不同,可将描述方式划分为浅层特征语义描述和细粒度内容特征语义描述两类。在档案数
23、据化趋势下,细粒度的内容特征语义描述明显是当前档案资源朝着数据化方向发展的核心任务,而档案关联数据技术的应用恰好能够实现对档案语义信息的深度描述任务。通过项目分析发现,目前利用档案关联数据进行语义描述的方式可主要归纳为以下两种:一是在原有的描述性元数据基础之上补充信息,达到语义增强的目的。如 Geographical Information Retrieval 项目23通过链接外部词汇和数据集来增强和丰富档案描述。二是设计出一个基于关联数据的本体模型,将现有元数据描述自动映射到这一关联数据结构,用本体描述代替元数据描述,从而更好地显示出档案在内容级别上的关联。如LOCAH项目24开发了一个从E
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国外 档案 关联 数据项 目的 建设 概览 本土 启示
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。