我国档案开放数据资源的建设进展与展望.pdf
《我国档案开放数据资源的建设进展与展望.pdf》由会员分享,可在线阅读,更多相关《我国档案开放数据资源的建设进展与展望.pdf(8页珍藏版)》请在咨信网上搜索。
1、(栏目编辑:卢艳霄)北京档案二二四年第三期理论探讨摘要:调查我国档案开放数据资源建设进展,旨在明确档案领域参与公共数据开放的优化策略。通过调查档案机构在档案机构官网及公共数据开放平台开放数据的情况,从数据全面性、数据可获取性、数据及时性、数据可用性以及数据互操作性等方面进行解析。由此,发现我国档案开放数据资源建设目前存在着数据开放规模不足、数据资源价值有待提升以及开放程度有限的问题。因此提出档案开放数据资源建设的优化策略,即完善档案开放数据制度,深化主体参与和协同,推进档案开放数据资源对接融通以及完备档案开放数据资源建设流程。关键词:开放数据 档案数据 数据资源建设 档案机构Abstract:
2、The aim of conducting research onthe progress of archival open data construction isto determine the optimization strategies of publicdata openning propelled by archives.Based on literature research and online research,a comprehensive investigation was conducted on the dataresources made available by
3、 archival institutionson their official websites and public platforms.The study employed a combination of qualitativeand quantitative research methods to examinethecomprehensiveness,accessibility,timeliness,usability,and interoperability ofdata resources.Currently,the construction of open dataresour
4、ces in Chinas archival sector faces challenges such as insufficient scale of data openness,the need for enhanced value of data resources,and limited degree of openness.Basedon the findings of the investigation,it is recommended to develop and implement corresponding optimization strategies at four l
5、evels:institutional,organizational,platform,and procedural.These strategies aim to fully establish a data resource systemby improving the institutionalframework for open archival data,deepening theinvolvement and collaboration of relevant stakeholders,promotinginteroperabilityofarchivalopen data res
6、ources,and enhancing the construction process for open data resources in thearchival sector.Keywords:Open data;Archival data;Dataresources construction;Archival institution作为数字时代推进中国式现代化的重要引擎,数字中国建设已上升至我国的重点发展战略,数据资源体系建设成为其中两大建设基础之一,档案机构的参与空间随之日趋显著与扩展。于国家至各地的档案事业“十四五”规划中,开放档案数据、融入数据战略、数据归档等成为高频词,指向档
7、案机构充分参与数据资源体系建设。因此,以档案机构官网(指档案主管部门网站、档案馆网站,如档案信息网、档案服务网等)上线历史档案目录与全文数据、参与政府开放数据平台建设等为焦点实践的档案开放数据资源建设被视作关键行动,且正逐步显现实践成效。同时,档案机构如何更全面参与开放数据、如何平衡档案领域的专业要求与公共数据开放的通用方法、如何凸显档案机构在公共开放数据资源建设中的重要地位等亦显示出一定的实践局限。因此,基于现有的实践进展洞察档案开放数据的问题与发展策略极为必要,以便推动档案机构为数字中国的建设贡献更多的力量。理论层面,有关开放数据的研究可为档案开放我国档案开放数据资源的建设进展与展望周文泓
8、吴一凡刘鹏超13理论探讨北京档案二二四年第三期一级指标一级指标一级指标一级指标 二级指标二级指标二级指标二级指标 指标说明指标说明指标说明指标说明 全面性 数据数量 用户在平台上可以检索到的档案数据集数量及数据容量 A P I 数量 开放A P I 的数量 各类型数据集数量 档案数据集的类型,包括档案内容数据、档案目录数据、机构业务数据与其他 元数据配置 档案数据集所提供的元数据类型 可获取性 注册登录 用户下载数据集时是否需要注册登录 批量获取 是否可以批量获取档案数据集 付费情况 是否存在付费获取档案数据集的情况 及时性 更新频率 档案数据的明确更新频率与实际更新频率 可用性 数据授权 档
9、案数据的授权群体:全体/特定 数据格式 是否提供机读的数据格式 互操作性 关联数据 是否为数据集的关联数据提供唯一资源标识符 元数据差异 不同地区提供的元数据配置之间的差异性 表1 档案开放数据资源建设调查框架数据资源建设提供探索框架与成果参照的同时,档案领域亦逐步深入其特定场景展开讨论。研究成果主要集中在以下两大方面。一方面是明确政府开放数据行动下档案机构的角色定位与目标。要求档案机构积极主动参与政府开放数据行动,承担制定数据政策、监管数据机构并提供数据集的任务1,并追求在开放数据背景下实现档案数据价值提升2、档案数据资源整合3等档案数据发展目标。另一方面是立足实践调查的具体问题给出针对性建
10、议,强调案例调查与数据分析4-5,发现实践局限与问题6,由此从政策制定7、法律推行8-9、平台构建10等多个方面提出相关策略。然而,当前的研究更多在于理论分析或参考国外案例,缺乏对我国实践现状的充分调查分析,有待形成更具针对性的建议。因此,本文将对档案开放数据资源建设进展展开调查,明确现有行动、成效、问题,由此展望更优实践策略,以期更加充分参与数字中国建设背景下的数据资源体系构建。一、数据收集与分析方案首先,调查对象的确定:(1)依据文献调研与预调查,档案机构开放数据主要体现为三种方式,即档案局于公共数据开放平台开放数据、档案馆于公共数据平台开放数据、档案馆于档案机构官网发布档案目录与全文数据
11、,这三类为主要调查内容;(2)调查方式主要是在线观察,范畴为各地的公共数据平台与档案机构官网;(3)为确保调查的代表性与全面性,省级地区被纳入调查范畴;(4)逐个访问现有省级平台,对其进行筛选,剔除档案机构未进行数据开放的平台以及目前无法访问的平台,最终确定可获取数据的为山东省、浙江省、河北省、北京市、江苏省、天津市、重庆市7个公共数据开放平台,以及北京市、天津市、浙江省、江苏省、辽宁省、河南省、山东省、福建省、湖北省、湖南省、吉林省、四川省、黑龙江省、重庆市、海南省、安徽省、山西省、云南省、甘肃省、宁夏回族自治区、广西壮族自治区21个省级地区的档案机构官网。其次,调查内容的设计:由于目前档案
12、开放数据资源建设并没有明确的评估体系,因此主要参考“全球开放数据晴雨表”11-12等评估指标以及代表性研究13-14,最后选定从数据全面性、可获取性、及时性、可用性以及互操作性这五个方面确认调查内容,调查框架如表1所示。最后,数据分析主要从以下几个部分展开:(1)由各个调查指标确认档案开放数据资源建设情况;(2)对不同类型的档案开放数据资源建设进展进行对比分析;(3)分析档案开放数据资源建设实践的特点;(4)解析档案开放数据资源建设实践的不足;(5)展望更优的实践策略。二、我国档案开放数据资源建设情况本次调查截止于2023年12月21日,主要情况如下。(一)数据全面性数据全面性衡量的是各平台开
13、放数据的数量与内容,并明确是否提供相应的数据集信息与元数据信息来帮助数据利用者清楚理解档案内容,更好地对其加以利用。因此,数据全面性主要从数据集数量、数据容量、各类型数据集数量、API数量以及元数据配置五个方面来进行调查。1.数据集数量。总体而言,公共数据开放平台中档案机构开放的数据集数量较少。如图1所示,在调查的7个平台中,4个平台提供的档案数据集数量不多于10个,仅北京市与浙江省分别完全依靠档案局和档案馆开放了超过20个数据集。而其中北京市档案局所提供的数据集数量最多,共可检索到30个;而重庆市仅由档案局提供了1个数据集。2.数据容量。在公共数据开放平台中,江苏省未显示数据容量,浙江省提供
14、了 1724494条数据,遥遥领先于其他省份。北京市提供了821317条,山东省提供了 126895 条,而重庆市仅提供了 20 条。14 单 位:个一级指标一级指标一级指标一级指标 二级指标二级指标二级指标二级指标 指标说明指标说明指标说明指标说明 全面性 数据数量 用户在平台上可以检索到的档案数据集数量及数据容量 A P I 数量 开放A P I 的数量 各类型数据集数量 档案数据集的类型,包括档案内容数据、档案目录数据、机构业务数据与其他 元数据配置 档案数据集所提供的元数据类型 可获取性 注册登录 用户下载数据集时是否需要注册登录 批量获取 是否可以批量获取档案数据集 付费情况 是否存
15、在付费获取档案数据集的情况 及时性 更新频率 档案数据的明确更新频率与实际更新频率 可用性 数据授权 档案数据的授权群体:全体/特定 数据格式 是否提供机读的数据格式 互操作性 关联数据 是否为数据集的关联数据提供唯一资源标识符 元数据差异 不同地区提供的元数据配置之间的差异性 单位:条单位:个单位:个北京档案二二四年第三期理论探讨就档案机构而言,省级档案馆总开放数据量为1875312条,远超同级档案局。而档案机构自主开展的档案数据开放,更多的是通过其官方网站以单条记录的形式进行。如图2所示,辽宁省发布的数据最多,共1197877条,而最少的云南省仅135条。从总体来看,21个调查对象中,17
16、个档案机构官网提供的数据量小于50万条。3.各类型数据集数量。档案机构在公共数据开放平台中更多以发布目录数据为主,江苏省、天津市、浙江省开放的档案数据集全部为档案目录数据。也有部分地区如北京市、河北省、山东省和重庆市也发布机构业务类的数据,例如档案馆查档指南等。目前尚未有档案机构在公共数据开放平台中开放内容数据。而档案机构官网开放的档案数据更多为档案目录数据与内容数据,但仍以目录数据为主。其中,13个地区只提供了档案目录数据,海南省、吉林省、湖南省开放的档案资源则均提供档案全文。而余下地区的目录数据数量均超过了内容数据。4.API数量。目前仅有海南省、北京市、浙江省与山东省四个地区的公共数据开
17、放平台提供API接口。其中,API接口数量最多的为山东省公共数据开放平台,为27个;而海南省公共数据开放平台仅提供4个接口。5.元数据配置。从数量来看,公共数据开放平台均提供6个以上的元数据配置,其中浙江省、山东省、天津市的元数据配置超过了10个。各档案机构官网提供的元数据配置大部分都在5个以上,但也有少数地区的平台提供数量较少,例如云南省只提供1个元数据。如图3所示,从频率来看,目前所有平台都提供了数据名称要素,发布时间、档案号、责任者、成文日期、来源部门这 5 个要素的覆盖率在50%以上。此外,主题分类、摘要、开放状态、更新时间以及标签要素的平台覆盖率在15%30%。其余21个元数据要素提
18、供均小于5个,其中目录名称等11个元素甚至仅1个平台提供。图1 各地公共数据开放平台中档案开放数据集数量图2档案机构官网开放的数据容量图3元数据配置情况15理论探讨北京档案二二四年第三期(二)数据可获取性如表 2 所示,根据调查结果,包括河北省、浙江省公共数据开放平台在内的 8 个站点需登录后才可下载利用档案数据集,24 个站点不支持批量获取档案开放数据集,所有站点均不存在需付费才可获取数据集的情况。公共数据开放平台与档案机构官网在数据获取限制上存在较大差异。前者要求用户注册并登录后才可获取数据,而绝大部分档案机构官网都无须注册登录,但未开发批量获取数据的功能。(三)数据及时性在28个调查平台
19、中,仅有5个站点在数据集简介页面明确了数据集的更新频率。其中,山东省、江苏省、天津市的公共数据开放平台中档案数据集的更新频率为每年,海南省公共数据开放平台的更新频率为每半年。重庆市虽有规定的更新频率,但实际并未按照规定更新且无法明确其频率。其余站点则均未明确更新频率,从实际来看,部分数据处于不定期更新或是长期停滞更新的状态。(四)数据可用性公共数据开放平台中,档案数据集基本无须授权即可获取且以可机读的格式提供。调查的7个平台中有6个面向全体用户开放,仅河北省公共数据开放平台需申请才能使用数据,申请理由限定于行政依据、工作参考、数据核查、业务协同以及其他。尽管该平台提供了申请通道,但公众的个人申
20、请无法通过且无进一步反馈,在数据获取上存在困难。档案机构官网的平台数据都面向全体用户开放,但在开放数据格式上,山东省、黑龙江省、辽宁省、河南省以及福建省的档案机构官网未提供可机读的数据格式。(五)数据互操作性1.唯一资源标识符。数据互操作性由是否提供唯一资源标识符(URI)这一指标来进行衡量。调查显示,有5个站点未提供唯一资源标识符,分别为山东省公共数据开放平台、浙江省档案机构官网、辽宁省档案机构官网、吉林省档案机构官网与北京市公共数据开放平台。其余23个站点均采用了唯一资源标识符对数据集的关键要素进行标记。2.元数据互操作。目前各地公共数据平台的元数据框架、提供数量各不相同,但基本涵盖11类
21、元数据元素:数据名称、来源部门、摘要、标签、开放状态、主题分类、更新时间、发布日期、行业分类、更新频率与数据量。其中,山东省、天津市与北京市提供的元数据配置均被包含在这11类之中。浙江省、江苏省、重庆市与河北省则在这11类元数据外还提供了一些独特的元数据,例如江苏省还提供应用场景与版本号。表3为各地档案机构官网提供的元数据情况。北京市、山东省、福建省与海南省的档案机构官网均提供了题名、档案号、责任者、成文日期、来源部门这5类元数据,而北京市在此基础上还提供了4类元数据,因而这4个地区的档案机构官网元数据较为一致。河南省、广西壮族自治区、湖南省、辽宁省、安徽省、江苏省以及重庆市这7个地区的档案机
22、构官网均提供题名、档案号、责任者与成文日期元数据,而除江苏省和重庆市之外,其余省份均在此基础上提供了其他元数据,因而存在一定的一致性。而剩余地区档案机构官网在元数据设置上虽有部分重合但总体而言差异较大。三、我国档案开放数据资源建设的问题分析(一)数据开放规模不足数据开放规模不足主要体现在以下两个方面。1.参与开放的档案机构有限。在全国34个省级地区中,仅有7个地区的档案机构在公共数据开放平台中开放档案数据,以及21个地区的档案机构官网开放档案数据。这意味着仅20%左右的档案机构在公共数据平台实现了档案开放,档案机构官网的开放也仅覆盖60%左右的地区。在档案开放数据的参与方上存在明显的规模较小的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 我国 档案 开放 数据 资源 建设 进展 展望
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。