关联数据环境下我国海洋历史文献资源知识组织研究.pdf
《关联数据环境下我国海洋历史文献资源知识组织研究.pdf》由会员分享,可在线阅读,更多相关《关联数据环境下我国海洋历史文献资源知识组织研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、知识组织关联数据环境下我国海洋历史文献资源知识组织研究华林冯安仪谭雨琦(云南大学历史与档案学院,昆明6 50 0 91)摘要:海洋历史文献数量众多,繁杂分散,资源异构现象明显,现有文献资源建设方式难以实现资源间的深层关联与有效发掘利用。以海洋历史文献资源为对象,首先,在分析文献资源建设现状的基础上,总结出海洋历史文献资源建设中存在的理论认知、资源异构和知识关联等方面的问题。其次,以文本文献、历史奥图、金石文献、口述资料和音像资料五大模块,构建海洋历史文献资源体系,结合文献特点设计元数据结构,利用Proteg工具构建我国海洋历史文献资源本体模型。最后,以实例可视化形式,验证该本体模型的合理性,揭
2、示海洋历史文献中时间、地点、人物和资源要素与特定事件的关联关系,为更好地开发利用海洋历史文献提供方案。关键词:海洋历史文献;本体构建;关联数据;知识组织中图分类号:G254DOI:10.3772/j.issn.1673-2286.2023.08.002引文格式:华林,冯安仪,谭雨琦.关联数据环境下我国海洋历史文献资源知识组织研究 J.数字图书馆论坛,2 0 2 38):15-2 5.中国正处于历史性发展的关键时期,“拥抱海洋,发展海权”是我国从海洋大国迈向海洋强国的必由之路。习近平总书记在党的二十大报告中强调维护国家安全能力和海洋权益,坚定捍卫国家主权及安全利益,加快推进海洋强国建设,充分体现
3、了党和国家对海洋的高度重视。我国拥有大量的海洋历史文献,这些海洋历史文献是指1949年以前,各个历史时期的中央政府、地方机构和个人等在海洋经略、海疆保卫、维护权益、捕捞生产、航海贸易、文化建设、宗教信仰、生态保护等活动中形成的,对研究海洋治理历史、构建海洋记忆、维护海洋权益有参考、凭证和史料价值的历史文书、涉海方志、海洋著述、地理舆图、音像材料和口述资料等。我国现存海洋历史文献数量众多、分布广泛,但在资源整合、知识组织与关联共享等方面仍存在滞后问题。关联数据富含语义数据网络,可有效描述数字资源收稿日期:2 0 2 3-0 7-13*本研究得到教育部重大招标项目“元明清时期中国边疆治理文献整理与
4、数据库建设研究”(编号:2 1JZD042)资助。实体之间的相关关系。结合关联数据技术对我国海洋历史文献资源进行知识组织研究,有利于促进多源异构的海洋历史文献资源建设完整化、规范化,推动知识连接及资源的深度整合,提升海洋历史文献资源组织水平,为细化海洋历史文献资源组织的粒度、加深其开发程度提供有益借鉴。1研究综述我国现存海洋历史文献内容涵盖经济、政治、文化、社会、安全、生态、海疆等方面,在开展海洋治理、传承海洋记忆与维护国家领海主权方面发挥了重要作用。为更好地发掘利用这一珍贵历史文献,学界对其知识组织问题开展相关研究。在海洋历史文献知识组织层面,已有针对南海文152023年第19卷第8 期数字
5、图书馆论坛Digital LibraryForun献资源的相关研究,内容主要聚焦在知识抽取、知识图谱和知识发现方面。秦东 2 基于证据链理论,构建南海历史文献关联数据支撑服务框架模型,对数据资料进行语义描述、本体构建和链接,生成并发布关联数据,实现对南海历史文献知识的有序重组,该研究对于完善南海历史文献证据链具有应用价值。王燕红等 3 以中国在南海的历史性权利及证据目录及百度百科部分数据为主要数据来源,从知识发现视角对南海书证目录进行内容挖掘及分析,建立文献内容间的链接关系,构建南海书证目录知识图谱。司徒凌云等 4 以南海疆文献资料为基础,结合证据链理论,提出基于多模态知识图谱设计南海疆维权证
6、据链系统的技术体系,以实现多载体、多形式的南海疆文献知识关联、内容分析与维权文献的可视化。孙浩洋等 5 基于知识元理论对民国南海文献进行知识元内容标引以及知识元描述规则与抽取规则的探索研究,以构造南海历史文献知识元模型,通过可视化呈现文献内容与其间关系,提高知识关联、挖掘及利用效率。以上研究主要面向南海历史文献,并以此为数据基础进行知识抽取、知识图谱和知识发现研究,但尚未产生涵盖海洋历史文献资源全领域的知识组织成果,未深入探讨海洋历史文献整体知识分类,难以整体反映和关联该领域的深层知识。历史文献知识组织的研究集中在应用层面。历史文献本体构建。孙振嘉等 6 以五四运动历史档案资源为研究对象,利用
7、Proteg工具构建本体模型并验证其合理性,深度揭示了相关历史档案资源要素的关联。李宝玲等 7 利用数字人文技术和本体构建方法进行历史档案专题知识库构建研究。历史文献知识图谱。陈海玉等 18 通过对徽州文书进行实体概念抽取、异构资源知识融合,构建了民间历史文献知识图谱并以此进行深入研究。其他研究成果还有名人年谱资源知识图谱 9、中国近代史知识图谱0 、红色记忆知识图谱 及民国报纸知识图谱112 等。历史文献知识聚合及发现。严承希等 13 结合交互式可视化和语义聚合技术,以清代档案文献为研究对象构建知识聚合模型。邓君等 141结合本体和知识图谱技术,设计了由数据资源层、知识组织层、知识关联层、知
8、识发现层4个层次构成的口述历史档案资源知识发现模型。海洋历史文献属于历史文献的范畴,历史文献相关知识组织研究成果可从理论、技术与方法维度为本研究提供参考借鉴。鉴于此,上述相关历史文献本体模型与知识图谱构建方法以及知识可视化、知识关联等内容可供本研究参考,但还需结合海162023年第19 卷第8 期洋历史文献自身特点、类别构成与属性关系设计具体研究方案。综上所述,我国海洋历史文献资源知识组织研究有以下函待解决的问题。利用现有关联数据的理论及应用研究成果和本体论,深入挖掘海洋历史文献资源语义特征和关联关系,解决文献本体的描述、构建及知识揭示表层化问题。借鉴学界在南海历史文献以及历史文献本体构建、知
9、识图谱、知识聚合与知识发现方面的成果,解决海洋历史文献资源知识组织问题。为此,本研究借鉴历史文献知识组织相关研究成果,结合海洋历史文献产生领域独特、种类繁多、规模较大与多源异构等特点,从资源体系构建、知识本体建模、关联模型发布等维度,着力解决海洋历史文献资源知识组织问题。2实践工作分析2.1海洋历史文献资源建设现状鉴于海洋历史文献的珍贵价值,档案馆、图书馆和高校等建设主体广泛开展文献资源建设开发工作,并取得显著成果。在汇编方面,主要有中国边疆研究资料文库成果海疆文献初编沿海形势及海防中国海疆文献续编明代倭患中国海疆文献续编台湾琉球港澳,蝠池书院的中国古代海岛文献地图史料汇编中国南海诸群岛文献汇
10、编广东历代方志南海史料辑录等。专题数据库建设成果有中国第二历史档案馆的民国时期海疆档案资源数据库15、中国南海研究院的南海文献数据库16 、厦门大学图书馆的东南海疆研究数据库 17 、中国海洋大学图书馆的海大文库 18 、海南师范大学的南海及南海诸岛特色数据库 19、深圳市盐田区图书馆的海洋专题特色文献库 2 0 等。这些建设成果为海洋历史文献资源整合、本体构建与知识聚合奠定了资源基础。2.2海洋历史文献资源建设滞后问题2.2.1海洋历史文献理论认知问题学界对海洋历史文献进行了理论研究,如吴晓文等 2 1、李慧颖等 2 2 探讨了海洋档案内涵外延问题,刘家真等 2 3、方泉等 2 4 等对海洋
11、历史档案的定义、类型与价华林,冯安仪,谭雨琦关联数据环境下我国海洋历史文献资源知识组织研究值开展了研究。整体而言,研究还停留在表层描述层面。学界尚未从理论上对文献概念进行科学界定,主要以海洋历史活动内容(政治、经济、军事及外交等)划分文献类型,无法体现出文献载体、文种、形制等的多样性,这对文献知识本体的完整构建产生不利影响。对文献文本的解读与研究不够深入,还存在对文献史学与现实价值认知不全的问题,这不利于后期对文献知识的挖掘与聚合利用。2.2.2海洋历史文献资源异构问题数据结构异构。由于保管主体、保管方式不同以及数据资源构建方式的差异,海洋历史文献资源格式不一,形成了Word、H T M L、
12、PD F等半结构化、非结构化数据,数据异构特征较为显著。术语标准异构。由于各保管单位采用的文献管理标准规范不同,文献资源在概念、属性、实例及关系等的名称 2 5 和代码表示方面具有差异。如在元数据标准方面,图书馆常用的元数据格式有MARC、D u b lic C o r e(D C)等,博物馆常用的是CDWA、C I M I、V RA C o r e 等,档案馆则主要使用EAD格式 2 6 。机构间元数据结构及其格式的差异不仅影响机构间数据资源的互操作效率,也为进一步创建与发布关联数据带来了一定困难。句法表示异构,即各机构的文献信息表示结构不同。随着资源描述框架(Re s o u r c e
13、D e s c r i p t i o n Fr a m e w o r k,RD F)、网络本体语言(OntologyWedLanguage,O W L)的广泛应用,文献资源的表示句法也愈加丰富,所引发的文献资源句法表示异构问题将更加普遍。2.2.3海洋历史文献知识关联问题一方面,海洋历史文献资源建设取得成效,但其知识组织缺之深度。中国第二历史档案馆、中国南海研究院、厦门大学图书馆、中国海洋大学图书馆等纷纷建成不同专题的海洋文献数据库,数据库建设已成趋势。现有海洋文献数据库主要采用传统录入和检索方法建库,提供全文检索和文本检索功能,服务方式单一,缺少统一规范的元数据著录标准,难以实现对不同语
14、义层面文献资源的细粒度组织,知识聚合和语义关联松散。另一方面,海洋历史文献资源内容表述单一,缺少深层次描述,无法揭示内在的本质属性与知识关系,缺乏对文献资源所含时空关系、事件-事件关系、事件-人物关系、人物-人物关系等的完整描述,难以形成多维立体的知识体系和交又关联的知识网络,这阻碍了海洋历史文献资源的知识性开发与价值实现。3研究思路与方法3.1关联数据环境下海洋历史文献资源知识组织思路基于关联数据技术构建海洋历史文献本体模型,设计海洋历史文献的元数据结构,并以此为基础对已采集的文献资源进行语义化描述、知识本体建模,以解决目前海洋历史文献资源建设中存在的问题,借助关联数据技术,实现多源异构资源
15、间的联系与共享。按研究过程将海洋历史文献资源知识组织分为收集清洗、知识描述、本体构建、知识关联及知识应用5个阶段。(1)收集清洗。一方面,将散存于档案馆、图书馆、海洋机构、高校等单位的海洋历史文献资源作为主要数据源,结合海洋历史文献自身分类特点,构建海洋历史文献资源体系。该体系分为文本文献、历史舆图、金石文献、口述资料和音像资料5个大类,并下设子类。以此体系为依据进行数据采集,实现完整化和体系化资源建设。另一方面,对异构海洋历史文献资源数据进行清洗,利用光学字符识别(OpticalCharacterRec-ognition,O CR)、自然语言处理(NaturalLanguageProcess
16、ing,NLP)等技术,对非结构化与半结构化数据资源进行调整和完善,为后续本体构建及关联数据模型建设创造条件。(2)知识描述。根据元数据标准规范具体描述资源的内容特征及语义结构,实现对数据的有效规范管理。参考元数据编码和传输标准(MetadataEncodingandTransmission Standard,M ET S)与RDF等有关规定,及国家档案局颁布的文书类电子文件元数据方案照片类电子档案元数据方案录音录像类电子档案元数据方案口述历史电子档案元数据方案等,结合海洋历史文献的特征复用并重新定义了VRACore和DC元数据集中的元数据描述元素,设计海洋历史文献元数据规范,以加深海洋历史知
17、识资源信息揭示程度,体现海洋历史知识间的概念逻辑关系,有效进行知识描述并实现知识标准化。同时,由表层到深层进行知识描述与概括,从形式、内容和整体层面多维构建海洋历史文献资源语义网络,缩小异构知识鸿沟,为知172023年第19卷第8 期数字书馆论坛DigitalLibraryForun识深度关联提供保障,实现组织层面的海洋历史知识融合。(3)本体构建。在对元数据进行规范描述的基础上,将得到的数据转换为富有语义的RDF元数据,对海洋历史文献资源属性及其属性值进行描述,实现信息资源的RDF化,并选用适当的工具设计海洋历史文献资源本体模型。具体通过明确本体领域、列举领域术语、定义类与属性、添加属性约束
18、和本体实例化5个步骤进行本体构建,借助Proteg工具的OntoGraf功能实现本体可视化。(4)知识关联。经过实体消歧、共指消解、知识合并等过程,结合关联数据技术,将转化后的RDF元数据进行关联,将庞杂的海洋历史文献资源整合成相互联系的有机集合,采用双向长短期记忆网络(Bi-Direc-tional Long-Short Term Memory,Bi-LSTM)和条件随机场(ConditionalRandomField,C RF)技术抽取实体外部关联关系,用规则模板和人工标注等方式抽取实体内在属性关系,并通过知识可视化的方式展现对应关联关系,以揭示海洋历史文献资源间的潜藏关系,实现知识网络化
19、管理。可使用关系型数据库(如Ora-cle、D B2、M y SQ L)和非关系型数据库(如NoSQL、Neo4j、G r a p h D B)等可视化工具。(5)知识应用。在对海洋历史文献进行序化处理及本体构建的基础上,对其进行知识抽取,发布关联数据并提供文献资源的浏览与查询检索等功能。利用知识抽取完成资源实体提取和关系提取,从多维度、细粒度的角度实现深层语义化链接。将本体模型中的RDF数据导入三元组数据集,对重复、弱关联的资源数据进行深度消歧、序化处理。将相互关联的数据链接成知识图谱,用以揭示知识的深层链接,实现资源的可视化检索,为用户提供数据关联检索、智能推荐匹配、知识发现、知识推理等服
20、务。具体思路如图1所示。关联数据发布知识应用数据关联检索多维度细粒度知识挖掘知识推理知识图谱可视智能推荐匹配实体消歧知识共指消解关联知识合并资源1Bi-LSTM、CRF技术RDFLinkRDFLink抽取实体外部关联关系及内在属性关系RDFLink-RDFLinkRDFLink资源2RDFLink-资源3资源4明确本体领域本体列举领域术语定义类与属性构建添加属性约束本体实例化核心元数据本体RDFRDF本体1本体2RDF本体3RDF-本体4METS、RD F等有关规定和文书类、照片类、录音录像类、口知识述历史电子档案元数据方案描述时间海洋历史文献元数据规范地点事件作者主题资源类型档案馆、图书馆、
21、沿海城市海洋机构、高校、民委古籍办收集清洗182023年第19 卷第8 期结合海洋历史文献自身特点构建海洋历史文献资源体系非结构化数据OCR.NLP半结构化数据调整、完善图1海洋历史文献资源知识组织思路文本文献口述资料基础数据库历史奥图音像资料金石文献华林,冯安仪,谭雨琦关联数据环境下我国海洋历史文献资源知识组织研究3.2关联数据环境下海洋历史文献资源知识组织方法3.2.1海洋历史文献资源体系构建为明确区分海洋历史文献的构成模块,依据文献遗存状况,借鉴文献学相关分类方法,将海洋历史文献资源分为文本文献、历史舆图、金石文献、口述资料和音像资料5个大类:文本文献下设政府海洋公文、沿海地方志书、海防
22、海战文献、海上交通文献、海洋邦交文献、海洋科技文献、海洋文化文献7 个子类;历史舆图包括陆海古图、航海古图、海疆地图与海防地图4个子类;金石文献包括石刻、碑刻和铭文;口述资料包括人物历史、事件口述、海洋诗赋、海洋传说;音像资料包括海洋历史照片、历史音频、历史视频等。利用各档案馆、图书馆等机构收藏的档案、图书等文献资料如海疆文献初编沿海形势及海防中国海疆文献续编和南海文献数据库、东南海疆研究数据库等收录内容,参照海洋档案管理规定国家海洋专项档案管理办法海洋管理机关档案业务规范以及各级地方志等权威资料,构建文献资源体系,以确保文献资源本体构建过程中核心概念的准确性。海洋历史文献以非结构化和半结构化
23、数据为主,包含档案、方志、著作、金石与音像等内容,利用OCR将其转化成文本数据,将文本内容视为字符串并采用KMP(K n u t h-M o r r i s-Pratt)算法实现抽取,以二维表的形式存储于计算机中,为后续元数据结构设计与本体建模构建统一的数据格式。3.2.2海洋历史文献元数据结构设计元数据是描述数据的数据,用于描述某类资源或数据的属性并实现对数据资源的检索及管理 2 7 。目前,国内外常用的文献资源元数据标准有编码档案著录(EncodedArchivalDescription,EA D)、国际档案著录规则(总则)ISAD(G)、D C、档案编码背景信息著录规范(Encoded
24、ArchivalContext,EA C)、文本编码倡议(Text EncodingInitiative,T EI)等。参考国家档案局发布的行业标准与方案及DC、EA D、I SA D(G)等元数据通用标准,抽取海洋历史文献资源元数据元素,进行海洋历史文献的语义特征描述(见表1)。表1海洋历史文献资源元数据元素元素名称元数据标识事件event地点place日期date作者author出版方publisher主题theme资源resource描述description活动activity作品work在关联数据的环境下,还需要以HTTPURI模式进行URI标识 2 8 。URI的基本结构为“基地址
25、+实体类型名称+实体编号”。以http:/为海洋历史文献资源管理网址,以文本文献(TextualLiterature)、历史舆图(HistoricalMap)、金石文献(JinshiLitera-ture)、口述资料(OralInformation)和音像资料(Au-diovisualMaterials)为实体类型。文本文献类的序号1数据所对应的URI就可以表示为http:/ sites/000000000001。3.2.3海洋历史文献资源知识本体建模海洋历史文献资源分布广泛,种类丰富,涵盖文本、图片、画册、音视频和实物等形式,各类文献间存在一定的差异性,通过进行海洋历史文献资源本体建模可建立
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关联 数据 环境 我国 海洋 历史文献 资源 知识 组织 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。