技术、经验与民主化——知识图谱应用于档案资源开发的认识论研究.pdf
《技术、经验与民主化——知识图谱应用于档案资源开发的认识论研究.pdf》由会员分享,可在线阅读,更多相关《技术、经验与民主化——知识图谱应用于档案资源开发的认识论研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 年第 1 期 总第 267 期-86-SHANXI ARCHIVES技术、经验与民主化知识图谱应用于档案资源开发的认识论研究*洪佳惠(上海大学档案馆 上海 200444)摘 要:知识图谱是一种以知识为实体来进行建模的技术,用以认识和理解真实世界的实体和实体之间的关联。海量的档案资源及成熟的数字环境为知识图谱应用于档案资源开发创造了实践条件;对实践层面的充分探讨,为知识图谱应用于档案资源开发提供了良好的认识论研究基础。认识论研究从“去情景化”和“再情景化”两个方面展开,并揭示出技术的民主化特征。关键词:知识图谱;档案资源;去情景化;再情景化中图分类号:G274 文献标识码:A 文献编码
2、:1005-9652(2023)01-0086-0070 引言知识图谱是一种以知识为实体来进行建模的技术,用以认识和理解真实世界的实体和实体之间的关联。任职于谷歌的互联网技术专家阿密特辛格哈尔(Amit Singhal)在Introducing the Knowledge Graph:things,not strings1一文中宣称,“检索在很大程度上与作为人类学习模式和扩展视域的发现相关,但检索需要花费利用者大量的精力。知识图谱能够帮助人们更快速和方便地发现新的信息。”作为档案利用和档案资源开发的基本手段和必要条件,档案检索恰恰面临着“需要花费大量精力”的困境,利用者和档案管理人员往往需要在
3、卷帙浩繁的馆藏中以极低的效率找寻目标信息,而知识图谱作为一种检索和发现的技术,正好补足了档案信息检索的短板,成为开发海量档案资源的一柄利器。而在认识论层面,将知识图谱应用于档案资源的开发,也意味着个体对于知识获得方式和认知方式的改变,这种改变以知识图谱技术为媒介,使得结构化的技术理性与多样化的日常经验之沟通和融合成为可能,并进入一种共同建构的状态,令得更多的民众可在档案资源宝库受益,令更多种经验在档案中可得以保存和呈现,从而导向一种“技术的民主”。1 综述1.1 技术前提知识图谱的原初设计目的是为了改善检索结果。2012 年,谷歌在 Freebase 的基础上构建了Knowledge Grap
4、h,旨在提高检索的效率和准确性。到目前为止,智能检索依旧是知识图谱主要的用途之一。知识图谱目前已经在多种生活场景中得到应用。最为常见的是知识图谱在 Siri、小度助手、小爱语*【作者简介】洪佳惠(1980-),女,硕士,上海大学档案馆副研究馆员、硕士研究生导师,研究方向:档案基础理论、数字人文、校史等。档案与哲学ARCHIVES AND PHILOSOPHY-87-音等语音助手上的应用。在硬件支持的前提下,语音助手运用智能问答技术,将所积累的无序语料结构化、逻辑化,建立基于知识的分类模型和图谱,靶向定位用户提问中的需求,以提供准确、高效的生活服务。基于知识图谱的智能语音助手具备跨场景适用的特性
5、,在各个日常生活场景中都颇为常见。另外,在电商、生活服务、医疗、金融等多个场景中,知识图谱也得到了广泛的应用。1.2 应用前提档案资源的存在是知识图谱应用于档案资源开发的内部前提,此处的“内部”主指档案行业内部。在海量数据中进行定位、抽取、推理是知识图谱发挥作用的主要支撑,而庞大的档案资源库为此提供了条件。可应用知识图谱的档案资源分为两种:其一为数字环境下产生的电子档案。随着计算机使用的大规模普及、网络技术和数字技术的日益成熟,电子文件逐渐成为增量档案的主要形式。数字环境下产生的电子档案本身就是以数据的形态存在,由于其结构化的特性,可直接作为知识图谱的数据支撑。其二为其他载体形式档案的数字化,
6、其他载体形式包括纸质、实物、磁性材料等。就目前而言,大多数地区,尤其是发达地区的各级各类档案管理机构都基本实现了档案目录中心的建设,这也就是说,大部分档案馆的非电子形态的档案都至少按照档案著录标准的要求,经过了初步的结构化,案卷号、题名、归档单位、归档时间等都可作为知识图谱的命名实体。当然,为更深入地对这部分档案资源进行挖掘,保存于档案文本中的信息需经过进一步细粒度的命名实体识别,为知识图谱发挥作用提供更为详细、精确的数据信息。成熟的数字环境是知识图谱应用于档案资源开发的外部前提。成熟的数字环境主要表现在其“原生”的特点上。Marc Prensky 在数字土著 数字移民2,将诞生于数字时代、每
7、日被电脑等数字时代工具和互联网通讯技术包围的人们称为“数字土著”,这个群体的人数日益庞大,原生于数字环境中的“数字土著”本能地习惯于在网络上工作和生活,在网络上迅速接收信息来作为自己日常经验累积的主要方式。对于这个群体来说,知识图谱所构建的各种生活场景都是与身俱来的,甚至无须刻意学习的,在这个数字环境中,人们具备了一种“数字素质”,数字土著们天然就具备了数字理解力,并且能毫不费力地使用各种基于计算机或移动终端的APP。除此以外,众多开源的数据库软件也为数字土著们构建个人(或特定群体)专属的知识图谱创造了条件,如以嵌入式、高性能、轻量级为特点的 Neo4j 就受到了众多数字土著的青睐。1.3 研
8、究前提在中国知网上以“档案”和“知识图谱”为主题词检索得到与档案资源开发密切相关的学术论文119篇。主要主题分布于知识图谱、档案学、可视化分析、数字人文、研究特点、Cite Space、档案数据、数字档案馆、知识服务、图谱构建、文献计算、电子档案、模型构建、档案知识等方面;次要主题分布于知识图谱、档案数据、数字档案馆、档案馆、档案服务、研究前沿、文献计量等方面;研究层次分布于应用研究、开发研究、管理研究等方面。将主要主题“档案学”细化来看,论文的关注主题主要为发展现状、技术应用等。其中大致可分为三类,一是将知识图谱理论应用于档案知识的基础研究,如对象、结构与价值:档案知识工程的基础问题探究3等
9、,二是将知识图谱理论应用于档案学学科分析,如基于 CSSCI 的近十年我国档案学研究知识图谱分析4等,三是将知识图谱理论应用于特定分类或主题的档案研究,如领域知识图谱在非遗档案资源知识组织中的应用探索5数字人文视域下口述历史档案资源知识发现模型构建6中国联通电子档案数据挖掘与智能利用的研究7等,第三类主题已经累积了一定量的研究成果。总体来看,目前学界对于知识图谱的关注和探讨主要关注点集中在应用层面。对实践层面的充分探讨,为知识图谱应用于档案资源开发提供了良好的认识论研究基础,在积累一定量的实践探索后,进行认识论讨论是自然的也是必要的。通过认识论的探讨,隐匿于知识图谱应用于档案资源开发实践表象之
10、下的规律性问题将得到示,并以一种超前于实践的认识论立场反作用于应用实践,推动实践中的良性发展,进一步发挥知识图谱在档案资源开发中的作用。2023 年第 1 期 总第 267 期-88-SHANXI ARCHIVES2 技术对经验的去情境化2.1 知识图谱的构建过程一般来说,知识图谱的构建包括命名实体、命名实体识别、命名实体关系、知识推理等内容。命名实体是对文本中具有特定意义或指代性强的实体的标注,如人名、组织机构、地名、日期、时间等,在档案资源中,一般有全宗号、实体分类号、档号、题名、文号、责任者、归档单位、文件日期等。命名实体识别是根据标注的命名实体,对文本进行自动识别和分类的过程,命名实体
11、识别一般以基于知识库的专家系统为背景,融合深度多任务、深度迁移、深度主动、深度强化等学习模型,令知识图谱可在极少人工干预的前提下自动将文本内容与标注自动匹配和归类,自动匹配和归类的前提是大量的背景知识和细粒度的标注,以其强大的非线性映射能力,构建更为立体的知识模型,这个立体不仅是空间上的概念,甚至可以映射到更高层级、更抽象的表达。这也就是说,命名实体识别可根据档案资源的不同情况进行自动标引,借助开放数据库,这种标引可以是细粒度的,将档案文本中的信息对应至不同的标签下,以挖掘出更多的信息关联。同时,知识图谱还将基于深度学习进行命名实体关系的抽取,在对档案资源进行关系抽取时,知识图谱可采取开放的模
12、式对特定档案文本进行关系抽取,借助大型的开放数据库和互联网开放语料,来环节特定档案文本标注实体不足的问题。另外,知识图谱还具备知识推理功能。知识推理以既有的知识图谱为基础,推断出新的事实,识别新的实体与实体之间的关系及既有知识图谱实体之间的错误,主要功能为知识图谱补全和去噪。在知识图谱应用于档案资源开发这里,知识推理即是将结构化的档案数据与其他通用知识图谱资源,如Freebase、OpenKG、ownthink等进行匹配。尽管知识推理并非去情境化的过程,但其所能利用的数据必须是去情境化的、结构化的。2.2 经验的与逻辑的语言表面看来,知识图谱的应用与档案资源的开发完全契合,知识图谱可以庞大的档
13、案资源作为语料,档案资源也可利用知识图谱达到信息挖掘的目的,但实际上,两者对于世界的呈现方式是截然不同的。在知识图谱构建过程中,无论是命名实体、命名实体识别还是命名实体关系,目的都是将本文结构化,将可被机器识别的实体清洗出来,由此才能在“头”和“尾”之间建立联系。在结构化过程中,大量无法被标注的经验类信息被清除了,这个清除过程在知识图谱应用于档案资源开发中也无法避免。究其原因,这来自于两种哲学意义上的“语言”之间的差异。档案资源是由自然语言构成的。自然语言是“人类语言集团在一定条件下自然形成和使用的口头和书面语言”8,是人类在日常世界中学习、工作、生活时的主要沟通媒介,自然语言是某种特定文化的
14、凝结,会随着文化的演变而演变,具有显著的价值和经验特征。档案资源尽管有全宗号、实体分类号、档号、题名、文号、责任者、归档单位、文件日期等规范性字段,但无法被规范所包含的信息是更为庞大的资源,即便在数字时代,数据化了的档案资源依旧以自然语言进行记录,其中附着的意向性经验信息无法从规范骨架上完全剥离。经验具有一种无法被彻底细粒度化的、延宕的特征。进一步来说,这种剥离也是有违历史真实的,档案毕竟是一定历史文化阶段的产物。而知识图谱使用的是一种人工语言。人工语言是“被赋予了意义的形式语言”9,是人们为实现一定的目的所改造过的语言。在知识图谱这里,人工改造的目的就是使得自然语言的结构得以凸显,这与作为分
15、析哲学一个流派的人工语言学派之研究目的不谋而合,“哲学的任务在于揭露自然语言的表层语法掩盖了深层逻辑结构这一事实”10。相较于自然语言的经验特性,人工语言需是逻辑自洽的,由此,经验的丰富性、复杂性,甚至其中存在的矛盾和抵牾,就在知识图谱的构建过程中被大量清洗,留下可为计算机所理解的结构化的、逻辑的“命名实体”。2.3 去情景化 从档案资源的自然语言到知识图谱的人工语言实质上就是一个去情景化的过程。知识图谱只能在逻档案与哲学ARCHIVES AND PHILOSOPHY-89-辑上发挥作用,为了把档案资源中的各种日常经验转换成计算机能够理解的语言,这种去情景化是必然也是必要的,是知识图谱能够应用
16、于档案资源开发的前提之一。去情景化将妨碍知识图谱发挥作用的现实要素清除出去,将可用性要素从其原初的情景中割裂出来。与此同时,去情景化将档案资源置入了一种技术关系中,在这里,实体与实体的关系不再是经验的,而是以因果为主要形式的逻辑的。用诺拉的话来说,档案资源由此再次成为了“记忆之场”。这个“记忆之场”有着双重的含义其一,档案本身就是记忆之场诞生的一个标志物,“记忆已经完全转化为最细致入微的重构,这是一种被记录的记忆,它让档案去为它铭记,并删减承载着记忆的符号的数量”11,这也就是说,在诺拉这样的历史学家眼中,留存于档案中的历史已经不是记忆本身,而是经过重构和删减的“记忆之场”。其二,经过知识图谱
17、结构化了之后的档案资源进一步成为了技术化的历史的“记忆之场”。由此,日常经验被再次删减,在历史和技术的双重规约下,档案资源只剩下可被机器识别的记忆的痕迹,或者如诺拉所言的“有组织的分泌物”12。在此,以一个档案实务中遇到的实例将这个问题具象化。一位阎姓利用者至档案馆办理个人相关业务,档案管理机构经系统检索及实体调卷发现,馆藏中有内容大致相符的档案,但其标注姓氏为“闫”,并非“阎”,按照现行汉字使用规范,这是两个不同的姓氏,也就是说该件档案记录的信息与利用者是不相符合的。但事实上,在 1977 年 12 月 20 日由国务院正式公布的第二次汉字简化方案使用了同音字代替的简化方法,“阎”字被简化为
18、“闫”字,二字可以通用,这个方案于 1986 年 6 月 24 日被废止。也就是说,在 1977 年底至 1986 年中,这两个字确实是交替使用的,而这位阎姓利用者所需的这份材料恰巧产生于这个时间段,由此,根据当时具体的历史情况,结合其他信息比对,基本可以认定该件档案即是利用者所需用的。在这个案例中,当文件形成时,填写姓名信息的人员(无论是本人,还是办事人员)受到了当时二简字文化背景的影响,这是一种“记忆”。当其作为一份“档案”进入档案馆后,其中记载的信息就被固定了下来,二简字的文化背景被隔离在档案保存机构大门之外,成为了保留有规范化内容和古早载体形式(这里指的是泛黄的纸张和陈旧的文件格式对利
19、用者记忆的唤醒作用)的“记忆之场”。当其作为档案资源的一部分经过知识图谱的再次清洗后,只留下了经过双重规范的信息遗存,这种信息遗存以一种格式的形式存在,信息的内容是单一的,古早的形式也同时失去了。3 经验对技术的再情景化3.1 技术的意向性知识图谱对于档案资源的去情景化并不意味着以纯粹科学的方法来处理日常经验。这里所说的纯粹科学的方法指的是源初意义上的、以归纳和演绎的方法研究必然性的、旨在起到预测作用的一种人类认知活动。如果以纯粹科学的方法来解释知识图谱在档案资源开发中的应用,则陷入了技术决定论,即认为技术具有脱离具体情境就能够自洽的。这是一种辉格史观,将当下当作一切发展的立足点和评判标准。但
20、事实上,技术只有通过它所存在的情境才能自我实现。知识图谱作为一门多学科融合的现代理论,既是对纯粹科学方法的应用,又需以经验世界作为背景。应用于档案资源开发的知识图谱,处于档案资源、自身应用目的和因果逻辑的三岔路口,因果逻辑即上文所论述的档案资源去情境化之后留存的可以用于及其处理的逻辑语言,而档案资源与知识图谱自身的应用目的则关涉到现象学的核心概念“意向性”。意向性“标志着所有意识的本己特性,即所有意识都是关于某物的意识”13。当知识图谱应用于档案资源开发时,技术便具备了具象的形式,这种档案资源与人工语言的混合物就成为了“关于某物”中的“某物”,即为这种理论的应用提供了主题和边界。而以逻辑语言描
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 技术 经验 民主化 知识 图谱 应用于 档案 资源 开发 认识论 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。