FamilySearch家谱资源数字化开发利用实践及启示.pdf
《FamilySearch家谱资源数字化开发利用实践及启示.pdf》由会员分享,可在线阅读,更多相关《FamilySearch家谱资源数字化开发利用实践及启示.pdf(10页珍藏版)》请在咨信网上搜索。
1、Digital Library Forum数字图书馆论坛数字资源FamilySearch家谱资源数字化开发利用实践及启示王春迎 王舒芳 姬恒温芳芳2.3(1.郑州大学信息管理学院,郑州450 0 0 1;2.中国科学技术信息研究所,北京10 0 0 38;3.浙江财经大学图书馆,杭州310 0 18)摘要:家谱资源是重要的历史文化遗产,文化数字化战略背景下促进家谱资源数字化开发与利用成为必由之路。采用网络调查法对全球最大的家谱组织FamilySearch展开调研,发现FamilySearch基于社会需求多途径收集家谱资源,针对实践需要多维度开发数字家谱资源,面向不同人群多样化提供数字家谱服务。
2、结合我国家谱资源建设与利用现状,应拓宽资源收集渠道,丰富家谱资源类型;综合采取多项措施,促进家谱资源深入开发;面向不同用户群体,提供针对性家谱服务。关键词:数字资源;FamilySearch;家谱;资源建设;开发利用中图分类号:G271DOI:10.3772/j.issn.1673-2286.2023.08.004引文格式:王春迎,王舒芳,姬恒,等.FamilySearch家谱资源数字化开发利用实践及启示J.数字图书馆论坛,2 0 2 3(8):34-43.家谱是记载同宗共祖的血亲集团世系、人物、事迹的历史图籍,它与正史、方志构成中华历史大厦三大支柱,是中华民族悠久历史的重要组成部分,是极为珍
3、贵的历史文化遗产。关于推动数字文化产业创新发展的指导意见指出要促进优秀文化资源数字化,实施数字内容创新发展工程2 。关于推进实施国家文化数字化战略的意见强调到“十四五”时期末,要基本建成文化数字化基础设施和服务平台3。加强家谱资源数字化开发与利用对国家文化数字化战略具有重要意义。当前,国内外学者从家谱资源开发技术4-6 、家谱数据管理方案7-8 、家谱众包平台的设计与实现9-1 等方面开展了系列研究,但是缺乏对家谱资源数字化项目从多元资源收集、多技术手段开发到最终提供多样化服务全流程整体方案的论述。因此有必要对大规模、高成熟度、长期运行的家谱资源数字化项目进行调研分析。收稿日期:2 0 2 3
4、-0 6-10*本研究得到河南省教育厅人文社会科学研究项目“黄河文化遗产大数据知识图谱建设研究”(编号:2 0 2 2-ZZJH-417)、2 0 2 2 年河南兴文化工程文化研究专项项目“河南家谱研究”(编号:2 0 2 2 XWH047)资助。342023年第19卷第8 期FamilySearch是18 94年在美国犹他州成立的一个非营利性家谱组织(原名犹他家谱学会),目前已成为全球最大的家谱组织,其开发整理了133亿条可按姓名检索的家谱记录、50 亿张家谱图像、50 多万本在线家谱图书12)(截至2 0 2 3年4月),面向全球用户免费提供家谱查询、在线修谱等数十种家谱服务。无论是在规模
5、、技术还是服务方面,FamilySearch都具有一定的代表性,因而本研究采用网络调查法,从家谱资源收集、家谱资源数字化开发、数字家谱服务提供3个维度对Fam-ilySearch进行调研分析,借鉴其发展经验,以期推动我国家谱资源的数字化开发与利用。1基于社会需求多途径收集家谱资源FamilySearch通过自行收集、建立合作、用户提供王春迎,王舒芳,姬恒,等FamilySearch家谱资源数字化开发利用实践及启示等方式收集了大量各类型的家谱资源,并对其开展了数字化工作。1.1家谱资源的类型FamilySearch的家谱资源按类型可以分为印刷型家谱资源、缩微型家谱资源、口述家谱资源和数字化家谱资
6、源。又扩展到印度尼西亚和马来西亚等东南亚国家以及非洲各国。在口述家谱的收集过程中,FamilySearch会聘请和培训当地人用当地语言进行访谈,使用摄像机和录音机记录被访谈者提供的家谱信息,保存收集到的音频文件,为每个人生成照片、录音和姓名记录,并根据访谈内容创建家谱树。目前,FamilySearch已经收集数百万条口述家谱记录,构建了10 0 多万棵口述家谱树,可供用户在官网进行检索和收听。1.1.1印刷型家谱资源印刷型家谱资源包括家谱书籍、家谱期刊、户籍登记记录、人物志、地方志、人口普查记录、兵役记录、教堂记录、遗嘱、出生证明、婚姻登记记录、讣告等具有家谱价值的历史文献。这些资源中蕴含着丰
7、富的家谱信息,以讣告为例,其中一般包含死者的父母、配偶、子女等家庭成员的姓名、性别和人物关系信息,记录详实,可以作为家谱资源开发与研究的第一手资料。印刷型家谱资源可以直接提供给读者阅读,用户通过遍布全球的FamilySearch家庭历史中心即可免费阅览该类资源。1.1.2缩微型家谱资源缩微型家谱指的是利用缩微摄影技术将手写或印刷型家谱文献缩摄在感光材料上所形成的家谱。19 38年起,犹他家谱学会开始建设缩微型家谱资源,并将其存储在专门用于保管家谱缩微品的花岗岩山记录库中。目前该记录库收藏了来自12 0 多个国家的2 40 多万卷缩微胶卷,积累了数十亿份家谱记录。为了更好地保存家谱和提供家谱服务
8、,2 0 世纪末,FamilySearch开始对其收藏的缩微型家谱进行数字化转换。在数字化转换之前,用户可以在FamilySearch各家庭历史中心利用缩微胶片阅读机查看缩微型家谱;在数字化转换后,用户可以通过FamilySearch网站直接在线访问阅览。1.1.4数字化家谱资源FamilySearch的数字化家谱资源主要由两部分组成:一是转化型数字资源,即由印刷型、缩微型家谱转换而成的资源;二是原生数字资源,即用户直接通过FamilySearch官网上传、在线编修的家谱资源。迄今为止,FamilySearch已经收集数以亿计的家谱图像和在线家谱记录,用户可以通过其官网的各个模块访问这些数字化
9、资源。1.2家谱资源的收集方式FamilySearch的家谱资源主要来自于专业团队的搜集、与其他机构的合作以及用户捐赠。1.2.1组建专业团队,收集家谱资源FamilySearch由专门的家谱收集团队到世界各地收集家谱资源,保存人口普查、遗嘱、公民身份信息等各种类型的家谱记录。自1938 年起,犹他家谱学会雇佣摄影师在世界各地使用缩微技术拍摄各国公民的出生、死亡等原始记录。2 0 19年,FamilySearch向全球45个国家和地区派遣了30 0 多个摄制组,拍摄了1.7 亿张数字化家谱图像。此外,FamilySearch还招募世界各地的志愿者拍摄照片,收集遗嘱、让告等家谱资源。1.1.3口
10、述家谱资源口述家谱也称口传家谱,指的是通过口传心授流传下来的反映家族世系的家谱13。当拥有口述家谱记忆的长者去世后,相关家谱信息也会随之丢失,因此有必要搜集整理口述家谱资源。FamilySearch从2 0 世纪6 0年代开始在汤加、斐济等太平洋岛国收集口述家谱,后1.2.2多元机构合作,拓展家谱资源FamilySearch在成立初期仅是一个本地组织,为了搜集更多家谱资源,FamilySearch与国内外多家机构开展了项目合作。(1)与美国的图书馆、档案馆等机构合作收集家谱资源。例如,FamilySearch与美国公共数字图书馆352023年第19卷第8 期数字图书馆论坛Digital Lib
11、rary Forun(Digital Public Libraryof America,D PLA)合作,获得来自与DPLA合作的2 0 0 0 余家图书馆、档案馆、博物馆的130 0 多万件文化遗产资源14。FamilySearch与美国奥农达加县公共图书馆(OnondagaCountyPublicLibrary)进行合作,以数字方式保存奥农达加县公共图书馆收藏的40 0 0 0 多份家族史、地方史、墓地记录等历史文献15。(2)与多家海外机构合作拓展家谱资源。除了与美国的机构合作外,FamilySearch还与10 0 多个国家的10000多家档案馆、图书馆和互联网供应商等签订了合作协议。
12、例如,FamilySearch与意大利政府、意大利国家档案馆以及各地档案馆合作,保存了意大利各地区的出生、婚姻、死亡等民事记录的数字化图像。与加纳共和国的Smave公司合作,对2 50 0 多万条2 0 10 年加纳人口普查记录进行扫描和数字化,并将其添加到Family-Search数据库中l6。1.2.3接受用户捐赠,丰富家谱资源用户捐赠也是FamilySearch家谱资源的重要来源,可以通过线下和线上两种途径实现。在线下捐赠方面,用户可以到美国犹他州家谱图书馆及世界各地的家庭历史中心捐赠家谱书籍、家谱期刊、出生证、结婚证、遗嘱等资源;在线上捐赠方面,用户可以通过Family-Search网
13、站在线编修自己的家谱树,上传与自己家族相关的照片、文档、音频等资源。目前,用户通过Family-Search网站贡献了数十亿条家谱记录。2针对实践需要多维度开发数字家谱资源为提升资源开发效率、保证资源开发质量,Fami-lySearch围绕技术工具使用、家谱标准制定、数字人文团队建设、众包平台搭建4个方面进行了数字家谱资源开发与利用实践。2.1从数字化到数据化,实现家谱资源多粒度开发FamilySearch数字家谱资源开发过程可被划分为“数字化转换”和“数据化开发”两个阶段:前者强调将家谱资源转化为数字形式,后者则强调从家谱内容中362023年第19卷第8 期提取出结构化数据。开发流程不同,最
14、终产出的家谱数据粒度也不同。通过汇总梳理相关资料,绘制了Fami-lySearch数字家谱资源开发技术流程图(见图1)。2.1.1家谱资源的数字化转换家谱资源数字化转换指的是将各类非数字化家谱资源转换为数字化家谱资源。对于口述家谱,其数字化转换方式是使用录音设备对被采访者讲述的家谱信息进行录音,并通过数码相机拍摄相关照片。对于印刷型家谱,其数字化转换方式有两种:一是先使用缩微相机进行缩微化处理,然后使用缩微胶卷扫描仪对缩微型家谱进行数字化转换。为了提升数字化转换的效率,FamilySearch开发了专用的软硬件系统Scanstone用于自动化处理图像裁切和对比度调整等任务,减少人工处理导致的图
15、像遗漏现象17 。二是直接对印刷型家谱进行数字化转换,为此FamilySearch引入了30 0 多台数码相机用于拍摄数字化家谱图像,还研发了专用软件dCamx8,用于辅助家谱图像的加工处理,保证采集质量。针对现有商业化光学字符识别(OpticalCharacterRecognition,O C R)方案识别家谱文献准确率不高这一难点,FamilySearch训练了专用的OCR和手写文本识别(Handwritten TextRecognition,H T R)模型,以提高家谱文献识别的准确率。对于缺乏训练数据的语言,FamilySearch则通过迁移学习技术改善识别效果,例如FamilySea
16、rch在训练葡萄牙语HTR模型时采用了大量的西班牙语训练数据,最终训练出来的葡萄牙语HTR模型也具有很高的准确度。2.1.2家谱资源的数据化开发数据化以数字化为基础。FamilySearch综合应用机器学习方法和基于规则的信息提取方法,深入经过数字化的家谱内容提取结构化的家谱数据。在机器学习方面,通过命名实体识别、关系抽取等自然语言处理技术,FamilySearch从非结构化的家谱文本中提取出姓名、日期、人物关系等信息,并将其组织为结构化数据。此外FamilySearch还训练了专用的机器学习模型来从表格布局类的家谱文献中提取信息。对于一些更复杂的家谱布局结构,则需要编写一些基于规则的代码来辅
17、助或取代机器学习模型进行信息提取。王春迎,王舒芳,姬恒,等FamilySearch家谱资源数字化开发利用实践及启示家谱资源数字化转换印刷型家谱资源扫描仪缩微相机数码相机缩微型家谱资源dCamx(Scanstone)光学字符识别(OCR)手写文本识别(HTR)口述家谱资源录音机数码相机数字化家谱资源家谱资源数据化开发基于规则的信息提取程序自然语言处理模型其他机器学习模型家谱资源开发结果粗粒度家谱数据为数字化家谱资源添加部分元数据中等粒度家谱数据为数字化家谱资源添加元数据、转录数据细粒度家谱数据从数字化家谱资源中提取出结构化数据图例家谱资源硬件工具软件工具软硬件一体化工具图1FamilySearc
18、h数字家谱资源开发技术流程2.1.3家谱资源多粒度开发结果家谱资源开发流程的终点是产出多粒度的家谱数据,不同粒度的开发成果可为用户提供不同类型的家谱服务。家谱资源的粗粒度加工主要是指将家谱资源转换为数字格式并添加部分元数据,以方便在线访问并提供基础检索功能。FamilySearch网站的“家谱图像”(Im a g e s)模块就提供海量粗粒度家谱图像数据,其中的大部分图像仅支持按拍摄地点、时间、记录类型3种元数据进行检索,不支持更深入的姓名检索。中等粒度加工成果在粗粒度加工成果的基础上附加一些转录数据,例如通过OCR或HTR从原始家谱文献中提取出的全文数据。这些数据并未经过严格校验,可能包含一
19、定比例的识别错误,但仍能在一定程度上满足用户的全文检索需求。FamilySearch的“家谱书籍”(Bo o k s)模块就提供中等粒度的家谱数据,该模块除支持按书名、作者进行检索外,还利用转录数据提供全文检索服务。细粒度加工成果主要指的是从非结构化家谱文献中提取出的结构化数据,例如从家谱中提取出的人物姓名、人生事件、世系关系等数据。这些数据经过校验以增强准确性,并支持以多种方式进行检索,是家谱资源数字化开发的理想成果。一些粗粒度和中等粒度的数据也会被渐进式地加工为细粒度数据。2.2引入多种标准,保障家谱数据规范化处理数字家谱资源开发过程环节众多且需要大量员工协同参与,为此FamilySear
20、ch引入了一系列标准来规范开发流程。(1)图像和元数据标准。该标准是FamilySearch内部制定、内部使用的资源采集加工标准。其中:图像标准主要用于保证采集到的家谱图像内容的可读性,包含对图像色彩空间、对比度、文件格式等方面的要求;元数据标准则用于保证为图像添加的元数据信息的规范性与统一性19。(2)家谱数据标准GEDCOM。该标准是Family-372023年第19卷第8 期数字图书馆论坛Digital Library ForunSearch内部制定、内部使用并同时提供给外界共同使用的家谱内容描述标准,其定义了通用的数据表示语法和专用于家谱数据的世系链接语法,可以详细记录人、时、地、事等
21、细粒度家谱信息。此外,GEDCOM还是一个家谱数据交换标准,可用于保障不同家谱软件之间以统一格式交换家谱数据。(3)家谱数据标准GEDCOMX。相较于GED-COM,G ED C O M X支持不同序列化方法以增强家谱数据的通用性和可交换性,例如通过该标准记录的家谱信息可被序列化为XML、JSO N等格式。GEDCOMX还添加了语义网标准以加深家谱数据的语义化程度和关联程度,例如为了描述家谱记录中常见的出生、死亡、结婚等事实信息,GEDCOMX定义了一组家谱领域专用的受控词表,表中每个词汇都对应一个独一无二的统一资源标识符(UniformResourceIdentifier,URI),用于提供
22、该词汇的语义信息。(4)系谱证明标准(Genealogical Proof Standard)。系谱证明标准包含详尽的研究、完整且准确的来源引用、深入的分析和关联、解决相互冲突的证据、基于最有力的证据得出可靠的书面结论2 0 等5个部分,Family-Search引入该标准以增强收集到的家谱信息的可信性。2.3组建数字人文团队,开展家谱跨学科研究数字家谱资源开发是一个综合型任务,FamilySe-arch打造了人文和信息资源管理学科以及跨学科和数字化方向的数字人文团队,负责专业化处理开发过程中的文献研究、资源管理、技术研发等方面的任务。(1)文献研究任务。该方面的任务要求工作人员结合具体的历史
23、地理背景对家谱文献内容做出专业的研究解读,辅助数字家谱的整理构建。该任务主要由系谱学家、家族史研究人员负责,这些工作人员往往拥有家谱、历史、语言等方面的专业技能,熟悉各国历史和家族史,在对家谱文献进行研究时可以提供专业的知识与经验。(2)资源管理任务。该方面的任务着眼于对Fam-ilySearch收集的各类家谱进行数字化管理,主要由信息资源管理学科的元数据专家负责。元数据专家需要拥有图书管理、图书编目、元数据管理等方面的专业知识,能够完成家谱书籍目录管理、地理名称数据库管理、受控词表构建、元数据维护与改进等方面的任务。(3)技术研发任务。该方面的任务包括打造家谱382023年第19卷第8 期资
24、源开发工具、编写相应的应用程序等,主要由数字化方向的工作人员负责。其中:机器学习工程师主要负责训练家谱领域的机器学习模型、从家谱文献中提取家谱数据,软件开发工程师则主要负责建设家谱网站、开发移动端应用程序。除针对特定任务引入特定方向的专业化工作人员外,FamilySearch还会招纳跨学科方向的工作人员以处理特殊类型的开发任务,促进各部门之间的分工协作。2.4建设家谱众包平台,促进家谱资源合作式开发众包的核心理念是利用公众智慧来解决较复杂的问题0 ,FamilySearch在众包方面进行了长期探索实践。在早期实践阶段,FamilySearch主要招募志愿者对海量家谱资源进行处理,例如19 8
25、8 年其招募志愿者从寺庙记录中提取了数千万条家谱记录。2 0 0 6 年,Fami-lySearch推出了FamilySearch Indexing众包平台,主要用于从扫描版的家谱中转录出可供搜索的数字索引。数十万名全球志愿者通过该平台提供的专用程序与网页参与了家谱转录工作,形成了超过10 亿条可供检索的家谱记录。2 0 2 2 年,FamilySearch又推出了Get Involved众包平台,志愿者可以通过该平台与人工智能程序协同工作,对程序自动转录出的家谱信息进行审核修正,提高转录效率与准确性。此外FamilySearch还开发了专门的GetInvolved移动应用程序,方便志愿者通过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- FamilySearch 家谱 资源 数字化 开发利用 实践 启示
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。