跨越千年的迁徙图——家谱迁徙数据的深度挖掘与可视化开发.pdf
《跨越千年的迁徙图——家谱迁徙数据的深度挖掘与可视化开发.pdf》由会员分享,可在线阅读,更多相关《跨越千年的迁徙图——家谱迁徙数据的深度挖掘与可视化开发.pdf(10页珍藏版)》请在咨信网上搜索。
1、研究论文基金项目 本文系国家社会科学基金重大项目“编纂1 9 4 9年以来中国家谱总目”(1 8 Z D A 3 2 9)的研究成果之一。(T h i s i s a n o u t c o m e o f t h e m a j o r p r o j e c t C o m p i l i n g t h e G e n e r a l C a t a l o g o f C h i n e s e P e d i g r e e s S i n c e 1 9 4 9 (1 8 Z D A 3 2 9)s u p p o r t e d b y N a t i o n a l S o c
2、 i a l S c i e n c e F u n d o f C h i n a.)作者简介 刘倩倩,馆员,研究方向为数字人文、数据处理与平台建设;夏翠娟(通讯作者),博士研究生,研究员,研究方向为数字人文、数字记忆、数字学术,E m a i l:x t y k c y e a h.n e t;单舒扬,助理馆员,研究方向为图书馆学理论和图书馆实践研究、数字人文。(L i u Q i a n q i a n,L i b r a r i a n,r e s e a r c h i n t e r e s t s i n c l u d e d i g i t a l h u m a n i t
3、 i e s,d a t a p r o c e s s i n g a n d p l a t f o r m c o n s t r u c t i o n.X i a C u i j u a n(C o r r e s p o n d i n g A u t h o r),P h D C a n d i d a t e,R e s e a r c h e r,r e s e a r c h i n t e r e s t s i n c l u d e d i g i t a l h u m a n i-t i e s,d i g i t a l m e m o r y,d i g i
4、t a l s c h o l a r s h i p,E m a i l:x t y k c y e a h.n e t.S h a n S h u y a n g,A s s i s t a n t L i b r a r i a n,r e s e a r c h i n t e r e s t s i n c l u d e l i b r a r y s c i e n c e t h e o r y,l i b r a r y p r a c t i c e r e s e a r c h,a n d d i g i t a l h u m a n i t i e s.)本文引用格
5、式:刘倩倩,夏翠娟,单舒扬.跨越千年的迁徙图 家谱迁徙数据的深度挖掘与可视化开发J.信息资源管理学报,2 0 2 4,1 4(2):9 5-1 0 3,1 6 1.跨越千年的迁徙图 家谱迁徙数据的深度挖掘与可视化开发刘倩倩1 夏翠娟1,2 单舒扬1(1.上海图书馆,上海,2 0 0 0 3 1;2.中国人民大学信息资源管理学院,北京,1 0 0 8 7 2)摘 要 以中国家谱知识服务平台的提要式目录为基础,应用本体和关联数据技术、G I S技术、可视化技术等对家谱文献中蕴含的迁徙信息进行知识提取和发掘利用,设计并开发了以迁徙时空数据进行叙事的交互式可视化展演项目,在多终端多场景中实现服务,提升
6、家谱文献的利用价值,探索创新家谱知识服务模式。本文对大规模数据进行挖掘、组织和可视化,为馆藏特色资源的推广和利用提供新的思路,为人文知识的呈现和传播提供新的方法,也将数字人文的服务对象扩展到普通大众。关键词 数字人文 数字记忆 家谱迁徙 数据可视化 知识服务中图分类号G 2 5 6;K 8 2 0.9 文献标识码A 文章编号2 0 9 5-2 1 7 1(2 0 2 4)0 2-0 0 9 5-0 9D O I:1 0.1 3 3 6 5/j.j i r m.2 0 2 4.0 2.0 9 5M igr a t i o n M ap A c r o s s t h e M i l l e n
7、n i u m:D e ep M i n i ng a n d V i s u a l i z a t i o n D e v e l opm e n t o f M igr a t i o n D a t a i n G e n e a l ogi c a l L i t e r a t u r eL i u Q i a n q i a n1 X i a C u i j u a n1,2 S h a n S h u y a n g1(1.S h a n g h a i L i b r a r y,S h a n g h a i,2 0 0 0 3 1;2.S c h o o l o f I
8、n f o r m a t i o n R e s o u r c e M a n a g e m e n t,R e n m i n U n i v e r-s i t y o f C h i n a,B e i j i n g,1 0 0 8 7 2)A b s t r a c t T h i s s t u d y u t i l i z e s t h e s y n o p t i c c a t a l o g f r o m C h i n e s e G e n e a l o g y K n o w l e d g e S e r v i c e P l a t f o r
9、m a n d a p p l i e s t e c h n o l o g i e s s u c h a s o n t o l o g y a n d a s s o c i a t e d d a t a,G I S a n d v i s u a l i z a t i o n t o e x t r a c t a n d e x p l o i t k n o w l e d g e o f m i g r a t i o n i n f o r m a t i o n c o n t a i n e d i n g e n e a l o g i c a l l i t e
10、r a t u r e,a n d d e s i g n s a n d d e v e l o p s a n i n t e r a c-t i v e v i s u a l p r e s e n t a t i o n p r o j e c t w i t h m i g r a t i o n s p a t i o-t e m p o r a l d a t a f o r n a r r a t i v e,a n d d e l i v e r s t h e s e r v i c e i n m u l t i p l e t e r m i n a l s a n
11、d s c e n e s,t h e r e b y e n h a n c i n g t h e u t i l i t y o f g e n e a l o g i c a l l i t e r a t u r e s a n d p i o n e e r i n g i n n o v a-t i v e k n o w l e d g e s e r v i c e m o d e l s f o r g e n e a l o g y.T h i s s t u d y m i n e s,o r g a n i z e s a n d v i s u a l i z e
12、s l a r g e-s c a l e d a t a t o p r o v i d e n e w i d e a s f o r t h e p r o m o t i o n a n d u t i l i z a t i o n o f t h e u n i q u e r e s o u r c e s o f l i b r a r y c o l l e c t i o n s.I t a l s o o f f e r s n e w m e t h o d s f o r t h e p r e s e n t a t i o n a n d d i s s e m
13、i n a t i o n o f h u m a n i t i e s k n o w l e d g e,a n d b r o a d e n s t h e s c o p e o f d i g-i t a l h u m u n i t i e s s e r v i c e s t o e n c o m p a s s t h e g e n e r a l p u b l i c.59K eyw o r d s D i g i t a l h u m a n i t i e s;D i g i t a l m e m o r y;M i g r a t i o n i n
14、g e n e a l o g y;D a t a v i s u a l i z a t i o n;K n o w l e d g e s e r v i c e1 引言中华民族几千年历史中,迁徙是民众谋求生存与发展的常态。借助一次次迁徙,各个家族在历史长河中走向四面八方,在广袤的华夏大地上寻找合适的土壤,落地生根、繁衍壮大,展示了强大的生存能力。家谱中记载了宗族起源、迁徙、演化、起伏等繁衍发展的过程,承载了族群变迁的记忆,是人们寻根问祖、找寻生命意义、获得精神力量的主要依据和来源。作为一种民间历史文献,家谱可以与官方的历史记载互引互证,为研究历史上的与人口迁徙相关的政治、经济、社会文化发
15、展及人类学等相关问题提供第一手资料。然而,目前对家谱资料的整理收集研究还存在不足之处,例如对家谱中迁徙信息的研究十分有限,原因或有两方面,一方面部分家谱资料中的攀亲附会现象十分普遍,影响了可信度,另一方面由于迁徙信息在各个家谱文献中非常分散,在数据采集与组织上需要一定的方法技巧,否则很难挖掘出家谱迁徙信息中蕴含的知识与规律。葛剑雄等认为如果能集中若干种有关同一迁移的家谱,就可能作出比较具体的分析;在这类资料积累到一定数量时,再运用科学的计算方法,就会获得相当可靠的结果1。当前信息技术发展迅猛,为数据的提取和挖掘提供了很多手段,数字人文正可以通过数据技术的引入,为家谱迁徙信息的整理、挖掘、研究和
16、利用提供全新的思路和方法。本研究基于中国家谱知识服务平台(h t-t p s:/j i a p u.l i b r a r y.s h.c n/)的提要式目录,根据所设计的事件本体,利用机器学习技术对家谱文献中隐含的知识先祖名人的迁徙事件进行深入发掘,利用本体和关联数据技术对事件数据进行知识组织,在不同事件的知识节点(迁徙人、迁徙时间、原居地、迁居地)之间建立关联。分布在数万种家谱中的碎片化内容成为了在时间和空间中产生联系的大规模数据,数据本身蕴含了客观的叙事逻辑,通过数据可视化技术和交互设计的重构后,形成了一种新的叙事语言和叙事模式。利用迁徙数据的时空属性,通过数字化叙事,将历史长河中的人口
17、迁徙用可视化和可交互的形式进行展演,试图为更有效地利用家谱中的迁徙数据,为相关数字人文课题研究提供一定的启发,并给予数据、方法、工具方面的支撑。2 相关研究中华民 族 数 千 年 历 史 上 的 迁 徙,谭 其骧2、葛剑雄等1许多著名的历史学家早已做过翔实的研究。传统的分析研究一般基于官方史籍、地方志等文献资料中文书、人口统计情况记录等。家谱作为一种民间历史文献,记载了某一族群先辈详细的迁徙历史,其结构严整、世系详明,是研究人口迁徙的第一手资料,越来越受到收藏机构和研究学者的重视,其蕴含的迁徙信息也被众多学者提取和研究3-4。这些研究一部分侧重技术实现路径,主要基于G I S技术,以部分家谱为
18、试验数据,研究开发存储管理家谱中世系和迁徙信息的系统,并在此基础上实现对迁徙信息的查询和可视化,为家谱迁徙信息的管理利用提供新的思路和技术实现框架5-7。另一部分是根据家谱的地域性特征,选择某时期某地或某姓氏某家族的家谱,以数据统计分析、可视化等方法将家谱中蕴含的深层信息进行分析利用,为传统人口迁徙的研究提供补充。祝虻8以现存明清时期的徽州家谱为例,通过其中记载的各时间阶段人口比例的统计分析,以人口比例变化反映出的人口流动趋势,说明人口迁徙的原因、范围、态势等;上海图书馆2 0 1 6年开始应用数字人文方法对馆藏家谱进行整理研究时,也曾以上川明经胡氏家族的家谱为个案,以可视化方式展现该家族的迁
19、徙图,探索迁徙信息的研究方法9。但由于家谱文献还未实现大规模文本化,全文信息提取的难度高、工作量大,目前的研究通常只能选择少量的家谱文69献进行信息提取和分析,而数据的样本量决定着研究的范围和方法,因此如何利用“人文大数据”进行研究思路的创新和研究范式转型1 0,也是近年来数字人文研究应用探讨的关键问题。家谱中迁徙信息的可信度问题也一直是历史学家对利用家谱文献研究移民史持保留态度的原因 1 1。作为一种民间文献,家谱文献中确实存在局限性,如攀亲附会现象较为常见,但家谱中记载的绝大多数始迁祖并非名人,且迁徙的记载对该家族的后裔来说是一件 极 其 重 大 的 事 情,一 般 不 会 敷 衍 了事,
20、我们尤其不能否定家谱数据在积聚到一定规模之后,其承载的群体记忆的可信度和价值。夏 翠 娟1 22 0 1 9年 提 出 以“文 化 记忆”的视角重新认识家谱文献的研究价值,并用家谱知识服务平台家谱提要中的湖广填四川之麻城迁徙事件做了先期研究,提出从家谱元数据著录的提要信息中抽取迁徙事件和利用大规模迁徙事件进行数据叙事的可行性和技术路线。在上海图书馆对家谱的著录元数据中,存在大量已考证的家谱文献迁徙信息,包括始祖、始迁祖、迁徙路线等,本研究以家谱知识服务平台收录7万余种家谱元数据为研究对象1 3,扩大家谱文献迁徙信息研究范围,从宏观角度探索迁徙数据中蕴含的历史发展规律,在此基础上探索对家谱文献的
21、知识服务模式。3 迁徙数据的深度开发与整理分析 家谱文献记载了丰富的信息,仅仅建立全文影像数据库是不足以提供研究人员使用的,因为 其 通 常 只 对 家 谱 文 献 中 的 重 要 特征,例如始祖、始迁祖、谱籍地、名人、堂号等信息以数据库字段的方式进行了结构化,其中大量的内容,例如家谱中最重要的谱系信息都无法检索,如果能将所有扫描图像通过O C R的方式转录成文本,再通过命名实体识别而构建知识图谱,则是很好的方法。然而这样做成本巨大,是无法在短期内完成。上海图书馆考虑了一种现实可行的做法,暂时跨越O C R阶段,先将其中某些方面的内容加工 提 取 出 来,例 如 迁 徙 信 息、家 规 家 训
22、等,建立单独的数据索引,这样就能尽快丰富家谱数据的揭示维度,更好地满足用户的查询需求。在迁徙信息的提取方面,以家谱元数据中的摘要为基础。上海图书馆历史文献中心家谱研究整理部通过多年的编目工作,对上海图书馆收录的家谱整理出提要式的目录数据,并通过机构合作的方式,形成家谱的联合目录1 4,将其收录于上海图书馆的中国家谱知识服务平台中1 3。对于家谱中家族迁徙源流信息的著录,编目时经由专业编目人员对家谱中新旧序、世系源流考、先祖传记、世系图、世 系 表 等 不 同 的 内 容 版 块 进 行 考察、分析判断和考证后,按照一定的格式记录在家谱的摘要中,主要著录的内容包括家族祖先迁徙源流及经过,并特别要
23、求揭示出祖先的名字、迁徙时间、迁徙地点等要素。这项工作为开发利用家谱的迁徙数据打好了坚实的基础,本研究的主要依据即家谱元数据中记载的有关迁徙的文本信息。3.1 家谱迁徙数据的深度整理加工数字人文主要采用对数据进行量化分析的方法,对数据的细粒度化和规范化有较高要求。迁徙信息一般包括迁徙人、原居地、迁居地、迁徙时间等要素,首先需要根据迁徙事件本体模型(见图1),对家谱元数据中的迁徙数据进行结构化加工,包括人、地、时的实体抽取和数据清洗加工,并将其转换为语义化的数据,以实现从时间和空间的维度进行呈现和分析。本研究从中国家谱知识服务平台中收录的7万 余 种 家 谱 中 共 抽 取7 1 1 4 0条
24、迁 徙 数据。根据本体要求,利用基于P y t h o n的抽取算法提取迁徙人、迁徙时间、原居地、迁居地四个 要 素,每 一 次 迁 徙 就 是 一 条 迁 徙 事件。有的家族有多次迁徙经历和记录,数据处理第一步,即将元数据摘要中与含“迁”“徙”“移居”等关键词的信息相关的实体抽取出来,提取为迁徙事件。但从抽取出的家谱迁徙数据看,由于家谱中记录的详略不同、编目老师记录的差异,不同家谱摘要信息中对迁徙信息的详实程度各有79图1 迁徙事件本体模型及词表F i g.1 O n t o l o g y m o d e l a n d g l o s s a r y f o r m i g r a t
25、i o n e v e n t s差异。有的家谱记录了详细迁徙年份,例如“明洪武二年”,但此类数据仅占总数据的1 2%,绝大多数迁徙事件难以考证出具体时间,缺少时间范围描述;迁徙地点时空数据不规范、不统一,不能满足研究分析的要求。3.2 家谱迁徙数据时空信息的规范表示与转换迁徙数据的时空特征是最重要的特征,也是进行数据叙事的关键要素。为了实现对时间、空间信息的分析和表达,迁徙时间、地点等数据的规范表示和转换成为迁徙数据加工的关键内容。根据抽取出的家谱迁徙数据,迁徙时间以传统纪年方法表示为主,但在不同的家谱中,记录方式各有差别,如公元纪年、干支纪年、年号纪年等;时间记录的粒度多为时间范围的模糊表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 跨越 千年 迁徙 家谱 数据 深度 挖掘 可视化 开发
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。