数字人文研究的四个层次.pdf
《数字人文研究的四个层次.pdf》由会员分享,可在线阅读,更多相关《数字人文研究的四个层次.pdf(9页珍藏版)》请在咨信网上搜索。
1、2023年9 月第3期Journal of School of Chinese Language and Culture Nanjing Normal University南京师范大学文学院学报Sep.,2023No.3数字人文研究的四个层次冯志伟(新疆大学中国语言文学学院,新疆乌鲁木齐8 30 0 46)摘要:数字人文是国内外新兴的文理交又学科,在语言、文学、历史、艺术等诸多人文学科产生了重要影响。然而,不同的数字人文研究在理论、方法和技术上存在较大的差异,目前还缺乏宏观的理论阐释和梳理。本文从数字人文的发展史和研究实践出发,总结出数字人文研究的四个层次:人文数据集(或数据库)的建设,数字人
2、文工具的开发使用,人文研究方法和范式的创新,人文领域和文化遗产的数字化重建。这四个层次的提出,可以更好地区分数字人文不同的研究目的和成果,推动数字人文在各学科领域的发展。关键词:数字人文数据集数据库范式数字化重建中图分类号:G250.7文献标识码:A文章编号:10 0 8-9 8 53(2 0 2 3)0 3-0 0 1-0 9一、引言数字人文(Digital Humanities),又称人文科学中的计算(Computing in the Humanities)或人文计算(Humanities Computing),它是使用计算机技术和网络技术来研究传统的人文科学的一门新型的交叉学科。在计算机
3、技术(ComputerTechnique)、数字技术(DigitalTechnique)和元宇宙技术(Meta-verse Technique)的支持下,人文知识的获取、分析、集成和展示出现了明显的变化。早期的数字人文研究主要是使用计算机来给书面文献编制索引(Indexing),语言数据的规模较小,处理的对象是文本数据,数字人文的研究还处于小规模的文本数据处理(SmallScale Text Data Processing)阶段。随着机器可读的文本语料库数据的增多,2 0 世纪9 0 年代,数字人文研究出现了战略转移(St r a t e g y T r a n s i t),开始从大规模的、
4、真实的文本语料库中获取知识,在自然语言处理(NaturalLanguage Processing,NLP)中取得了明显的成绩,数字人文的研究进入了大规模真实文本数据收稿日期:2 0 2 3-0 5-16作者简介:冯志伟,男,19 39 年生,云南昆明人,新疆大学中国语言文学学院天山学者黑龙江大学俄罗斯语言文学与文化研究中心兼职研究员。1处理(Large-scale Text Data Processing)阶段。万维网(WorldWideWeb)的出现和计算机技术的发展,使得数字人文的研究对象从语言文字的电子文本逐步扩展到超文本、图形、音频、视频、网页、数字地图、三维空间、虚拟现实等多媒体形式
5、,数字人文的研究领域也从语言文字进一步扩展到文学、历史学、音乐、美术、艺术、文物、考古等多个人文科学的领域。这样一来,数字人文的研究就进人了大规模的多媒体数据处理(Large-scale Multimedia Data Processing)阶段。根据国内外的研究成果,我认为数字人文研究至少包括以下四个层次的内容。二、人文数据集(或数据库)的建设这个层次又包括两个方面:一方面是把非电子化的人文资料加工转化为电子化的数字文本内容,成为电子化的数据集(Dataset);另一方面是对非结构化的数字文本内容按照具体的使用目的进行规范化标注著录,使之成为结构化的数据集。(一)电子化的数据集建设在数字人文
6、研究中,电子化的数据集研究成果斐然。例如,武汉大学的现代汉语文学语言的逐字逐词索引项目、谷歌数字图书项目(Google Books)、中国学术期刊知网的 CNKI 项目、西文过刊全文库JSTOR等数字化项目,都是人文数据集。语言是人类区别于动物的主要标志,是人类交际、思维和认知的重要工具,是人类文化的主要载体,是一种最为重要的人文现象,因此也就成为了数字人文的首要研究目标。语言文字的计算机处理激发了数字人文的研究。在语言研究中,搜集和整理资料是重要的基本功。先辈学者们学富五车,他们凭着自己的聪明才智和超人的记忆力,在做学问时游刃有余,我们常常称他们为“活字典”。上世纪6 0 年代我在北京大学中
7、国语言文学系读书时,有一次我到王力(19 0 0 19 8 6)先生家里问问题,闲谈之中,王力先生对我说,罗贯中的三国演义有错误,刘备、关公、张飞桃园三结义后,到卧龙岗三顾茅庐拜访诸葛亮请他出山,诸葛亮吟诗:大梦谁先觉,平生我自知,草堂春睡足,窗外日迟迟。王力先生对我说,这首诗的第三句“草堂春睡足”,其中的“睡”字用错了,因为在三国的时候,睡觉称为“眠”而不能称为“睡”,因此王力先生认为“草堂春睡足”应当改为“草堂春眠足”。当时我觉得王力先生实在太厉害了,三国时期的文献浩如烟海,王力先生居然能从这些浩如烟海的文献中洞察到不用“睡”字。在北京大学时我还在北大图书馆中读过音韵学家戴震(17 2 4
8、17 7 7)的文章,戴震饱读诗书,他断言,在论语中没有“此”字。我觉得“此”是古书中常用的指示词,孔子的论语不会没有“此”字,非常怀疑戴震的这个说法。论语才2 万多字,字数不多,我想核实一下戴震的说法。于是我在图书馆里花了整整一天的时间把论语全书通查了一遍,果然没有查到“此”这个字。冯志伟.现代汉字和计算机M.北京:北京大学出版社,19 8 9,第16 9 页。2这两件事使得我对于王力和戴震肃然起敬,钦佩不已,他们两位都是大语言学家,确实有着超人的智慧。不过,我对于戴震的断言仍然抱有怀疑。我认为,“此”是古汉语中常用的指示代词,论语中不可能弃之不用。后来我离开北京大学到昆明五中当物理教员,没
9、有精力来检验我的怀疑。上世纪8 0 年代我重新回到了语言学队伍,计算机也可以使用汉字了,于是我用计算机再次来查询论语中的“此”字,终于发现在论语中确实有一些地方出现了“此”字:此生也,何真之有?(论语雍也)此谓知本。(论语为政)君子而不争,群而不党,如此而已。(论语卫灵公)这说明计算机比戴震还要厉害!我们凡人没有王力和戴震这样高的智慧,在没有计算机的时代做学问,只好老老实实地查询文献,或者编制“引得”(Indexing,又叫索引、通检)来提高查询的效率。在传统的人文科学的研究中,文本资料的“引得”一直是通过手工编写卡片来进行的,这样的手工引得费时而又费力,是一种极为艰苦的脑力劳动。新中国成立以
10、前,在我国的燕京大学曾设有引得编纂处,他们以哈佛燕京学社的名义印刷了古代汉籍引得6 3种,中法汉学研究所印刷了通检8 种,又以巴黎大学北京汉学研究所的名义印刷了通检6 种,中华书局、商务印书馆也印刷过一些引得。此外,台湾、香港和日本也编印过汉籍引得多种。这些引得都是手工编纂的,编纂工作费工费时,手续繁多,枯燥乏味,要经过比较版本、校刊文字、确定工作本、划定词目、摘抄例句、排列卡片、过录稿本等多个工序,才可以完成艰苦的引得编纂工作。杜诗引得的编纂,费时将近两年。荀子引得的编纂也很费功夫。人们曾经这样描述编纂荀子引得时的劳累情况:编辑五六人,晨夕不辙,历时年余,始克藏事,编者诚劳而用者则逸矣。在国
11、外,古代拉丁文和希腊文典籍的引得编纂工作,同样也是非常艰苦的劳动。1946年计算机研制成功之后,人文学者们开始使用计算机来编制引得,这样就可以把人文学者们从手工编纂引得的繁重劳动中解放出来。这可以说是早期的自然语言处理,1949年,在美国IBM公司的帮助下,意大利神父罗伯托布萨(Roberto Busa)使用计算机成功地为托马斯阿奎那(St Thomas Aquinas)等神学(Theology)学者的古典拉丁文作品编制机器引得(M a c h i n e I n d e x i n g),文本的单词数目多达110 0 多万,并且使用计算机对于每一个单词进行了词目还原(Lemmatizatio
12、n),也就是把文本中实际出现的经过形态变化的单词还原成原形词(Lemma)。他们把包含110 0 多万单词的全部书面文本转移到穿孔卡片上,输人计算机,编制程序进行检索(Re-trieval),并于19 9 2 年制作成光盘。布萨的成功,开辟了数字人文研究的先河。1962年,美国学者帕里什(Stephen Parrish)仿效布萨的做法,给诗人阿诺德(Matthew Arnold)和引得编纂处.苟子引得M.上海:上海古籍出版社,19 8 6。Busa,Roberto,(ed.).Thomae Aquinatis Opera Omnia Cum Hypertextibus in CD-ROM M.
13、Milano:Editoria Eletro-nica Editel,1992.3依茨(WB.Yeats)的诗用计算机编制了引得,由康奈尔大学出版社出版,方便人们检索。1963年,英国学者维斯贝(Roy Wisbey)使用计算机给中世纪的高地德语(HochDeutsch)文献编纂了机器引得。除了编纂引得之外,在这个时期,欧洲的一些语言研究机构还开始采用计算机来协助词典的编纂。例如,在法国用计算机编纂了法语宝库(Trsor de la Langue Frangaise),他们在南锡(Na n c y)建立了法语文学资料的档案,以此作为词典编纂的数据资源。在荷兰莱顿(Leiden)成立了荷兰语词典
14、研究所,使用计算机来编纂荷兰语词典。1976年在英国建立了牛津文本档案馆(the Oxford Text Archive,O T A)。O T A 的主要工作是维护电子文本,并在得到保存人的许可和版权许可的情况下,将这些文本提供给学术研究使用。这就是“数字图书馆”(Digital Library)的雏形。帕卡德人文研究所使用计算机编制了古典拉丁文集的语料库(Corpus),为古典拉丁文研究的学者提供丰富的研究资源。古英语学者建立了“古英语语料库”,并在这个语料库的基础上编写了古英语词典。1979年,我国武汉大学把巴金、夏衍、鲁迅、郭沫若、老舍、叶圣陶、曹禺、茅盾、赵树理等9 位现代知名作家的3
15、3种小说和戏剧,共52 7 万字键人计算机,用RD-11微型计算机编制引得。中国社会科学院语言研究所使用计算机对寒山子诗进行逐字引得。寒山子诗的诗句有三言、五言、七言三种,逐字引得中的每一个字,也按照它出现在三言、五言、七言中的不同情况,分别由计算机打印出它所在三个汉字、五个汉字、七个汉字中的引得。这种机器引得的方法此后逐步向文学、文艺学、历史学等领域扩展。19 8 0 年,罗伯托布萨因此而提出了“人文计算(Humanities Computing)”的概念。美国加州大学欧文分校的布鲁纳(TheodoreBrunner)筹集了数百万美元建立了古希腊文本的“数据库”(Data Base),该数据
16、库收录了从荷马到公元6 0 0 年左右的所有古希腊文作者的作品,约7 0 0 0 万词。南京师范大学建立了先秦2 5种典籍的语料库(Corpus)。包括左传韩非子庄子墨子等,含标点合计17 2.2 9 万字。他们使用计算机对古籍进行了断句、标点、分词、词性标注、义项标注等自然语言处理,使之成为电子化的数据库。在电子化的数据集的基础之上,可以使用统计方法从中提取有用的信息来识别作者的身份(AuthorshipIdentification)。2 0 世纪6 0 年代初期,莫斯特勒(Mosteller)和华莱士(Wallace)对联邦主义者文集(Federalist Papers)的作者身份进行研究
17、,他们采用统计方法对同一主题O Parrish,S.M.Problems in the Making of Computer Concordances J.Studies in Bibliography 15:1-14.1962.,Wisbey,R.The Analysis of Middle High German Texts by Computer:Some Lexicographical Aspects J.Transactions ofthe Philological Society,pp28=48.1963.Proud,J.K.The Oxford Text Archive A.Lo
18、ndon:British Library Research and Development Report C.1989.冯志伟.中文信息处理与汉语研究 M.北京:商务印书馆,19 9 2,第31页。Busa,Roberto.The Annals of Humanities Computing:The Index Thomisticus JJ,in Computers and the Humanities(14):pp83 90,1980.Brunner,T.F.Classics and the Computer:The History of a Relationship AJ.In J.Sol
19、omon(ed.),Accessing Antiqui-ty:The Computerization of Classical Studies,pp.10-33.Tucson:University of Arizona Press,1993.4的有争议作者进行分析,在12 份有争议的作者中证明麦迪逊(Madison)是最为可能的作者。他们的结论得到学术界的普遍认可,联邦主义者文集的分析方法成为了作者身份识别的经典方法。1999 年,英国伦敦国王学院的麦卡蒂(WM c Ca r t y)讨论了人文计算的学科地位,他认为人文计算应该是一门独立的交叉学科,并且提出,应当在制度和学术等层面,切实地保障
20、和支持人文计算的研究。2001年4月,布莱克维尔出版社(Blackwell Publishing)出版了一部书名中包含“数字人文”一词的图书,这本书全称为数字人文指南(A Companion to Digital Humanities)。在此之后,“数字人文”这个术语便很快地取代了“人文计算”的表述,成为了一个跨学科的、新兴的研究领域。(二)结构化的数据集建设另外,在对非结构化的数字文本内容按照具体的使用目的进行结构化标注著录的数据集建设方面,也成绩斐然。例如,中央研究院历史语言研究所、哈佛大学费正清研究中心、北京大学中国古代史研究中心发起并共建的中国历代人物数据库项目(China Biogr
21、aphical Database,CBDB)。中国历代人物传记数据库就是结构化的关系型数据库,这样的数据库要把搜集到的数据根据具体目的进行结构化的处理。该数据库的远景目标是系统性地收人中国历史上所有重要的传记资料,并将其内容无限制、无费用地供给学术之用。截至2 0 2 1年12 月,该数据库共收录了515,48 8 人的传记资料,这些人物主要出自七世纪至十九世纪,目前正致力于增录更多唐代和明清的人物传记资料。三、数字人文工具的开发使用这一层次也包括两个方面:一方面是设计或使用数字工具与平台来解决传统的人文问题,另一方面是设计或使用非人文领域研究方法的数字工具来进一步理解和分析人文数据集。在传统
22、的人文研究中,存在较多低水平重复性的工作,如资料查阅、文本标记、文本比对、文本版本辨析等,设计或使用数字工具和平台,便可以让人文学者从艰辛的“体力活”中解放出来,提升工作效率,从而能够将更多的时间和精力放在更加深刻的人文问题研究之中。例如,使用中国哲学电子书计划(Chinese Text Project,CTEXT)平台上的文本比对工具。可以查询到论语的有关段落及其对应的英文译文:子日:“学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知而不,不亦君子乎?”The Master said,“Is it not pleasant to learn with a constant perseve
23、rance and application?Is itMosteller,F.and D.L.Wallace.Inference and Disputed Authorship:The Federalist M.Reading.MA:Addison-Wesley,1964.H o l me s,D.I.a n d R.S.Fo r s y t h.T h e Fe d e r a l i s t R e v i s i t e d:Ne w D i r e c t i o n s i n A u t h o r s h i p A t t r i b u t i o n JJ.Li t e r
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 人文 研究 四个 层次
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。