数字人文与清代官员仕途研究_陈必佳.pdf
《数字人文与清代官员仕途研究_陈必佳.pdf》由会员分享,可在线阅读,更多相关《数字人文与清代官员仕途研究_陈必佳.pdf(13页珍藏版)》请在咨信网上搜索。
1、史学月刊 年第 期数字人文与历史研究数字人文与清代官员仕途研究陈 必 佳康 文 林 摘要数字化时代的到来给史学研究者带来研究方法的变革,越来越多专题性历史数据库的涌现,对人文学者掌握和利用数据库的技术手段方面也带来新的挑战。在将清代缙绅录建设为史学量化数据库的过程中,利用人物姓名、籍贯等关键信息构建有效的内部连接是追踪官员仕途迁转的关键,而跨数据的外部连接能够进一步拓展数据分析维度,补充科考名次、出生年月、家族背景等影响仕途的重要因素。利用明经通谱中的拔贡名册和缙绅录连接比较,可以得到各科拔贡生员入仕的人数比例。在分析拔贡不同的入仕途径过程中,不能忽视履历、方志等史料中对官员捐纳等信息的搜集,
2、同时在任职时间等方面,这些信息可与缙绅录数据库中的信息互补,勾勒出更完整的官员仕途路径。在团队跨学科合作方面,缙绅录就开发检索平台、互动式可视化界面都进行过尝试,但存在成果难以维护和共享利用等问题,为数字人文在史学领域的发展提供思考借鉴。关键词数字人文;跨数据连接;清代官员;缙绅录;拔贡仕途 中图分类号 文献标识码 文章编号 ()近年来,随着计算机技术和数据信息化的发展,各类史料、档案、报刊都逐渐被全国各图书馆、高校和科研团队利用并建立了相关的数据库,内容、形式不一而足,为学界提供便利的同时,也给利用和处理相关数据化的材料带来了新问题和新挑战。本文以自身参与其中的“中国历史官员数据库 清代缙绅
3、录()”项目和相关拓展研究为例,展示历史研究中如何借鉴社会科学研究方法,以系统性的历史数据库为核心,连接各类其他史料或数据集。系统性和结构化的史料通过数据连接和恰当的分析方式,在量化分析层面能够发掘问题、验证推论,最终服务于以发现、描述和解释为目的的历史研究。同时,以跨学科合作为基础进行的数据可视化也尝试在数字人文兴起的大背景下,给传统人文学科带来新的思考和挑战。一从计量统计分析到量化历史大数据按照中国史学传统,历史研究长期以来皆以政治史为核心展开叙述,因而作为政权运作执行者的历代官员,也是历史研究的重点对象。与清代官员群体相关的档案史料存世多而繁杂,有学者从具有代表性和传奇色彩的官员生平入手
4、,根据目标人物宦海沉浮的经历勾画时事变化与仕途命运的关系,典型的代表作如罗威廉 救世 陈宏谋与十八世纪中国的精英意识 一书,对清代中叶著名政治人物陈宏谋超过半个世纪的为官经历进行解读,透过其思想与政治生涯反映 世纪的官僚政治思想和社会。随着计量史学的兴起,从 世纪七八十年代起,有一批以 清季职官表、地方志为材料依托的学者,对清代官员中的几个代表性群体尝试过描述性的统计分析,以揭示群体特征,并将这些特征与中央地方权力分配和时局联系在一起。最早结合社会学理论,利用数量分析方法处理方志史料,讨论基金项目:中国人民大学中央高校基本科研业务费专项资金资助项目(),香港政府研究资助局优配研究金()()。关
5、于本数据库在人名连接方面更为系统和技术性的分析和讨论,参见康文林、陈必佳:中国历史官员量化数据库 清代()中的官员人名连接 ,“()”,历史生命历程研究()年第 期,第 页。士绅社会来源的是张仲礼,他对 世纪地方志中 名中国绅士传记进行了统计,分析其中既无家庭背景又出身异途的“新进者”和有家庭科举背景的“继进者”之间的数量关系。同时期的学者何炳棣在 明清社会史论 中,也多处利用缙绅录这种官员名册统计对清代官员出身进行研究分析。瞿同祖在 中国地方政府 一书的论述中,也曾借缙绅录为据分析知县等地方官的出身构成。除上述与士绅、官员的社会来源和社会流动分析密切相关的研究中利用到了大样本的数量统计和比较
6、分析外,近年来,随着信息技术的发展和数字人文的兴起,在如何科学有效地利用史料中包含的数量信息开展研究方面,学界有了不少新尝试和新探索。数字人文的发展是以计算机技术引入人文领域为基础的,数字工具的应用和量化分析的方法是其主要特点,跨学科合作是其重要的开展模式。目前数字人文学科的发展已经从探索走向了应用领域,包括但不限于城市地图、知识图谱、文物 模型和 展示等,广义的数字人文在公共文化传播、文物保护和城市旅游开发等领域不断有开创性的应用。在数字人文与历史研究相结合的研究成果中,各领域的学者也呈现了不同的研究方法和路径,在此选取有代表性的一部分进行简单概述。第一,伴随大量检索型人文数据库的建设,利用
7、词频统计等工具对文本进行的量化分析研究。这类研究方法在档案管理、图书情报等学科应用方面更为广泛,汉语言文学等学科也有学者利用语料库进行词频分析方法研究文体特征。这类分析的数据统计较为基础,只能得到一些概括性的推论,在深入研究和解释方面尚存在诸多不足。第二,沿袭资料卡模式的史料分析方法,将“大规模、系统性材料”进行结构化处理,把其中的专题类信息分门别类整理为表格式的大型数据库。围绕这类数据库可以进一步演化为知识库等更具有功能性的数据库形式,也可以由研究者独立进行描述性的统计分析,再以大样本、长时段的实证性分析结果为依据,辅以其他档案史料展开细化分析。梁晨和李中清指出,这种社会科学化的定量分析方法
8、“在发现新史实或新规律上优势明显”,但也承认在观察到有趣的规律性现象时,“仅凭数据本身无法对结果做出合理的解释”,导致对部分现象的解说和阐释较为肤浅,因此不能忽视定量分析和定性分析方法的结合。第三,经济史方向的研究则结合社会科学、经济学领域计量模型的分析方法,利用从史料中提取和收集到的有效数据,应用数理模型进行带有因果假设推断的检验性分析。梁晨等学者在 量化数据库与历史研究 一文中,将以量化数据库展开定量研究推动“求是型学术”和传统计量史学和以经济学为代表的社会科学学科推动的“解释型学术”进行了比较和说明,并重点解说了量化数据库方法在应对大规模、长时段的整体史学和同类型的群体性记录的历史材料具
9、有优势,不仅可以扩大史学研究应用的材料门类和范围,也能“为克服史料繁芜提供重要思路”。李伯重对经济史领域张仲礼:中国绅士研究(,)上编,上海:上海人民出版社 年版,第 页。这类研究的代表,可参考项洁等:数位人文视野下的知识分类观察:两部官修类书的比较分析,东亚观念史集刊 第期,年 月,第 页。唐榕:基于词频统计的宋词文体特征分析,重庆第二师范学院学报 年第期,第 页。此类研究建立的代表性数据库包括但不限于中国多代人口数据库、中国大学生数据库、中国历史官员量化数据库 清代(原缙绅录量化数据库)、中国历史官员量化数据库 北洋民国。关于这些数据库项目和相关研究的详情,可参见李中清康文林研究团队的网页
10、 :。此类大量运用描述性统计研究分析方法的代表性成果包括但不限于李中清、王丰著,陈卫、姚远译:人类的四分之一 马尔萨斯的神话与中国的现实 ,北京:生活读书新知三联书店 年版;梁晨等:无声的革命 北京大学、苏州大学学生社会来源研究 ,北京:生活读书新知三联书店 年版;梁晨:民国大学教职员工生活水平与社会结构研究:以清华为中心,北京:科学出版社 年版;陈志武、彭凯翔、袁为鹏:清初至二十世纪前期中国利率史初探 基于中国利率史数据库()的考察,清史研究 年第期,第 页;康文林:清末科举停废对士人文官群体的影响 基于微观大数据的宏观新视角,社会科学辑刊 年第期,第 页。梁晨、李中清:大数据、新史实与理论
11、演进 以学籍卡材料的史料价值与研究方法为中心的讨论,清华大学学报 年第期,页。这类研究包括陈志武等:清代妻妾价格研究 传统社会里女性如何被用作避险资产?,经济学(季刊)年第期,第 页;白营、贾瑞雪:科举停废对于精英去向和政治稳定性的影响(,“:”),计量经济学()年第期,第 页。梁晨、董浩、李中清:量化数据库与历史研究,历史研究 年第期,第 页。利用统计学特征的计量和量化方法进行了辩证的讨论,提出史学研究对量化方法应采取开放的心态,但不能忽视其适用性,也要注重对史料可靠性的考察。第四,历史学者在引入和应用量化分析方法时,更注重历史学的叙事性和史料的丰富性,因此经量化统计的数据分析结果作为研究过
12、程中展开的论证依据之一。社会学和历史学者最初关注和利用缙绅录这一史料,便是用于统计分析特定官员群体的科举出身和来源比例。前辈学者的研究受到史料搜集的时空局限,基本都是援引个别身边易于获得的缙绅录版本,对其中对应季节反映的特定时间点的官员名册进行单独统计,大规模的追踪分析也因技术限制而难以实现。在历史大数据和分析技术的发展背景之下,缙绅录成为覆盖清代文官群体全样本的理想的时间序列型数据材料。据考,缙绅录源于宋代,也有学者提出唐代或许已有该类名册的雏形,现存最早的版本可追溯到明代,是记录所有官职和官员信息的名册。至清代,缙绅录体例逐渐成熟并形成了按季更新,官本、坊本流传并行的局面。起初其印制和发行
13、是服务于皇帝和中央机构的,需要“进呈御览”,因而由吏部负责组织刊刻的缙绅录书名为 爵秩全览。坊刻本通常名为 大清缙(搢)绅全书 爵秩全函,由京师琉璃厂的各大书坊发行,书坊互为商业竞争关系,各自有其搜集官员信息的渠道。坊刻本的商品属性使得各书坊力求官员任职信息来源的精确性和时效性,成为在京官员、候补官员和京外官员及家属争相求购参考的时报类工具书。“中国历史官员数据库 清代”的建设,最初就是以研究官员流动为目标,以发现和了解缙绅录这一官员名册为契机开展的,与图书馆和档案馆以资料整理为目的的历史文献数据库有所区别。上文已提及,缙绅录在清代按季发行,但有官刻、坊刻之分,而存世和可供查阅的缙绅录在时间连
14、续和版本一致性上无法保持始终统一。实际的材料转录中也确实发现不同版本来源的缙绅录,相邻的季节在同一机构的人员顺序和格式上存在差异。随着转录材料的累积和追踪分析,项目组发现人员数量变化的原因主要在于官刻本和坊刻本对于“额外司员”这类候补官员的记录标准不同,因而及时做了分析策略的调整 将仅出现在坊刻本中的“额外司员”进行标记,在涉及时间变化和连续性的量化分析中,将所标记的官员记录排除。除此之外,按照时间顺序录入的缙绅录数据基本遵循清代文官系统的结构,满足追踪分析官员群体特征的需求。数据库开始转录工作以来,同步开展的分析工作大致分两个脉络进行,一是熟悉了解缙绅录数据库本身的特点,对所载官员在不同年份
15、季节中的官职记录进行内部连接,二是搜集其他与清代职官有重合的人员名录和数据集,尝试跨数据匹配的“外连接”。二传统史料数据化后的内外连接:从科考到入仕的群体路径分析将缙绅录中的官员任职条目化信息转录为数据库具有重大意义,可以有效帮助我们从整体角度研究分析清代官员“从哪里来,到哪里去”的问题。清末仕途壅滞,捐例大开,科举士人难寻出路,但在具体的数量和比例层面,仅有时人笔记中的直觉性判断和学者的估算性统计作为参照,并无确切统计。缙绅录本身按季更新的特性和覆盖所有文官名录的属性,使得分析科举士人由科举到入仕并进入仕途,及在文官整体中的占比数量和动态变化成为可能。数据库在从录入到量化分析的过程中遇到了多
16、方面的困难,开展研究的过程中,我们不断探索技术进步为人文学术问题带来的潜在新解法,并最终形成了较为成熟的方法体系。数据的“内连接”是我们开展量化分析的第一步,其目的是追踪已经成为文官系统正式成员的官员群体,在进入官场后的迁转路径是否有其内在规律。清代有成李伯重:史料与量化:量化方法在史学研究中的运用讨论之一,清华大学学报 年第期,第 页。此类研究尝试的代表包括但不限于胡恒:清代政区分等与官僚资源调配的量化分析,近代史研究 年第期,第 页;胡存璐等:清代州的政区分等与知州选任的量化分析,数字人文研究 年第期,第 页。石鹏:国家图书馆藏明代万历及崇祯缙绅录研究,文献 年第期,第 页。梁晨:推动数据
17、连接,促进史学研究,中国社会科学报,年月 日,第版。“内连接”即将同一名官员在不同季节中的任职记录进行识别,赋予唯一的编号。由于针对缙绅录的转录我们遵循尽量不改变原始史料包含的信息,所以不同版本的缙绅录即使在时间上连续,针对同一名官员也可能会出现姓名、籍贯地用到异体字或同音字的情况,这对保证识别一名官员唯一编号的准确率带来一定挑战。熟且不断发展变化的一套人事制度,一方面,我们可以利用数据库验证官员升迁路径是否整体上符合制度规定;另一方面,通过发现与制度背离的人事变动情况,可以快速锁定一些重大历史事件,以此为线索从“人事变动异常”的官员出发,搜集其他相关史料,开展研究分析。缙绅录内部连接的完善:
18、构建追踪职官生涯的基础目前大部分数字人文方面的数据库,都是由数据库开发者对人名等进行专名识别,并建立关联,但这种基于自然语言处理技术的方法比较粗糙,且因数据库中的史料来源并不具有系统性,不可避免存在错漏。缙绅录数据库中一人对应数十甚至上百条任职记录的特点,决定了我们作为数据使用者,需要首先进行数据连接,同时在研究实践中发现并调整连接方法,保证分析结果的准确性。目前我们形成了较为有效的“两步走”处理方式:第一步是基于每条记录的姓、名、籍贯省、籍贯县四项内容,将其中内容完全一致的记录赋予一个编号,该步骤保证了大部分应该被关联的记录能够连接为同一名官员。第二步是通过 软件中的 命令进行进一步的概率性
19、数据连接()。以缙绅录数据库的“内连接”为例,在最初的数据库分析预处理中,由于官员姓名中出现异体字,或因版本问题存在籍贯不一致(主要是县一级信息),部分属于同一名官员的记录在系统运行初期被赋予了两个或两个以上的编号,这样在量化分析中,会将一名官员的连续记录识别为两名或两名以上的官员,造成统计上的偏差。为解决上述问题,我们将官员记录中的姓名拆解,并忽略字形,转换为拼音,与籍贯信息排列组合,进行“模糊匹配”。最终形成的匹配分值达到程序运行者的预设时,可以认定该结果是第一步的连接中所遗漏的,将这些记录的编号替换为第一步中生成的编号。关于满蒙旗人的连接匹配,我们目前的连接结果尚无法保证统计学层面的准确
20、性,因此基于“内连接”开展准确度较高的量化分析尚有待时日。外连接的探索与尝试:打通科举、捐纳与入仕途径的量化分析手段为探究官员仕途履历背后的因果关系,并分析制度变迁下官僚阶层的流动性,我们通过“外连接”来补充缙绅录没有涵盖的官员信息。缙绅录所载官员有相当一部分经历过科举并获得功名,这也使得我们最初尝试的分析从大量存世的科举录入手。晚清“官多缺少”几乎成为学界的共识,而作为候选官员中享有最高优先级的进士,仍要面临漫长的轮候,甚至终其一生没有机会任官。通过外连接到“清代进士题名录”并进行描述性统计分析,可以直观解答的问题有:进士轮候时间平均为多久,进入官场的进士比例如何,该比例是否因时变化。我们利
21、用整理出版的 清代进士题名录 构建了清代进士数据库并进行连接,分析划分甲第和名次后,进士候缺时长和会试名次的直观关系。结果显示:三甲进士明显比一甲、二甲进士更难获得入仕任职的机会。在对三鼎甲及传胪和二甲、三甲进士的甲第名次划分后,通过累积比例图表的方式,展示会试年以后的二十年内陆续出现在缙绅录中 即获得由于缙绅录中满蒙旗人并无“姓”的内容,本文介绍的数据连接仅限于民人和汉军旗人。概率性数据连接的功能,是对数据库中所有记录的指定信息两两配对,尽可能多地将可能属于同一人的记录赋予同一编号,再通过对生成的匹配编号进行“打分”,通过得分标准来限定匹配成功的连接,从而保证连接结果的可靠性。打分的具体标准
22、可以在分析过程中针对造成差错率的原因不断调整 关于 命令模块的作者内容见 ():运行概率性数据连结的 模块(“:”),统计软件组件 ,波士顿大学经济学院,年月 日修订。前期在数据处理中针对缙绅录中异体字、异形字造成的连接问题进行的相关“消歧”处理和数量统计,可参见陈必佳:“中国历史官员量化数据库 清代”的建设过程、现状与前景,付海晏主编:大数据与中国历史研究 第辑,北京:社会科学文献出版社 年版,第 页。模糊匹配的思路是通过更宽松的匹配标准,尽最大可能抓取任意两条可能属于同一名官员的记录进行连接,再通过设定条件排除错误连接。打分的标准一直在调试变动中。也有一定的局限性,对数据进行两两匹配的时候
23、无法考虑其中的时间顺序。旗人连接准确率低的大致原因如下:第一,作为满蒙旗人官员,在缙绅录中并无“姓”的信息,仅存在名,而从数量上看大部分旗人集中任职于京师各衙门,担任笔帖式、主事等职,这类旗人重名率极高。第二,虽然旗分信息能够帮助判定身份,但满洲、蒙古八旗的组合情况远不及籍贯信息有效。另外,有学者指出,旗人的旗分并非终其一生不变,在清代存在因受功或犯错改变旗属的现象,从而使得连接结果更添不确定性。实缺官职的进士人数和比例。从分析结果可见:一甲、二甲进士在考取功名十年以内,九成以上都获得了官职,而三甲进士则平均要在考中进士十五年后陆续获得官职,比例最终稳定在七成左右。上述环节描述性分析,缺失了可
24、能影响进士官职任命的关键要素 年龄,通过“外连接”其他科举名录等史料,可以部分补充年龄信息。朱卷和同年录、同年齿录中进士、举人的出生年月信息提供了年龄线索,同时他们的家庭背景信息,如父亲、祖父、叔伯、堂兄弟等人的任官情况,都会成为影响官员进身的关系网络因素。缙绅录与上述材料构建的数据库连接后,扩展部分的信息即可增加研究问题的切入点。除了这种扩展缙绅录数据库中所包含官员的背景信息的思路,另一种“外连接”是与相似性质的名录进行人员比对,可以大规模追踪在特定时段内官员的去向。该研究路径的例证之一是缙绅录与民国职员录的连接。清末民初,在社会变革大背景下,原来服务于清政府的政治精英群体的去留是很多近代史
25、学者关心的话题,但通过传统方法开展的分析往往只能追踪个案。通过民国职员录数据库和清末最后一季缙绅录的连接,我们共计发现 多名清末官员供职于中华民国政府各部门,从分析结果推测,其中以新学人才为主。当然,数据库之间的连接并不是盲目的,而是以数据库的独特性为出发点提出研究问题,缙绅录相比于其他职官史料,最大的特点在于“全”,即可以将它理解为对清代官员的“全样本”收录。因此缙绅录适合数量基数较大的整体性研究,在一些情况下能够补充我们对于历史问题中的宏观层面认识。清代自咸同军兴以来,捐纳大行其道,已经成为官员进身不可绕过的问题,这一点通过近年来对清人笔记、奏疏、日记的分析整理能够知晓,但通过捐纳手段入仕
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 人文 清代 官员 仕途 研究 陈必佳
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。