deGLOBE当代德语书面语平衡语料库的创建.pdf
《deGLOBE当代德语书面语平衡语料库的创建.pdf》由会员分享,可在线阅读,更多相关《deGLOBE当代德语书面语平衡语料库的创建.pdf(9页珍藏版)》请在咨信网上搜索。
1、136语料库语言学 2022年 第9卷 第2期deGLOBE当代德语书面语 平衡语料库的创建1*北京外国语大学周顾盈 宋瑛明 舒 哲 孙 昱 徐 亮提要:deGLOBE当代德语书面语平衡语料库是“北外全球语料库集群”项目(又称“GLOBE语料库”项目)下的一个子课题,旨在收集近十年的德语书面语文本,创建百万词级的平衡语料库。本文首先简述当前面向德语的语料库建设情况,在此基础上对deGLOBE的建库理念与建库过程进行较为全面的论述,并对基于该语料库的语言研究与教学,以及后续建设规划作出展望。关键词:deGLOBE语料库、当代德语书面语平衡语料库、德语教学与研究2021年12月29日,北京外国语大
2、学启动了“北外全球语料库集群”项目,又称“GLOBE语料库”项目。GLOBE为Global Languages Out of BFSU Expertise首字母缩略词。该语料库集群项目致力于建设北外开设的101个语种的当代书面语语料库。其下所有单语平衡库均借鉴布朗语料库(The Brown Corpus)的采样方案,使之可与现有英汉语布朗家族语料库进行对比,从而开展外汉、外英或多语对比研究。“deGLOBE当代德语书面语平衡语料库”(简称deGLOBE语料库)为GLOBE语料库集群下的德语子库,旨在收集20122022年首次出版或发表的原创德语文本,其设计规模为100万词。1 面向德语的语料库
3、建设简述德语语料库建设可追溯到前电子化时代。1897年,德国速记员Friedrich Wilhelm*本文系北京外国语大学2022年度“双一流”重大标志性项目“多语种词典编纂理论与实践研究”(2022SYLZD015)及北京外国语大学2022年度“双一流”重大标志性(培育)项目“全球语料库集群建设与研究”(2022SYLPY004)的阶段性成果。周顾盈是本文通讯作者。作者贡献:周顾盈:选题构思、研究方法、数据收集(语料贡献占比28%)、数据分析、讨论结论、初稿撰写;宋瑛明:数据收集(语料贡献占比21%)、修改润色;舒 哲:数据收集(语料贡献占比17%)、修改润色;孙 昱:数据收集(语料贡献占比
4、17%)、修改润色;徐 亮:数据收集(语料贡献占比17%)、修改润色。SJ00082939 语料库语言学 第18辑正文.indd 13623-1-10 下午6:51137周顾盈 宋瑛明 舒 哲 孙 昱 徐 亮Kaeding出版了德语词频词典(Hufigkeitswrterbuch der deutschen Sprache),旨在基于有代表性的德语语料,通过词频统计的方式获得常用词表,用于改进德语速记法。该项目共计收集近1,100万词各类体裁的德语文本,并统计其中超过25万个单词的频数(Kaeding 1897/1898)。除了不可机读外,Kaeding在早期项目中所建立的德语文本数据库与如今
5、我们所熟知的电子语料库别无二致,因此也称为Kaeding-Korpus(Kbler&Zinsmeister 2015:5)。进入电子化时代,得益于计算机技术的发展,越来越多类型丰富、用途广泛的可机读语料库如雨后春笋般涌现,各种规模的语料库层出不迭。当前,面向德语的电子化语料库主要包括但不限于以下几种类型。(1)大规模参照语料库。以德国语言研究院主持的德语参照语料库DeReKo、柏林勃兰登堡科学院资金支持下的DWDS词典项目为代表。前者规模达百亿词,称得上是当前世界上最大的德语文本库(Lngen 2017:161);后者致力于建设涵盖20世纪和21世纪文本的大型平衡语料库,进而编写当代德语电子词
6、典(Geyken 2007:23)。(2)口语语料库。包括覆盖多个场景的口语库FOLK(Schmidt 2018:216),以及其他类型的德语口语库,如包含本族语者与学习者在内的BeMaTaC口语库、学术口语库GeWiss等。(3)历时语料库。包括覆盖时间段较长的DTA语料库(14651969年)和RIDGES语料库(14501900年),以及专门针对古德语(7501050年)、中古高地德语(10501350年)、早期新高地德语(13501650年)的参照语料库DDD、ReM、ReF等。(4)学习者语料库。如洪堡大学开发的德语学习者错误标注语料库Falko,以及包含德语在内的欧盟框架下多语种学
7、习者语料库MERLIN。(5)专用语料库,例如新闻语料库(如TIGER、TBa-D/Z)、网络语料库(如DeWaC、DECOW)、德国议会演讲语料库(Parlamentsreden Deutscher Bundestag)等。以上着重列举了公开可访问的语料库。可以说,面向德语的语料库建设总体较为成熟。尽管如此,当代德语书面语,尤其是2010年后德语书面语的平衡语料库建设仍然值得继续推进。从前电子化时代的Kaeding-Korpus,到当前最大的德语参照语料库DeReKo,再到当前最大的德语平衡语料库DWDS,“平衡性”始终贯穿于建库理念中。DeReKo以新闻语料为多数,未严格采用平衡语料库的建
8、库模式,而是由多个子语料库组成,其中包括平衡语料库LIMAS-Korpus(1964)。DWDS词典项目采用平衡采样原则收集20世纪和21世纪的德语语料,目前可供检索的最新语料仅至2010年。本文介绍的deGLOBE语料库项目,以2010年之后十年左右时间内首次出版和发表的德语书面语为目标语料,可作为现有德语平衡语料库的有益补充。2 deGLOBE语料库的创建deGLOBE语料库是按照布朗语料库模式创建的百万词级平衡语料库,主要收集SJ00082939 语料库语言学 第18辑正文.indd 13723-1-10 下午6:51138deGLOBE当代德语书面语平衡语料库的创建2010年之后出版和
9、发表的德语书面语文本。该库包括生语料、词性赋码和词形还原三个版本,其中词性赋码及词形还原皆采用TreeTagger标注工具。在此基础上,提供德语词频表(Word List)和短语列表(Phrase List),可供教学与研究之用。目前,deGLOBE语料库已上传至“北外CQPweb多语种语料库平台”(http:/114.251.154.212/cqp/)。该在线平台可提供索引分析、搭配计算、词表生成和主题词分析等功能。2.1 采样方案deGLOBE语料库借鉴布朗语料库的采样方案,所收文本类型及文本数量参见表11。表1 deGLOBE语料库文本类型及文本数量体裁大类体裁类型子体裁代码子体裁类型说
10、明文本数量信息类(374篇)新闻A新闻报道44B社论27C报刊评论17通用D宗教17E日常技艺及消遣爱好36F通俗读物48G传记、回忆录等75H政府或机构公文及文宣30学术J学术80虚构类(126篇)小说K一般小说50L侦探小说12M科幻小说12N历险悬疑小说13P言情小说30R幽默9合计500布朗语料库全称The Standard Corpus of Present-Day Edited American English,SJ00082939 语料库语言学 第18辑正文.indd 13823-1-10 下午6:51139周顾盈 宋瑛明 舒 哲 孙 昱 徐 亮于20世纪60年代由美国布朗大学研
11、制。该语料库是世界上最早的电子化英语平衡语料库。布朗语料库依据均衡采样原则,收集1961年间出版和发表的美国英语书面语文本,确定所收语料的体裁、子体裁类型及各类别的文本数量,这在一定程度上保证了语料库的相对平衡性与代表性,使得所收样本更好地反映语言整体面貌。建成后,布朗语料库产生广泛影响,诸多语料库依据相同或相似采样原则陆续建成,如代表美国英语的FROWN、CROWN和CROWN2021语料库,代表英国英语的LOB、FLOB、B-BLOB、CLOB语料库等。此外,也不乏代表其他英语变体(如印度英语、澳大利亚英语、新西兰英语等)和其他语种(如汉语、保加利亚语、尼泊尔语等)的同类语料库(McEne
12、ry&Hardie 2012:98-99)。这类具有相同规模、依据相同采样原则建成的语料库习惯上被称为布朗家族语料库(the Brown family corpora),彼此之间具有较高的可比性。在此基础上可开展多种研究,如针对某一英语变体的历时研究,针对两种或多种英语变体的变异研究,针对两种或多种不同语言的跨语言对比等。deGLOBE语料库及其所属的北外全球语料库集群均借鉴布朗语料库的采样方案,使之与现有布朗家族语料库具有可比性,可开展相关外英、外汉或多语对比研究,从而有效拓宽语言研究的广度,为多语种、类型学研究提供便利。大体上,deGLOBE语料库沿用布朗语料库的采样原则,涉及新闻、通用、
13、学术、小说4种体裁类型,并可进一步细分为15个子类。在个别子体裁类型的采样过程中,课题组作了适当调整。一方面,布朗语料库的采样原则适用于美国英语特征,其中的子体裁类型N为“冒险小说与西部小说”。由于语言文化与国情存在差异,“西部小说”这一类别不适用于德语语料,故在deGLOBE语料库中未有涉及,该库中子体裁类型N主要收集历险悬疑小说。另一方面,体裁类型随时代动态也相应有所调整,尤其是近些年来随着互联网的发展,涌现出越来越多基于互联网的新型文本类型。考虑到与现有布朗家族语料库之间的可比性,本次建成的deGLOBE 1.0版中并未大规模纳入新型体裁,仍以传统体裁为主,仅在“新闻”这一体裁类型下(包
14、括子体裁A、B、C)适当收入了部分网络新闻(占比约20%),从而更好地维护语料的平衡性与代表性。2.2 语料采集确定适用于德语的采样方案后,方可进行语料的采集。deGLOBE语料库将按照上述采样方案采集500个2,000词左右的德语文本并进行初步加工。语料采集过程主要包括文本收集与取样、文本录入以及语料库元信息标注三个主要环节。2.2.1 文本收集与取样deGLOBE语料库在第一版的规划中主要面向德国本土的德语文本,暂不涉及其他德语变体(如奥地利德语、瑞士德语等),因此该库中所收文本的第一作者国SJ00082939 语料库语言学 第18辑正文.indd 13923-1-10 下午6:51140
15、deGLOBE当代德语书面语平衡语料库的创建籍原则上均为德国,且所收文本均为原创德语,由其他语言译入德语的文本不在本库的收集范围之内。此外,与英语文本相比,德语文本在流通中的总量整体上规模较小。考虑到语料收集的可操作性,deGLOBE语料库与布朗家族语料库相比扩大了语料的时间范围:新闻类语料发布时间为近三年内、其他三类体裁(通用、学术、小说)所收文本的首次出版时间为近十年左右。所收语料的时间与数量2分布可见图1。图1 四类体裁所收语料时间数量分布为尽可能确保语料的平衡性,除考虑语料的时间数量分布外,deGLOBE在建库过程中还兼顾了语料来源及主题的多样性。针对新闻类语料,兼顾全国性的大报、地区
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- deGLOBE 当代 德语 书面语 平衡 语料库 创建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。