arGLOBE当代阿拉伯语书面语平衡语料库的创建.pdf
《arGLOBE当代阿拉伯语书面语平衡语料库的创建.pdf》由会员分享,可在线阅读,更多相关《arGLOBE当代阿拉伯语书面语平衡语料库的创建.pdf(10页珍藏版)》请在咨信网上搜索。
1、122语料库语言学 2023年 第10卷 第2期arGLOBE当代阿拉伯语书面语平衡语料库的创建北京外国语大学毛浚语提要:arGLOBE当代阿拉伯语书面语平衡语料库是“北外全球语料库集群”项目(即“GLOBE语料库”项目)下的子课题,致力于依照布朗语料库的采样标准收集近十年的阿拉伯语书面语文本,建设百万词级的平衡语料库。本文首先简述面向阿拉伯语的语料库建设情况,在此基础上介绍arGLOBE语料库的建设理念和建库过程。此外,本文对该库可以开展的语言学研究进行探讨,并展望阿拉伯语语料库的后续建设。关键词:arGLOBE语料库、当代阿拉伯语书面语、阿拉伯语教学与研究1引言北京外国语大学于2021年1
2、2月29日启动了“北外全球语料库集群”项目,又称“GLOBE语料库”项目,其中“GLOBE”是“Corpus of Global Languages Out of BFSU Expertise”的首字母缩略词。该语料库集群项目依照布朗语料库的采样方案,致力于为北外开设的101个语种建设当代书面语平衡语料库。该采样依据有助于使其单语语料库与现有的布朗家族语料库具有可比性,便于开展汉英、汉外或多语对比研究。“arGLOBE当代阿拉伯语书面语平衡语料库”简称“arGLOBE语料库”,为GLOBE语料库的当代阿拉伯语子库,其设计规模为100万词,所含文本大多出版或发表于20102022年。2 面向阿拉
3、伯语的语料库建设简述语料库语言学思想在阿拉伯语传统语法的发展历程中应用已久。Ditters(1990:120-130)、Brustad(2016:148-149)等学者指出,基于实证主义的语料库语言学思想甚至在几千年前就已被阿拉伯语语法学家使用,成为阿拉伯语语法研究的根基。例如,著名阿拉伯语语法学家西伯威(Sbawayh)在编纂古代阿拉伯语语法研究的经典之作西伯威书(Kitb Sbawayh)时便使用“经证实的语言”(attested language)也即真实存在的特定语料作为语法研究的基础,这些语料包括前伊斯兰时期的诗歌、部落战争的记录、正式的演讲、阿拉伯人的对话等。Ditters语料库语
4、言第2期_5校CTP.indd 1222024/2/26 上午9:12123毛浚语(1990:130)指出,被参考的语料包含口语和书面语且区分不同的语域,这种具有语言学意义的构建结构有助于早期的语言学家更好地归纳古代阿拉伯人话语使用的典型特征。尽管如此,现代阿拉伯语语料库建设却起步较晚。目前阿语语料库语言学研究刚刚兴起,但也取得了一定进展(McEnery et al.2018:8)。当前,面向阿拉伯语的电子化语料库主要包括但不限于以下几种类型。(1)通用语料库。以杨百翰大学开发的arabiCorpus(Parkinson 2018)、TenTen语料库家族的arTenTen语料库(Arts e
5、t al.2014)为代表。前者库容为100万词,语料以新闻为主,另含少量中世纪阿拉伯语和埃及方言。后者语料取材自主题不同的网页,2018年版本的arTenTen18库容可达46亿词。(2)方言语料库。阿拉伯世界方言盛行,标准语和方言共存的双言现象(diglossia)使阿拉伯语方言语料具有重要研究价值。这类口语语料库例如记录巴勒斯坦、黎巴嫩、伊拉克、利比亚、苏丹和也门社交平台方言语料的Currasat(Jarrar et al.2017;Haff et al.2022;Jarrar et al.2022),包含突尼斯社交平台、电视剧、广播等领域方言语料的Tunisian Arabic Cor
6、pus(McNeil 2018)。(3)历时语料库。知名的语料库例如,由阿卜杜勒阿齐兹国王大学开发的KACST阿拉伯语语料库(Al-Thubaity 2015),其库容为7亿词,包含从前伊斯兰时期至今跨越1500余年的语料。(4)学习者语料库。如利兹大学开发的Arabic Learner Corpus(Alfaifi et al.2014),该语料库收集了在沙特的阿拉伯语学习者产出的书面语和口语语料。(5)专用语料库。如具有词法标注、句法标注和语义解析的古兰经语料库Quranic Arabic Corpus(Dukes&Habash 2010)。(6)平行语料库。如联合国平行语料库(Ziems
7、ki et al.2016),该库包含1990至2014年间编写并经人工翻译的文字内容,语种覆盖包括阿拉伯语和汉语在内的联合国六大官方语言。以上着重列举了各类别下可公开访问的代表性语料库。相比于汉语语料库和英语等西方语种的语料库,面向阿拉伯语的语料库整体数量较少,阿拉伯语书面语的平衡语料库建设仍需进一步推进。现有阿拉伯语语料库的建设并未遵循被多个语料库共同认可并传承的采样标准,例如,arabiCorpus主要以新闻语料为主,辅以中世纪的阿拉伯语语料。这使得语料库之间的可比性不足,各阿拉伯语平衡语料库之间及其与其他语种语料库之间难以促成更具规范的语言比较和对比研究。而arTenTen语料库虽在T
8、enTen语料库家族中具有可比性,但该语料库未严格采用平衡语料库的建库模式,而是用阿拉伯语维基百科中的高频词爬取网页数据的方式进行整合。本文介绍的arGLOBE语料库主要以近十年首次出版或发表的阿拉伯语书面语为目标语料,依照布朗语料库的采样模式进行平衡语料库建设,并与“北外全球语料库集群”项目中的各语种语料库一同构成可比语料库,既为现有的阿拉伯语平衡语料库提供有益补充,又可促成语言类型学层面的多语种对比研究。语料库语言第2期_5校CTP.indd 1232024/2/26 上午9:12124arGLOBE当代阿拉伯语书面语平衡语料库的创建3 arGLOBE语料库的创建arGLOBE语料库基于布
9、朗语料库的采样方案进行建设,是库容约为一百万词的当代阿拉伯语书面语平衡语料库,所含文本主要发表于2010年至2022年间。该库包括生语料、词性赋码和词形还原三个版本,其中词性赋码及词形还原所涉及的自然语言处理工具为StanfordNLP工具包中的stanza-ar包。在此基础上,该库提供阿拉伯语词频表,内含经词性赋码和词形还原的单词以及二元词组和三元词组,可供教学与研究之用。目前,arGLOBE语料库已上传至“北外CQPweb多语种语料库平台”(http:/114.251.154.212/cqp/)。该语料库在线检索平台提供主题词分析、搭配计算、索引分析、词表生成等功能。3.1 采样方案arG
10、LOBE语料库按布朗语料库的方案进行采样,所收集的文本类型及其相应篇数见表11。表1 arGLOBE语料库文本类型及相应篇数体裁大类体裁类型子体裁代码子体裁类型说明文章数量(篇)信息类(374篇)新闻A新闻报道44B社论27C报刊评论17通用D宗教17E日常技艺及消遣爱好36F通俗读物48G传记、回忆录等75H政府或机构公文及文宣30学术J学术80虚构类(126篇)小说K一般小说29L侦探小说24M科幻小说6N历险悬疑小说29P言情小说29R幽默9合计500语料库语言第2期_5校CTP.indd 1242024/2/26 上午9:12125毛浚语布朗语料库,全称为布朗大学当代美国英语标准语料库
11、(Brown University Standard Corpus of Present-Day American English),是世界上第一个根据系统性原则进行采样的百万词级英语电子语料库。该库由布朗大学的学者Henry Kuera和W.Nelson Francis所建,所含文本为发表于1961年的500篇美国英语书面语文本,共计约一百万词。Kuera和Francis后于1967年发表当代美国英语的计算分析(Computational Analysis of Present-Day American English)一书,对布朗语料库的数据进行描述分析。布朗语料库的文本选自多个来源,包含
12、新闻、通用、学术、小说四大体裁,下分新闻报道、社论等15个子体裁。其采样标准保证了所采语料的平衡性和代表性,进而使所收样本能较好地反映语言的整体特性,有助于开展词典编纂和各领域的语言学研究。此外,布朗语料库的建设还促成了语料库建设领域的热潮,其采样标准影响了诸多同类型语料库的建设。这些语料库包括收集英国英语文本的LOB、FLOB、B-BLOB、CLOB语料库等,以及收集美国英语文本的FROWN、CROWN和CROWN2021语料库等。这类按相同采样标准建成的语料库被称为“布朗家族语料库”,各库之间具有良好的可比性,有利于开展基于可比语料库的语言学研究,例如不同英语变体间的语言结构对比、某种英语
13、变体在不同时期的历时研究、不同语种间的语言对比等。arGLOBE语料库及其所属的北外全球语料库集群均按布朗语料库的采样标准进行建设,因而获得的可比性有助于更好地开展汉英、汉外以及不同语种间的对比研究,为语言结构的差异与共性分析、语言应用层面的研究提供量化分析工具。基于布朗语料库的采样方案,arGLOBE语料库从多渠道选取新闻、通用、学术、小说四大体裁的文本,下分新闻报道、社论等15个子体裁。因文化差异等原因,阿拉伯国家出版物在一些体裁或版块的设置上与布朗语料库代表的美国出版物有所不同。因此,课题组在取样过程中对相应版块进行微调。例如,布朗语料库采样方案中包含“冒险小说和西部小说”(Advent
14、ure and western fiction)一项,其中西部小说具有19世纪下半叶美国旧西部的背景设定,不适用于阿拉伯文化。因此,“西部小说”文本未被收入arGLOBE语料库,该子体裁仅收集与“冒险小说”相关的文本。此外,由于不同国别报纸的版块设定各异,“给编辑的信”(Letters to the editor)这一在美国报刊中常见的版块近年来未曾出现在阿拉伯报刊。参考布朗语料库在“社论”(Editorials)子体裁分模块采样时的三分法设计,从“机构”(Institutional)、“个人”(Personal)再到“给编辑的信”,其分类趋势呈现从“官方”“一般”到“个人”的话语风格变化,故
15、arGLOBE语料库在采样时将“给编辑的信”替换为更偏向“个人观点表达”的文本,以符合该子体裁分类趋势的话语风格变化。这些微调考虑了阿拉伯国家的文化背景、报刊版块设定等方面的因素,有利于更好地维护语料的代表性;微调程度适度且未破坏采样标准的整体结构,这也维护了所采语料的平衡性。语料库语言第2期_5校CTP.indd 1252024/2/26 上午9:12126arGLOBE当代阿拉伯语书面语平衡语料库的创建3.2 语料采集arGLOBE语料库以上述采样方案为基础,采集500个2,000词左右的阿拉伯语文本并进行初步加工。语料采集过程主要包括文本收集与取样、文本录入和语料库元信息标注这3个环节。
16、3.2.1 文本收集与取样arGLOBE语料库在第一版规划中面向主要阿拉伯国家的阿拉伯语标准语出版物,暂不涉及各国的阿拉伯语方言变体,文本内容因特定的话语风格所需而涉及的方言语料除外。尽管该库原则上收录位于西亚和北非总共22个阿拉伯国家的语料以充分体现语料平衡性,但考虑到不同国家因文化影响力等因素造成出版物质量、数量、代表性有别,arGLOBE语料库实际收集的文本仅涉及阿拉伯世界三大地区的主要国家,即北非地区、海湾地区和沙姆地区的主要国家,且确保三大地区的文本均有涉及。这样的语料采样来源设定在确保语料代表性的同时也最大程度上维护了平衡性。该库所收文本的第一作者国籍原则上均为阿拉伯国家,且所收文
17、本均为原创阿拉伯语,从其他语言译入阿拉伯语的文本不在该库的收集范围内。此外,由于阿拉伯语出版物公开流通的规模较英语等西方语种而言总体较小,考虑到语料收集的可操作性,arGLOBE语料库和布朗家族语料库相比扩大了语料发布的时间范围。其中,新闻类语料发布时间主要为近三年,其他三类体裁(通用、学术、小说)所收文本的首次出版时间大多为近十年。所收语料的时间与数量分布可见图1。为了尽力符合与布朗家族语料库的可比性以及维护语料库的均衡性,arGLOBE语料库除了考虑语料发布时间的因素外,在采样过程中也参考了布朗语料库对语料来源、主题的划分标准。例如,在“新闻报道”子体裁下,arGLOBE语料库选取政治、体
18、育、社会、热点新闻、经济、文化等主题多元化的报道,并在一定程度上兼顾日报、周报的取材来源划分;在“政府或机构公文及文宣”子体裁下,该库在采样时依照原标准选取政府文件、基金报告、工业报告等方面的语料;在“宗教”“日常技艺及消遣爱好”“通俗读物”等子体裁下,该库在采样时尽力确保书籍、期刊的来源划分,并对篇幅较长的书籍进行前、中、后三部分拼接采样,以维护文本内容在书籍内部的代表性。此外,对于同一子体裁的语料出现于不同阿拉伯国家出版物的情况,该库尽力确保在阿拉伯世界三大地区(北非地区、沙姆地区、海湾地区)各选取一定数量的语料来反映阿拉伯世界出版物的整体情况,进而体现语料的代表性和平衡性。语料库语言第2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- arGLOBE 当代 阿拉伯语 书面语 平衡 语料库 创建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。