itGLOBE当代意大利语书面语平衡语料库的创建.pdf
《itGLOBE当代意大利语书面语平衡语料库的创建.pdf》由会员分享,可在线阅读,更多相关《itGLOBE当代意大利语书面语平衡语料库的创建.pdf(9页珍藏版)》请在咨信网上搜索。
1、141语料库语言学 2023年 第10卷 第2期itGLOBE当代意大利语书面语平衡语料库的创建*北京外国语大学喻儒辰 董 丹 郭垚一提要:itGLOBE当代意大利语书面语平衡语料库是“北外全球语料库集群”项目(又称“GLOBE语料库”项目)下的一个子课题,也是该项目首批建成的百万词级平衡语料库之一。本文简述了意大利语语料库建设历程,并以此为基础讨论itGLOBE的语料采集方案及编码过程。此外,本文对基于itGLOBE的研究及后续语料库建设作出了展望。关键词:itGLOBE、意大利语书面语平衡语料库、意大利语教学与研究1引言“itGLOBE当代意大利语书面语平衡语料库”(以下简称“itGLOB
2、E语料库”)是“北外全球语料库集群”项目首批建成的百万词级语料库之一。该语料库集群旨在囊括北外开设的101个语种,借鉴布朗语料库的采样方案建成一系列以“GLOBE(Global Languages Out of BFSU Expertise)”命名的单语平衡库。GLOBE家族语料库与现有的布朗家族语料库具有可比性,可促成双语或多语对比研究。本文将着重介绍itGLOBE语料库的建库背景及过程,并讨论其应用价值。2 意大利语语料库建设历程意大利是语料库语言学研究的先驱地之一。20世纪40年代末,意大利耶稣会士罗贝尔托布萨(Roberto Busa)使用计算机编写圣托马斯阿奎那(St Thomas
3、Aquinas)的拉丁语著作索引,并于1951年出版了初步成果(Busa 1951)。学界普遍认为,这标志着世界上首个机器可读语料库的诞生(McEnery&Hardie*本文系北京外国语大学2022年度“双一流”重大标志性项目“多语种词典编纂理论与实践研究”(2022SYLZD015)及北京外国语大学2022年度“双一流”重大标志性(培育)项目“全球语料库集群建设与研究”(2022SYLPY004)的阶段性成果。本文由中央高校基本科研业务费专项资金资助(2023JX041)。董丹是本文的通讯作者。作者贡献:喻儒辰:选题构思、数据收集、初稿撰写(文字占比50%);董 丹:数据收集、初稿撰写(文字
4、占比25%)、修改润色;郭垚一:数据收集、初稿撰写(文字占比25%)。语料库语言第2期_5校CTP.indd 1412024/2/26 上午9:12142itGLOBE当代意大利语书面语平衡语料库的创建2012:37)。此后,意大利语语料库建设大致经历了起步、注重词典编纂和全面发展三个阶段。20世纪50年代初到70年代初是以著作索引编写为目标的起步阶段。这一阶段,大批学者开始搜集和整理个人语料,秕糠学会等权威研究机构也将目光投向语料库语言学,几所大学陆续开设相关实验室以开展语料库研究工作(董丹 2022)。例如,比萨大学电子计算中心和帕多瓦大学均受布萨研究成果的影响,在秕糠学会和IBM意大利分
5、公司的帮助下整理编写意大利语经典著作索引(Zampolli 2004)。此外,维托里奥桑托利(Vittorio Santoli)等学者组织了意大利民歌目录的编纂项目,并开展了相关的词频及韵律研究(Duro 1968)。20世纪70年代初至90年代末的主要任务是基于语料库的词典编纂。该阶段的首个重要成果是比萨大学电子计算中心基于五万词电子语料库制成的当代意大利语词频库(Lessico di frequenza della lingua italiana contemporanea,简称LIF)(Bortolini et al.1971)。LIF的语料库已经初具平衡思想,其文本由5种不同体裁的书面
6、意大利语构成。受LIF影响,图里奥德毛罗(Tullio De Mauro)先后基于千万词的新闻语料库和57小时的口语语料库编写了词汇使用指南(Guida alluso delle parole)(De Mauro 1980)和口头意大利语词频库(Lessico di frequenza dellitaliano parlato,简称LIP)(De Mauro et al.1993),并在两部著作的基础上编纂了影响深远的意大利语实用大词典(Grande dizionario italiano delluso)(De Mauro 1999)。20世纪90年代末起,意大利公开的大规模语料库建设日臻成
7、熟,逐渐形成了以权威机构为依托、分类明确、功能多样的语料库格局。所涉及的权威研究机构和项目主要有:比萨计算语言学协会、秕糠学会意大利词语工程项目、德毛罗学术项目、比萨高等师范学校语言实验室、都灵大学Unito项目、博洛尼亚大学系列语料库和意大利语言实验室。已建成的大型语料库包括但不限于:(1)书面语语料库,如意大利首个大型参照语料库笔语参照语料库及动态笔语语料库CORIS/CODIS1、意大利语书面语料资源语料库NUNC(Newsgroups UseNet Corpora)、学术论文语料库Athenaeum、意大利文学语料电子库CRILet、共和国报语料库以及历时意大利笔语参照语料库DiaCO
8、RIS等。(2)口语语料库,如外国人口语语料库LIPS、C-ORAL-COM语料库、口语种类档案库AVIP、意大利语口语档案API、意大利口笔语语料库及词库CLIPS2等。(3)学习者语料库,如变异意大利语习得库VALICO和意大利语等级考试语料库CELI等。(4)特殊用途语料库,如儿童语言库CHILDES-Italia(该语料库可反映不同健康状况儿童的语言使用情况)、精神分裂症患者口语语料库、意大利语手语及病理性语言语料库、法律术语语料库、医学术语语料库等。意大利语语料库对于意大利语语言资源的分类、储存与保护起到了重要作用,语料库语言第2期_5校CTP.indd 1422024/2/26 上
9、午9:12143喻儒辰 董 丹 郭垚一可用于语言学习、意大利语研究、语言资源记录与保护等(董丹 2022)。意大利语语料库在语料库建设和使用过程中体现了较强的自然语言处理技术,各项语料库研究间也具有较强的传承性,著作索引、LIF、LIP等成果充分体现了“语料库作为方法(corpus-as-method)”的应用价值。此外,意大利语语料库的建设理念也相对统一,从LIF到CORIS/CODIS,从LIP到CLIPS,平衡性、代表性等原则贯穿始终。不论从研究成果还是建库模式上看,面向意大利语的语料库建设都已相对成熟,但相关语料库大多使用独立的取样方法,难以与现有的英语(如布朗语料库)及汉语语料库进行
10、直接对比。本文介绍的itGLOBE语料库可以有效填补这一空缺。此外,itGLOBE也为国内意大利语研究提供了重要的平衡语料资源。3 itGLOBE语料库的创建itGLOBE语料库是按照布朗语料库模式创建的百万词级平衡语料库,主要收集2013年之后出版和发表的意大利语书面语文本。目前,itGLOBE语料库已上传至“北外CQPweb多语种语料库平台”(http:/114.251.154.212/cqp/),该平台在线提供索引分析、搭配计算、词表生成和主题词分析等功能。此外,itGLOBE还随库提供意大利语词频表与短语列表,供教学与研究之用。3.1 采样方案itGLOBE语料库借鉴布朗语料库的采样方
11、案,所收文本类型及相应篇数参见表1。表1 itGLOBE语料库文本类型及相应篇数3体裁大类体裁类型子体裁代码子体裁类型说明文本数量(篇)信息类(374篇)新闻A新闻报道44B社论27C报刊评论17通用D宗教17E日常技艺及消遣爱好36信息类(374篇)通用F通俗读物48G传记、回忆录等75H政府或机构公文及文宣30学术J学术80(待续)语料库语言第2期_5校CTP.indd 1432024/2/26 上午9:12144itGLOBE当代意大利语书面语平衡语料库的创建体裁大类体裁类型子体裁代码子体裁类型说明文本数量(篇)虚构类(126篇)小说K一般小说50L侦探小说12M科幻小说12N历险悬疑小
12、说13P言情小说30R幽默9合计500itGLOBE语料库沿用布朗语料库的采样原则,涉及新闻、通用、学术、小说4种体裁类型,并在4种体裁类型下进一步细分出15个子体裁类型。对于个别子体裁类别的语料采样,课题组根据意大利语言文化状况进行调整。例如,在子体裁类型L“侦探小说”类别下,itGLOBE语料库主要收集本土侦探/犯罪小说,符合意大利小说类别划分标准,与相应语言文化背景契合,具有明显的意大利语语料特征。此外,在语料文本选用与采样方面,部分收入与时事热点及社会文化环境变化相关的语料,主要集中于子体裁类别A、B、J下,以进一步保证及维护itGLOBE语料库的平衡性与代表性。3.2 语料采集itG
13、LOBE语料库的语料采集工作基于以上适用于意大利语的采样方案,依据该方案采集500篇词数为2,000词(+/-50词)的意大利语文本,在其基础上进行初步加工。意大利语语料采集主要包括文本选择与取样、文本录入以及语料库元信息标注3个主要环节。3.2.1 文本收集与取样itGLOBE语料库选用的文本均为意大利语本土原文语料,不涉及由其他语言译入意大利语的翻译文本。此外,意大利语文本整体流通量低于英语文本,考虑到语料收集的可操作性,相较于布朗家族语料库而言,itGLOBE语料库所收录语料文本的年限范围更大:新闻体裁类型文本发布时间均集中于20192021年;通用、学术、小说三类体裁类型下,主要选用发
14、布时间为20132022年的文本,仅存在个别发布时间早于2013年的文本,所有文本均发布于2000年后。四类体裁选用语料文本时间与数量分布4如图1所示。(续表)语料库语言第2期_5校CTP.indd 1442024/2/26 上午9:12145喻儒辰 董 丹 郭垚一图1 四类体裁选用语料文本时间与数量分布在itGLOBE建库过程中,课题组兼顾语料来源、主题、内容及时间、空间分布等特征的多样性。新闻类语料文本的选用覆盖意大利各大规模时报,新闻文本均来自大、中型报社媒体,兼顾意大利全国性与地方性(意大利南、北方及各大区专刊)新闻报道;同时,主题内容涵盖时事政治、国际热点、经贸、科技、文化、体育等多
15、个方面,出处包含综合型报刊与专业型报刊(如体育、经济等)。表2为新闻类语料文本来源及地区分布。表2 新闻类语料文本来源来源类型综合型报刊地方报刊专门型报刊数量2129726学术类文本主要来自意大利各大高校论文库、论文检索门户网站及各学科期刊。文本内容主题广泛,涉及时事热点、国际政治、文学、历史、社会学、数学、物理、天文学等多门学科及研究领域;针对通用类文本,课题组均从意大利线上媒体网站收录语料。其中,子体裁H“政府或机构公文及文宣”语料文本的主要来源为意大利各政府部门、大区政府及多个机构;在学术类、小说类文本语料的收集过程中,针对篇幅较长的语料篇目,选择截取前、中、后三部分拼接成词数为2,00
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- itGLOBE 当代 意大利语 书面语 平衡 语料库 创建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。