意大利语语料库及其应用研究.pdf
《意大利语语料库及其应用研究.pdf》由会员分享,可在线阅读,更多相关《意大利语语料库及其应用研究.pdf(15页珍藏版)》请在咨信网上搜索。
1、107语料库语言学 2023年 第10卷 第2期意大利语语料库及其应用研究北京外国语大学谭钰薇 余丹妮1提要:意大利是语料库建设及应用的先驱地之一,其语料库语言学自成体系且蓬勃发展。以高校为中心的各大研究团体相互合作,创建出类别多样的语料库。本文梳理意大利语语料库语言学的发展脉络以及主要的研究机构与团队,介绍主要的意大利语开源语料库和基于它们的应用研究,为国内意大利语语言学研究及语料库建设与应用研究提供参考。关键词:意大利、语料库语言学、基于语料库研究、意大利语1引言语料库语言学的发展得益于语料库电子化,意大利是应用该技术的先驱地之一。作为语文学传统的根植之地,意大利自20世纪50年代起便率先
2、将新兴的信息技术应用于语文学研究,实现了语料库电子化,推动了20世纪60年代语料库语言学形成系统学科的进程。意大利语语料库建设蓬勃发展,应用研究成果丰富,而国内文献对此却仍然鲜有涉及。国内对于外语语料库的研究以英语为主,目前已有对英语(许家金 2019)、西班牙语(赵冲、许家金 2023)、法语(田园 2014)、俄语(李勤、常翔宇 2018)等通用语种语料库建设与发展历程的综述论文,但尚未有任何介绍包括意大利语在内的非通用语语料库语言学的文章。这一现状与国外非通用语语料库研究的繁荣状况不甚相符。意大利语语料库呈现出分类繁多、应用广泛等特点,可以作为国内意大利语语料库研究及语料库建设研究的重要
3、借鉴。近年来,我国学界也开始关注意大利语语料库的创建。北京外国语大学研究团队于2020年创建了汉意意汉双向文学平行语料库(余丹妮 2020),又于2022年创建了当代意大利语语料库itGLOBE(喻儒辰等 2023)和意大利语新闻语料库ItalianWac。另外国内意大利语学界虽然已有少量基于语料库的研究(董丹 2019;余丹妮、张虓 2022),但仍处于起步阶段。相比之下,意大利学界的相关研究成果丰硕,涉及意大利语语言学的方方面面。对其进行介绍,可为国内意大利语语1 余丹妮为本文通讯作者。作者贡献:谭钰薇:数据收集、数据分析、初稿撰写、字数占比(60%)、修改润色。余丹妮:选题构思、研究方法
4、、讨论结论、字数占比(40%)、修改润色。语料库语言第2期_5校CTP.indd 1072024/2/26 上午9:12108意大利语语料库及其应用研究言学界提供启示,有助于推动着眼国内教学需求与社会需求的研究。本文介绍意大利语语料库的建设、发展与应用研究,主体内容分为两节。第一节梳理意大利语语料库发展的历史脉络以及当今发展状况,介绍意大利本土主要的语料库研究机构与团队,以及可以公开访问的开源语料库;第二节对开源语料库在不同语言学领域的应用进行引介,以具体案例阐述意大利语语料库如何用于解决不同的语言学研究问题。2 意大利语语料库发展2.1 意大利语语料库建设的起源与发展意大利是最早应用计算机技
5、术研发语料库的国家。早在1949年以前,意大利耶稣会布萨神父(Roberto Busa)就萌生出创建电子语料库的想法,他联系国际商业机器公司(IBM)寻求技术支持,在米兰创办文学分析自动化中心。1967年,布萨神父牵头完成托马斯索引(Index Thomisticus),其中收录了118篇中世纪神学家托马斯阿奎纳的拉丁语作品,以及61篇相关作品,规模约1,100万词(Busa 1973)。意大利语语料库的索引和词汇搭配功能最早则可追溯到比萨国立大学电子计算中心于1963年建立的神曲索引搭配(Cresti&Moneglia 2016:591)。语料库的发展可以划分为三个主要阶段(Bonelli&
6、Sinclair 2006:208)。第一阶段为20世纪60到80年代,该阶段的原始材料基本是纸质材料,建造语料库时需要逐词录入电脑,耗时费力,难以完成100万词以上规模的语料库。该阶段具有开创性和奠基性的语料库包括1971年比萨国立大学电子计算中心为编写意大利语频率词典建立的首个意大利语笔语参考语料库(Corpus LIF),以及语言学家斯坦默约翰(Harro Stammerjohann)1965年起研制的首个意大利语口语语料库1(Corpus Stammerjohann)。第二阶段为20世纪80年代到21世纪初,扫描技术的应用使语料库规模逐渐扩大,可达2,000万词以上。该阶段英美语料库迅
7、速发展,意大利在语料库界虽然并未处于中心地位,但也贡献了大量具有独特研究意义的语料库。第三阶段始于21世纪,互联网为语料库提供了无限量的电子语料,超大规模语料库应运而生,个人也能够根据具体研究目标制作中小型专业语料库。2.2 意大利语语料库语言学主要研究机构与团队意大利语语料库语言学的研究机构与团队数量众多,常以高校和研究院为中心,相互合作与影响。各团队可能建立类似或相同种类的语料库,但其研究方法或侧重点往往有所不同。以下参考意大利语语料库导论(Cresti&Panunzi 语料库语言第2期_5校CTP.indd 1082024/2/26 上午9:12109谭钰薇 余丹妮2013)、秕糠学会(
8、Accademia della Crusca)语料库数据库2以及“说意大利语”门户网站3提供的相关信息展开介绍。意大利最早开始制作语料库的研究机构是意大利国家研究委员会计算机语言学研究院4。该研究院在研制语料库方面成果丰硕,如1971年的现代意大利语频率词典语料库(Corpus LIF)、1991年的意大利语参考语料库(Italian Reference Corpus)、1993年的扎尼凯利意大利语文学语料库(Letteratura Italiana Zanichelli,简称LIZ)、1997年的外语口语课程语料库(PARallle Oral en Langue Etrangre,简称PAR
9、OLE)、2007年的语言学语境语料库(Corpus Linguistics in Context,简称CLiC)。与CNR研究院几乎同时启动的还有比萨高等师范学院的语言学实验室。该实验室由语言学家南乔尼(Giovanni Nencioni)牵头,除建立语料库外,还涉及语音学、音系学、形态语言学、神经语言学等广泛研究领域。2005年,语言实验室同CNR研究院合作推出意大利语笔语词频语料库与词典(Corpus e Lessico di Frequenza dellItaliano Scritto,简称CoLFIS)。在南乔尼的推动下,佛罗伦萨大学文学与哲学院于1985年成立了意大利语语言实验室,
10、领头人为克雷斯蒂(Emanuela Cresti)和莫内利亚(Massimo Moneglia)教授。该实验室主要研制口语语料库,成果包括2005年建成的罗曼语族-意大利语口语参考语料库(C-ORAL-ROM Italia)、2006年基于斯坦默约翰的意大利口语语料库完善而成的佛罗伦萨口语语料库(Corpus LABLITA),以及2013年联合众多高校建立的动态网络意大利语语料库(Risorse Dinamiche dellItaliano in Rete,简称RIDIRE)。罗马智慧大学数字人文学科奠基人吉里奥齐(Giuseppe Gigliozzi)于1993年创建了意大利最早的文学文本
11、信息应用研究中心文学信息文本协作研究中心。该中心收集不同类别的文本材料,基于电子档案建立数字图书馆和语料库,推出在线意大利语文本、意大利图书馆、网络意大利语语料库、意大利议会口语语料库,以及政治与议会语言可读性-词汇和句法语料库等语料库。语料库的词频分析和语料筛选功能是词典编撰的有力支持,罗马智慧大学同时也是语料库词典学的研究中心。20世纪90年代起,罗马大学德毛罗(Tullio De Mauro)学派基于语料库编写的词典对普通语言学作出了奠基性贡献。该学派借助相应语料库研制的词典有千禧年词汇:意大利语计算机词典(Il vocabolario del 2000:Vocabolario Elet
12、tronico della Lingua Italiana,VELI,1989)(Italia IBM 1989)、意大利语口语词频词典(Lessico di frequenza dellItaliano Parlato,LIP,1993)(De Mauro et al.1993)、意大利语语用大词典(GRAnde Dizionario ITaliano delluso,GRADIT,1999)(De Mauro 1999)以及二十世纪文学语言第一宝库词典(Primo Tesoro della Lingua Letteraria del Novecento,2007)(De Mauro 200
13、7)等。意大利另一所享有盛誉的高校都灵大学同为意大利语语料库建设的中心。该语料库语言第2期_5校CTP.indd 1092024/2/26 上午9:12110意大利语语料库及其应用研究大学的语料库语言学研究团队活跃于20世纪末到21世纪初,由马雷洛(Carla Marello)教授牵头于20032004年期间研制了大量笔语语料库,如古意大利语语料库(Corpus Taurinense)、意大利都灵大学学术文本语料库(Athenaeum)、皮埃蒙特大区新闻报刊文本语料库(Corpus Seguisinum)、“权利之羹”意大利语法律语料库(Jus Jurium)、意大利语学习者类型语料库(Var
14、iet Apprendimento Lingua Italiana Corpus,简称VALICO)和意大利语母语者类型配对语料库(Variet di Italiano di Nativi Corpus Appaiato,简称VINCA)。此后该团队逐渐将研究重心移至网络语料库,分别于2008年和2012年建立了新闻组用户网络语料库(Newsgroups UseNet Corpora,简称NUNC)和在线新闻语料库(Variet Alte di Lingue Europee in REte,简称VALERE)。博洛尼亚大学应用语言学跨学科中心是意大利语语料库语言学最大的研究中心之一。该研究中心
15、在法弗雷蒂(Rema Rossini Favretti)教授的领导下研制了一系列功能强大且使用广泛的语料库,其中包括1997年起研制的博诺尼亚法律法规意英平行语料库(Bononia Legal Corpus,简称BoLC)、1998年起研制的意大利语笔语参考语料库/意大利语笔语动态语料库(Corpus di Riferimento dellItaliano Scritto/Corpus Dinamico dellItaliano Scritto,简称CORIS/CODIS)、2006年推出的意大利笔语历时参照语料库(DiaCORIS)。在和多方研究机构的合作下,博洛尼亚大学还建立了共和国报新闻
16、语料库(corpus La Repubblica)、意大利语网络语料库(Web as Corpora-Italiano,ItWac)和派萨网络语料库(Piattaforma per lApprendimento dellItaliano Su copra Annotati,简称PAIS)等语料库。那不勒斯腓特烈二世大学的语料库语言学研究中心信号分析与合成跨系研究中心同样自20世纪末21世纪初开始活跃。该研究中心由语言学家莱奥尼(Federico Albano Leoni)教授牵头,主要成果有1999年建成的意大利语口语变体语料库(Archivio delle Variet di Italian
17、o Parlato,简称AVIP)、2001年的意大利语口语正字转写语料库(Archivio di Parlato Italiano Trascrizione Ortografica,简称API),以及2003年建成的意大利口语笔语语料库(Corpora e Lessici dellItaliano Parlato e Scritto,简称CLIPS)和意大利语口语语料库(Italiano PARlato,简称IPAR)。萨莱诺大学的欧洲语言研究观察实验室自21世纪初成立起即活跃于语料库语言学研究等领域。在沃盖拉(Miriam Voghera)教授的领导下,实验室于2006年推出收录古今口笔意
18、大利语的佩内洛佩语料库(corpus PENELOPE),2015年又以意大利语口语词频词典语料库(Corpus LIP)为基础制成LIP之声口语语料库(La Voce del LIP,简称VoLIP)。意大利的外国人大学通常会发挥本校语言教学资源优势制作习得语料库,如锡耶纳外国人大学的外国人意大利语口语语料库(Lessico Italiano Parlato di 语料库语言第2期_5校CTP.indd 1102024/2/26 上午9:12111谭钰薇 余丹妮Stranieri,简称LIPS)、意大利语二语习得语料库(Archivio Digitale di Italiano L2,ADI
19、L2)。另有佩鲁贾外国人大学的意大利语二语习得学习者语料库(Corpus di Apprendenti di Italiano L2,CAIL2)和中国学生意大利语(口语和笔语)语料库Corpus of Chinese Learners of Italian(written and spoken)。2.3 主要的意大利语开源语料库自20世纪60年代起,意大利语语料库建设在国家研究委员会与各高校研究中心的推动下蓬勃发展。意大利语语料库现有类型多样,包括通用/专用、共时/历时、口语/笔语、本族语/学习者、单语/平行语料库。随着21世纪初网络语料库的出现,意大利语语料库呈现出规模更大、模态丰富、专用
20、化强的特点。不过,目前可供公开访问和查询的意大利语开源语料库数量仍然有限,以下对主要的意大利语开源语料库进行介绍。当前最具代表性的意大利语开源笔语语料库是博洛尼亚大学的意大利语笔语参考语料库/意大利语笔语动态语料库5(CORIS/CODIS),该语料库是意大利语首个一般现代笔语的参考语料库,其规模相当于BNC语料库(Cresti&Panunzi 2013)。目前,该语料库体量已达1.5亿词,每3年更新一次,下分新闻、小说、学术文章、法律行政文本、混杂文集、时效文本6个子语料库。开源口语语料库中,最常用的是意大利口语词频词典语料库(LIP)。该语料库最初于90年代在德毛罗学派的推动下建成,包含取
21、材于4个不同城市的录音,共计60小时,有当面对话、电话对话、采访和辩论、独白、广播等口语类型,目前可通过意大利口语数据库(BAnca Dati dellItaliano Parlato,简称BADIP)和LIP之声口语语料库6进行访问和检索。另外,博洛尼亚大学和都灵大学合作开发的“谁说”语料库(KIParla)是当前最新颖和最实用的开源口语语料库之一(Goria et al.2019),该语料库包含100余小时的录音,主要特点是在收集语料过程中重点考量语域,根据地域、年龄、教育程度与发言场合等进行分类。语料库是二语习得和外语教学发展的有效手段,意大利语开源笔语习得语料库有都灵大学的意大利语学习
22、者类型语料库7(VALICO)。该语料库收录非意大利语母语的意大利语学习者的笔语文本,可查询文本达3,804篇,能够根据学习者年龄、母语类型、教育程度及教育经历筛选语料。学习者类型语料库诞生一年后,都灵大学又推出了规模仅为729篇笔语文本的意大利语母语者类型配对语料库(VINCA),其文本主题内容与学习者类型语料库一致。学习者和母语者类型语料库灵活对照使用,能为研究民族结构复杂的意大利语学习者的语言特点提供科学工具,用途广泛(Caruana 2020)。开源口语习得语料库有锡耶纳外国人大学的外国人意大利语口语语料库8(LIPS)。该语料库收录约2,198次口语考试中共计约100小时的录音,包括
23、根据欧洲语言共同参考框架从A1到C2级别的意大利语,语料库语言第2期_5校CTP.indd 1112024/2/26 上午9:12112意大利语语料库及其应用研究其内容形式与题材丰富多样,有对话、独白、介入独白的对话、介入对话的独白以及对话独白交替5种口语类别,对于不同水平的意大利语学习与教学都能起到具有针对性的指导作用。伴随着“网络作为语料库”(Kilgarriff&Grefenstette 2003)的研究方法提出,意大利的语料库语言学家逐渐将潜藏着海量语言数据资源的互联网作为语料库构建的强力基础。目前规模最大的意大利语网络语料库是TenTen多语语料库家族中的意大利语语料库9(itTen
24、Ten),该语料库的规模随每次更新显著扩大,从2010年至2020年已实现由25亿词到124亿词的跨越。同样规模较大的还有“网络作为语料库倡议”语言学家社群(WaCKy)自2009年起推出的意大利语网络语料库10(itWaC),该语料库从互联网上自动收集文本,总词数达20亿。另有2012年博洛尼亚大学等研究机构合作完成的派萨网络语料库11(corpus PAIS),该语料库规模较小,总词数达2.5亿,可以作为各类语言研究活动的资源。开源语料库在建库时一般会遵循代表性与系统性原则,依照一定的逻辑结构设定,在确定的抽样范围内收集语料,同时根据语料库具体用途选择几个重要指标作为平衡因子,兼顾平衡性。
25、开源语料库为研究人员提供了极大便利,省去了大量语料收集时间,是语言学研究的有力工具,所以在必要时,在具体研究中,我们并不总能找到合适的开源语料库作为参考语料,应创建专门的语料库,以满足研究需求。3 基于意大利语开源语料库的研究为了解意大利语开源语料库的研究应用情况,我们以主要的开源语料库为关键词搜索文献,整理了围绕形态、句法、二语习得与外语教学、语用分析等方面的研究。以下结合具体案例介绍开源语料库在意大利语研究中的应用。3.1 形态学研究意大利语属于词形变化丰富的屈折语,形态学是意大利语语言学中的重要分支,研究词形如何在不同语境下发生变化。意大利语语料库中的语言数据可以作为语法规则与词形变化机
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 意大利语 语料库 及其 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。