DiSCUSS现代汉语平衡口语语料库的创建.pdf
《DiSCUSS现代汉语平衡口语语料库的创建.pdf》由会员分享,可在线阅读,更多相关《DiSCUSS现代汉语平衡口语语料库的创建.pdf(9页珍藏版)》请在咨信网上搜索。
1、127语料库语言学 2022年 第9卷 第2期DiSCUSS现代汉语平衡口语 语料库的创建1*北京外国语大学孙铭辰提要:本文主要介绍“DiSCUSS现代汉语平衡口语语料库”(简称DiSCUSS库)的建设过程。作为国内首个开源的百万词级现代汉语平衡口语语料库,DiSCUSS库采用与“国际英语语料库”相同的取样模式创建,库容为100万词。该语料库具有较好的平衡性和代表性,使其可广泛应用于汉语口语研究、汉外口语对比等领域。此外,DiSCUSS库提供的社会语言学变量、说话人标记和词性标注等也可作为开展语言变异、话轮转换机制、叙事结构等研究议题的重要数据基础。关键词:DiSCUSS库、现代汉语平衡口语语
2、料库、国际英语语料库、国际可比语料库1 引言DiSCUSS库是按照国际英语语料库(简称ICE)的取样模式(Greenbaum&Nelson 1996)创建的百万词级现代汉语平衡口语语料库。该语料库由北京外国语大学中国外语与教育研究中心许家金教授主持建设。作为国内首个开源的百万词级现代汉语平衡口语语料库,DiSCUSS库在汉语口语话语研究、汉外口语对比、汉语二语习得等领域具有广泛的应用前景。2 研制背景2.1 口语语料库建设的三个世代口语语料库的建设一直以来都是困扰学界的难题。口语语料库的建设难度数倍于书面语语料库,因为前者收集转写语音的难度更大、成本更高、速度更慢(Love et al.201
3、7)。Burnard(2002)更是认为建设100万词口语语料库的工作量是建设同样规模新闻报刊类语料库的10倍。以布朗语料库和伦敦隆德口语语料库*本文系国家社科基金一般项目“概率语境共选视角下的多语外汉词典数据库建设与研究”(21BYY021)的阶段性成果。感谢许家金、董通、陈哲、康卉、苏杭、李银美、刘芳芳、王波、王义娜、王彦,马博森、权立宏、陆军、朱周晔、钱一华、刘朝霞等老师和同学对DiSCUSS库建设的支持和所付出的巨大努力。感谢许家金教授对本文写作提出的宝贵意见。SJ00082939 语料库语言学 第18辑正文.indd 12723-1-10 下午6:51128DiSCUSS现代汉语平衡
4、口语语料库的创建(简称LLC)为例,第一个电子化英语平衡书面语语料库Brown语料库于1962年立项,历经三年建设,于1964年问世(Francis&Kuera 1964);第一个电子化通用英语口语语料库LLC语料库自Qurik于1959年发起“英语用法调查”项目,陆陆续续历经二十年,才在1980年初步问世,但库容也仅为50万词左右(Svartvik 1990)。随着计算机运算与存储技术的不断革新,口语语料库的建设与语料库研究齐头并进,经历了1.0、2.0、3.0三个世代(许家金 2017)。英语口语语料库的建设在三个世代都有其代表性成果。在1.0世代即前电子化时代,Fries(1952)曾录
5、制并转写了25万词美国中北部居民的标准英语对话,用以编写英语语法(许家金 2019)。1959年,Quirk发起“英语用法调查”项目,通过数以千计的纸条记录英语口语用例。进入口语语料库建设的2.0世代后,1975年,Svartvik在“英语用法调查”项目的基础上增补语料,并将纸介转为电子文档,于1980年初步建成第一个电子化通用英语口语语料库LLC(Svartvik 1990)。20世纪80年代,Sinclair(1989)领导“英语文库”(Bank of English)项目,库中部分口语语料取自广播电视、非正式对话等。1993年,青少年英语口语语料库COLT问世(Stenstrm&Brei
6、vik 1993)。1994年,兰卡斯特大学发布英国国家语料库(简称BNC),其中包含1,000万词的英国英语口语语料(Crowdy 1995)。二十多年后兰卡斯特大学又推出BNC2014口语语料库(Love et al.2017)。1998年,“国际英语语料库”ICE项目推出第一个英国英语分库ICE-GB,其中60%的部分由口语语料构成,共计60万词(Greenbaum&Nelson 1996)。在2.0世代后期,通用口语语料库的建设逐渐转向专用口语语料库,如学术口语语料库MICASE语料库(Simpson et al.2000)、T2K-SWAL语料库(Biber et al.2001)、
7、BASE语料库(Thompson&Nesi 2001)等。在大数据技术推动下,21世纪口语语料库的建设进入3.0世代。超大规模性是3.0世代口语语料库的重要特点。1.3亿词(截至2020年3月)的COCA语料库口语子库是目前规模最大的口语语料库之一(Davies 2010,2020)。Davies所领导建设的其他系列语料库,如电视语料库、电影语料库、美国电视剧语料库等也均在亿词规模,为英语口语研究提供了丰富的研究语料。相较于英语口语语料库的建设,现代汉语口语语料库的研制兴起于20世纪80年代前后,虽起步较晚,但发展势头迅猛。在1.0世代即前电子化时代,Chao(1968)曾基于真实口语语料完成
8、中国话的文法一书。进入电子化的2.0世代后,北京语言学院于1981年开展“北京口语调查”项目(宋孝才 1987),基于社会语言学人口抽样原则,调查近378名北京人非正式场合的连贯话语,收集了150多个小时录音,共计230万词左右的口语语料。顾曰国(2002)于1999年前后主持开展北京地区现场即席话语语料库的研制工作,根据北京地区电话黄页设计取样方案,最终完成650小时录音的语料收集。中国传媒大学也于2005年SJ00082939 语料库语言学 第18辑正文.indd 12823-1-10 下午6:51129孙铭辰开始搭建有声媒体文本语料库(http:/ et al.1996)。方梅(2000
9、)转写了6段总时长4小时的自由对话录音材料并由此研究汉语口语中的弱化连词。在青少年汉语口语语料库的建设方面。许家金(2008,2009)转写了14万字的城市青少年汉语口语语料库,并开展了话语标记系列研究。在汉语口语语料库建设的3.0世代,北京语言大学的BCC语料库(荀恩东等 2016)和北京大学的CCL语料库现代汉语部分(詹卫东等 2019)最具代表性。BCC语料库共有95亿字,其中口语部分有6亿字,均由爬取微博和影视字幕获得。6亿字的CCL语料库含有约150万字的口语(对话)部分、1,000万字的电视电影部分和160万字的相声小品部分。2.2 国际英语语料库和国际可比语料库“国际英语语料库”
10、项目始于20世纪80年代末,由伦敦大学学院英语用法调查研究所Randolph Quirk的继任者Sidney Greenbaum(1988)发起,下辖澳大利 亚、巴哈马、加拿大等27支语料库建设队伍,旨在基于统一的采样框架,在英语作为官方语言的国家或地区,建设代表世界各国家、地区英语变体的多个可比语料库,并开展英语变体的共时比较研究。截至2016年,共建成英国、加拿大、爱尔兰、印度、菲律宾、牙买加等11个分库(The ICE Project 2016)共计500个2,000词的文本,库容为100万词,其中60%为口语,40%为书面语,体现了“国际英语语料库”项目对口语研究的重视。“国际英语语料
11、库”项目的采样框架继承了“英语用法调查”项目(Quirk et al.1972)的宝贵经验,并进一步改进创新(见图1)。DiSCUSS库按照此框架进行采样(见表1),并在此基础上扩容1.67倍,使其成为百万词级的现代汉语口语语料库。“国际可比语料库”项目是采用与ICE大致相同的采样框架建设的多语种百万词级可比语料库,其中60%为口语,40%为书面语。项目下辖捷克语、芬兰语、法语、德语、爱尔兰语、意大利语等12支语料库建设队伍(ermkov et al.2021)。ICC的建立旨在同ICE的各英语变体及在ICC内各语言之间开展多语种、多语体的对比研究(Kirk&ermkov 2017)。其汉语分
12、库ICC-CN部分由许家金教授带领的北京外国语大学语料库语言学团队负责建设。以ICE模式创建的DiSCUSS库将抽取部分语料构成ICC-CN的60%口语部分;ToRCH2019语料库(李佳蕾等 2022)的部分语料及爬取的10万词电子博客将构成ICC-CN的40%书面语部分。综上,英语口语语料库的建设总体上先于汉语口语语料库的建设。汉语口语语料库建设方面比较突出的问题是平衡语料库的缺乏。DiSCUSS库基于具有代表SJ00082939 语料库语言学 第18辑正文.indd 12923-1-10 下午6:51130DiSCUSS现代汉语平衡口语语料库的创建3 DiSCUSS库的建设概况DiSCU
13、SS库按照ICE口语部分的构成采集样本,并将其60万词既定规模扩大到百万词级。如表1所示,DiSCUSS库共包含300个文本,1,002,538词(正则表达式:u4e00-u9fa5a-za-zA-ZA-Z0-90-9.%+),分为对话和独白两大类,以及私人、公开、脱稿、念稿四小类,并可细分为15个子类。各子类代表不同口语场景或语境,与DiSCUSS库名称中的Social Settings相呼应。表1 DiSCUSS现代汉语平衡口语语料库构成情况文本类别文本名称文本数量文本词数对话 私人当面交谈S1A-001至SlA-09090296,694电话交谈S1A-091至SlA-1001033,10
14、6图1“英语用法调查”项目语料库口语相关部分架构(待续)性和平衡性的ICE采样框架进行建设,能够在一定程度上推进现代汉语口语语料库中平衡语料库的建设步伐。SJ00082939 语料库语言学 第18辑正文.indd 13023-1-10 下午6:51131孙铭辰文本类别文本名称文本数量文本词数对话 公开课堂教学S1B-001至SlB-0202067,108媒体讨论S1B-021至SlB-0402064,915媒体采访S1B-041至SlB-0501033,320赛场辩论S1B-051至SlB-0601031,944法庭质证S1B-061至SlB-0701035,153商业交易S1B-071至Sl
15、B-0801034,618独白脱稿自发评论S2A-001至S2A-0202067,788无稿演讲S2A-021至S2A-05030106,089演示介绍S2A-051至S2A-0601033,703法庭陈述S2A-061至S2A-0701035,178念稿媒体新闻S2B-001至S2B-0202066,634媒体讲话S2B-021至S2B-0402062,887有稿演讲S2B-041至S2B-0501033,4013001,002,538DiSCUSS库中的转写文本,经过了一定的人工标注与清洗,包括标注说话人及话轮、标注部分说话人动作状态、修改错误转写内容、隐私信息处理等。DiSCUSS库中全
16、部300个文本经过了系统清洗,并使用Jieba(https:/ DiSCUSS库的主要特点相较于以往汉语口语语料库的研制,DiSCUSS库具有多个显著特点,可广泛应用于汉语口语话语研究、汉外口语对比、汉语二语习得等领域。(续表)SJ00082939 语料库语言学 第18辑正文.indd 13123-1-10 下午6:51132DiSCUSS现代汉语平衡口语语料库的创建(1)代表性与平衡性。DiSCUSS库的建设参照国际标准,采用“国际英语语料库”口语部分的采样框架。“国际英语语料库”模式能够使DiSCUSS库在较好保证代表性与平衡性的同时,收集多种语境下的口语语料,充分体现DiSCUSS库名称
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DiSCUSS 现代汉语 平衡 口语 语料库 创建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。