如何测试ChatGPT的语义理解与常识推理水平——兼谈大语言模型时代语言学的挑战与机会.pdf
《如何测试ChatGPT的语义理解与常识推理水平——兼谈大语言模型时代语言学的挑战与机会.pdf》由会员分享,可在线阅读,更多相关《如何测试ChatGPT的语义理解与常识推理水平——兼谈大语言模型时代语言学的挑战与机会.pdf(15页珍藏版)》请在咨信网上搜索。
1、49如何测试ChatGPT的语义理解与常识推理水平?兼谈大语言模型时代语言学的挑战与机会*a袁毓林(澳门大学人文学院中国语言文学系澳门999078;北京大学中文系/中国语言学研究中心北京100871)提 要ChatGPT 等大语言模型在语义理解和常识推理方面表现优秀,其技术奥秘在于模型开发者在对词语进行向量表示时,遵循分布式语义学原理,采用了“嵌入”这种代数方法。但是,经典的测试语言运用等智能水平的“图灵测试”,难以识别欺骗和回避等作弊手段,因此,计算机科学家设计了“新图灵测试”,其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题,但是经过大规模语料训练的语言
2、模型可以凭借词汇上的统计相关性,而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷,学者们又发展出 WinoGrande 数据集,提高了数据的规模和难度,确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试 ChatGPT,展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然,从具身模拟假说来看,大语言模型不可能像人一样富有体验性地理解人类自然语言。最后,我们呼吁:语言学家应该积极参与构建 WinoGrade 测试集之类的工作,在人工智能时代扩展自身的学术研究领域。关键词ChatGPT;大语言模型;新图灵测试;威诺格拉德模式挑战;Wi
3、noGrande 数据集中图分类号H002文献标识码A文章编号2096-1014(2024)01-0049-15DOI10.19689/10-1361/h.20240105How to Test ChatGPTs Performance in Semantic Understanding and Common-Sense Reasoning:Challenges and Opportunities of Linguistics in the Era of Large Language ModelsYuan YulinAbstract This paper examines the approa
4、ches to test the performance of ChatGPT in semantic understanding and common-sense reasoning.It first reviews the remarkable performance of ChatGPT and other large language models(LLM)in semantic understanding and common-sense reasoning,and explains how they use distributional semantics and token ve
5、ctor representations to process language.Then,it critiques the classical“Turing Test”and introduces some alternative new tests such as Winograd Schema Challenge(WSC)and its upgraded version WinoGrande datasets,which are more relevant to linguistic studies.Next,it presents the results of applying Cha
6、tGPT to Winograd Schema sentences,showing that LLM have reached human-level performance in semantic understanding and common-sense reasoning.Finally,it argues that these language models can“understand”human natural languages,and the development of tests like the Winograd Schema is an opportunity for
7、*作者简介:袁毓林,男,澳门大学教授,主要研究方向为理论语言学和汉语语言学。电子邮箱:。本课题的研究得到澳门大学讲座教授研究与发展基金(CPG202300004FAH)和启动研究基金(SRG202200011FAH)及国家社会科学基金专项项目“新时代中国特色语言学基本理论问题研究”(19VXK06)资助,谨此谢忱。专题研究二语言智能50语言战略研究 2024 年第 1 期 总第 49 期linguists to expand their academic fi eld in the era of artifi cial intelligence.Keywords ChatGPT;large l
8、anguage models;semantic understanding and common-sense reasoning;(New)Turing Test;Winograd Schema challenge;WinoGrande dataset一、引言:大语言模型给语言学带来的挑战与机会照理说,语言学家应该是欢迎语言技术的进步与飞跃发展的,但是当人工智能聊天机器人ChatGPT 风靡全网、风光无限时,不少语言学家又感到危机空前,因为 ChatGPT 等大语言模型(large language model,LLM)在语言理解与生成方面功能强大,并且几乎绕开了当代主流的语言学理论与方法(详
9、见 Piantadosi 2023)。这于有形无形中都是在向语言学施压。对此,比较敏感的语言学者是心怀戒备与恐惧的。其实,十几年前,“没有语言学的计算语言学”就已成为许多语言学家的心头之痛;对此,国际自然语言处理学界也大声呼吁过:让语言学重新回到计算语言学中,并且成为自然语言处理的支撑性学科(详见 Wintner 2009)。只是彼时的自然语言处理系统水平不太高,还不足以显示语言学对于语言处理技术几无用处。现在情况不一样了,能够聊天、答问、写作甚至解数学题、编程序、写代码的 ChatGPT 就摆在大家面前,没有办法视而不见!怎么办?一种乐观主义的想法是“天生我材必有用”,ChatGPT 等大语
10、言模型既然会给语言学造成危机,那么一定也会给语言学带来某种机会!是的,危中必有机,天无绝人之路;在大语言模型时代,语言学一定是挑战与机会并存的,一切端看我们怎么应对。本文拟从面向大语言模型的语义理解和常识推理的测试集的构建与应用的角度,来探讨大语言模型时代语言学如何摆脱困境、突出重围,争取有所作为,让语言学稳固地自立于当代科学技术之林。第二节简介 ChatGPT 等大语言模型在语义理解和常识推理方面的优秀表现,概要地说明它们的工作流程和技术原理,特别是其中基于分布式语义学的词语的向量表示。第三节简介经典的检验机器是否具有智能的“图灵测试”及其缺陷,特别介绍作为其替代方案的“新图灵测试”及其 4
11、 个小类的测试内容与目标。第四节详细介绍“新图灵测试”中跟语言学相关的内容,即威诺格拉德模式挑战,其宗旨在于测试人工智能系统的语义理解和常识推理所达到的水平;接着介绍威诺格拉德模式挑战的升级扩展版,即 WinoGrande 数据集,还介绍了大语言模型在这个数据集上近于人类的优秀表现。第五节介绍我们为了检测 ChatGPT 回应威诺格拉德模式挑战的能力,挑选和改编了一些英语和汉语的句子对它进行测试的情况。第六节简单讨论大语言模型到底能不能理解人类自然语言这个问题,说明机器理解语言虽然不可能像人类一样进行具身模拟,但是完成任务的结果近似;并且说明构建类似威诺格拉德模式挑战的测试集是语言学家应该参与
12、的工作,也是语言学在人工智能时代扩展自身学术领域的一个绝佳的机会。二、机器智能水平的语言理解测试和分布式语义学(一)ChatGPT 在亲属关系推理上的表现语言学的目标是揭示人类自然语言的结构、功能和历时演变的规律,而人工智能上语言模型研究的目标是为人类自然语言建立可计算的数学模型。这么看起来,从理论上讲,两者不仅目标不冲突,而且可以互相促进。比如,语言学为语言模型研究提供语言规律方面的理论支持,语言模型研究向语51如何测试 ChatGPT 的语义理解与常识推理水平?袁毓林 专题研究二言学研究提出有关的应用需求。但是,在宏观的科技政策和实际的语言处理技术与工程实践中,两者好像是各自为政的;虽然不
13、至于互不理会,但是的确关系疏远。至少,国务院 2017 年颁布的新一代人工智能发展规划中,就是没有语言学的一席之地。尤其令人困惑的是,在当今的大语言模型时代,基于统计的神经网络语言模型基本上不依赖于语言学知识,却在各项自然语言处理任务上表现优秀,有些甚至超过人类基线的水平。比如,ChatGPT 在语言理解与生成上的优异表现就令人咂舌。举一个例子,亲属关系的理解和推理是一个需要语言学知识与常识推理的难题,在前些年曾经难倒了日本的考试机器人 Torobo-kun。据当时(2017 年)的日本媒体报道,人工智能机器人 Torobo-kun 宣布放弃参加高考。a尽管它在数学、英语语法和细节阅读等题目上
14、能取得很好的成绩,但对于涉及推理的阅读理解题却无法回答。例如,面对下列这道对于日本人来说属于世界历史的问题:中国三国时代魏国第一位皇帝曹丕的父亲是谁?Torobo-kun 居然无法给出正确的答案。虽然人们已提前将“曹丕是曹操的儿子”这样的百科性历史知识告诉了它,但是,由于没有相应的推理机制,它并不理解“父子关系”。那么,是不是简单地将“父亲”与“儿子”的关系对应起来,就能解决问题了呢?这样做也许能解决一部分问题,但不能彻底解决问题。比如,“A 是 B 的父亲”,B 可能是 A 的儿子,也可能是 A 的女儿,说明这种推理还涉及性别问题。如果已知“A 和 B 都是 C 的孩子”,问“A 和 B 的
15、关系”,那么除了性别,还先要确认 A和 B 是不是同一个人,因为同一个人可以有两个名称(比如,“曹操”“曹孟德”指同一个人),然后再确认长幼次序,才能确定他们的关系。所以,要机器人理解亲属关系,必须赋予它一套合适的亲属关系的推理系统。笔者从 2006 年至 2018 年,先后指导了两届博士后和两届博士研究生研究这个问题,经过 10 多年的不懈努力,初步解决了这类难题,发表了一系列论文(陈振宇,等 2009,2010;陈振宇,袁毓林2010;袁毓林,等 2010;卢达威,袁毓林 2019),研制出了效率较高的“汉语亲属关系的自动推理系统”。现在,这类亲属关系问题基本上难不倒 ChatGPT。下面
16、是笔者跟 ChatGPT plus(下同)关于亲属关系推理的问答记录(20230621):(1)中国三国时代魏国第一位皇帝曹丕的父亲是谁?ChatGPT:魏国的第一位皇帝曹丕的父亲是曹操。曹操是中国东汉末年的杰出军事政治家,他扩大了魏国的领土并在政治上取得了重大成就,被尊称为魏武王。曹操在赤壁之战后去世,其儿子曹丕继承了他的地位,后来在 220 年时自立为皇帝,建立了曹魏政权,这也标志着三国时代的正式开始。(2)老张是张三的父亲,翠花是张三的婶婶,那么,老张和翠花是什么关系?ChatGPT:在中国的称谓体系中,“婶婶”这个称呼通常是用来指称夫妻关系中的丈夫的妹妹,或者丈夫的兄弟的妻子。所以在这
17、个情况下,如果翠花是张三的婶婶,那么她可能是老张的妹妹,或者是老张的兄弟的妻子。但具体的关系需要根据更多的上下文信息来判断。(3)志强是我的侄子,文元是我的祖父,那么,志强和文元是什么关系?ChatGPT:如果志强是你的侄子,那么他是你的兄弟或者姐姐的儿子。如果文元是你的祖父,那么他是你的父亲或者母亲的父亲。所以,根据这个关系,志强和文元的关系应该是曾孙和曾祖父的关系。a详见:每日新闻(日本)2017 年 1 月 5 日;https:/mainichi.jp/articles/20170105/k00/00e/040/166000c。52语言战略研究 2024 年第 1 期 总第 49 期Ch
18、atGPT 对(1)(3)两题的回答相当不错,但对(2)的回答不尽如人意,因为它对“婶婶”的理解不够正确(“丈夫的妹妹”是“小姑子”,“丈夫的兄弟的妻子”是“妯娌”;“父亲的兄弟的妻子”才是“婶婶”,辈分上差了整整一辈呢!)。(二)ChatGPT 的工作流程和技术原理那么,ChatGPT 是如何做到这一点的呢?让我们先看一下它是怎样工作的。下面是一个 ChatGPT的工作流程示意图(引自 Wolfram 2023):首先,用户向 ChatGPT 系统(简称“系统”)输入提问、请求等提示(prompt);然后,系统把这种提示文本(text)进行词例化处理(tokenization),转变成词例(
19、token)的向量表示(token vector representation);接着,再把这种词例的向量表示输入基于人工神经网络的语言模型(language model,neural net)。必须指出的是,这个语言模型是经过了预训练的,即开发者事先用大规模的文本等训练数据(textual etc.training data),对基础模型进行了强化训练(reinforcement training),使得模型能够“知道”:哪个词例或词例序列后面最有可能出现哪个词例。这样,当向量化的提示输入语言模型后,语言模型就能够计算出:提示后面的下一个词例,即作为响应的最有可能的第一个词例是什么(哪一个或
20、哪一些),在这个词例之后的下一个词例又是什么(哪一个或哪一些),;就这样进行迭代性的词例生成(iterative token generation),再通过概率性选择(probabilistic choices),挑选出合理的下53如何测试 ChatGPT 的语义理解与常识推理水平?袁毓林 专题研究二一个词例,最终生成完整的响应文本(generated text)。其中,比较关键的一点是,模型开发者在对词语进行向量表示时,用了“嵌入”(embedding)这种代数方法。嵌入的本质是把文字、图像或声音、单词等数据转变为一串非常长的数字(数组),让这些长数字除了代表某些个文字、图像或声音、单词本身
21、之外,还包含其上下文信息。比如,该文字、图像或声音、单词通常是怎样使用的,或者通常跟什么相关,等等。a这就超越了经典的指称论语义学(denotational semantics,假定一个单词、短语或句子的意义就是它所指代的客观世界中的对象),走向深度学习的自然语言处理遵循的分布式语义学(distributional semantics,假定单词的语义可以由其出现的语境所决定,并且意义相似的词语有相似的分布环境)。正如斯坦福大学计算语言学教授克里斯托弗曼宁(Christopher Manning)指出的:b意义来源于(人们)对于语言形式跟其他事物之间的连接(关系所组成)的网络的理解,无论它们是世
22、界上的物体还是其他的语言形式。这就是大语言模型表面上能够理解人类自然语言的意义的技术奥秘所在。那么,能不能就此说人工智能语言模型已经真正理解人类自然语言,并且真正具有人类智能呢?我们语言学还能做些什么呢?这就要看这种人工智能系统能不能通过有关的智能水平测试。为什么?因为要从理论上排除碰巧的可能,机器智能水平的测试向来是用语言理解水平作为标杆的。c为了方便大家了解原委,下面简单介绍图灵测试及其替换版本。三、从“图灵测试”到“新图灵测试”(一)图灵测试及其缺陷研制出能够听懂人类语言的机器,使人可以更加方便地跟机器交互,让机器更好地服务于人类,这是人们很早就有的一个梦想,也是人工智能研究的最初动力之
23、一。也正是在这一点上,语言学有机会成为人工智能这门前沿交叉学科的基础学科之一。但是,让机器理解自然语言这种事情,想起来容易做起来难。因为这不仅需要关于语言的结构与意义等方面的语言学知识,还需要语言所描述的人、物体、时间、空间、事件及其关系等的世界知识。比如,苹果公司的语音助手 Siri 系统,在 2011 年刚上线时发生了下列人命关天的一幕:(4)使用者:Siri,call me an ambulance.(Siri,帮我叫一辆救护车。)Siri:Okay,from now on Ill call you“an ambulance”.(好的,从现在起我就叫你“一辆救护车”。)由于缺乏现实世界中
24、关于叫救护车及其紧急性的知识,Siri 系统无法适当地理解多义词 call(称呼/呼叫)在该句子中的意义,最终做出了轻慢的调侃式的错误回应。事后苹果公司很快改正了这个错误。IBM 的人工智能医疗系统 Watson Health,也曾经多次“提出不安全和不正确的治疗建议”;谷歌的机a详见:Gardner AI、ChatGPT 和语言技术:与 William Marcellino 的问答,摩登语言学,20230619;https:/ AIGC 的新魔法,阿里开发者,20230414;https:/ 2024 年第 1 期 总第 49 期器翻译系统在为非英语患者翻译医疗说明时,也出现过重大错误。诸如
25、此类的跟理解语言相关的世界知识,人类从婴儿期就开始学习了,形成了大量的所谓“婴儿的元物理学”。但是,软件工程师却不可能把理解文本所需的所有不成文的事实、规则和假设都写进代码里(详见 Mitchell 2021)。因此,人工智能系统因不理解现实世界而随时可能带来灾难性后果的利剑,一直高悬在人类的头顶。事实上,专家们也在不断地探索如何测试机器是否真的能够理解人类的自然语言。其中,最早的要数图灵(Turing 1950)提出的“模仿游戏”:让人类考官跟屋子里的机器笔谈,如果机器的表现让人无法分辨对方是人还是机器,就可以断言这台机器具有思考能力,可以理解人类语言。这就是后人津津乐道的“图灵测试”(Tu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 测试 ChatGPT 语义 理解 常识 推理 水平 兼谈大 语言 模型 时代 语言学 挑战 机会
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。