InstructGPT在命名实体识别任务中的表现和挑战.pdf
《InstructGPT在命名实体识别任务中的表现和挑战.pdf》由会员分享,可在线阅读,更多相关《InstructGPT在命名实体识别任务中的表现和挑战.pdf(12页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 0 7 4-1 2I n s t r u c t G P T在命名实体识别任务中的表现和挑战孙 瑜1,颜 航1,邱锡鹏1,王 定2,牟小峰2,黄萱菁1(1.复旦大学 计算机科学技术学院,上海2 0 0 4 3 3;2.美的集团A I创新中心,广东 佛山5 2 8 3 1 1)摘 要:当前,关于大规模语
2、言模型,例如,I n s t r u c t G P T的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了I n s t r u c t G P T在基础的结构化抽取任务,命名实体识别上的表现。为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集。实验结果表明,I n s t r u c t G P T在零样本学习上的性能只能达到微调小规模语言模型的1 1%5 6%,增加少量样本也最多只能提升至7 2%。为了探究I n s t r u c t G P T在命
3、名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近5 0%的句子都存在无效生成的问题。另外,由于无效生成会同时导致“虚假错误预测”和“虚假正确预测”,解决生成无效问题并不能保证性能的提升。此外,I n s t r u c t G P T抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低。因此,用I n s t r u c t G P T解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法。关键词:大规模语言模型;命名实体识别;上下文学习;思维链中图分类号:T P 3 9 1 文献标识码:AP e r f o r m a n c ea n
4、dC h a l l e n g e so f I n s t r u c t G P Ti nN a m e dE n t i t yR e c o g n i t i o nS UNY u1,YAN H a n g1,Q I UX i p e n g1,WAN GD i n g2,MUX i a o f e n g2,HUAN GX u a n j i n g1(1.S c h o o l o fC o m p u t e rS c i e n c e,F u d a nU n i v e r s i t y,S h a n g h a i 2 0 0 4 3 3,C h i n a;2.
5、M i d e aA I.I n n o v a t i o nC e n t e r,F o s h a n,G u a n g d o n g5 2 8 3 1 1,C h i n a)A b s t r a c t:C u r r e n t l y,t h er e s e a r c ho nL a r g eL a n g u a g eM o d e l s(L LM s),s u c ha sI n s t r u c t G P T,i sp r i m a r i l yf o c u s e do nf r e e-f o r mg e n e r a t i o nt
6、a s k s,w h i l e t h ee x p l o r a t i o n i ns t r u c t u r e de x t r a c t i o nt a s k sh a sb e e no v e r l o o k e d.I no r d e r t og a i nad e e pu n d e r s t a n d i n go fL LM so ns t r u c t u r e de x t r a c t i o nt a s k s,t h i sp a p e ra n a l y z e sI n s t r u c t G P T sp e
7、 r f o r m a n c eo nn a m e de n t i t yr e c o g n i t i o n(N E R),o n eo f t h e f u n d a m e n t a l s t r u c t u r e de x t r a c t i o nt a s k s,i nb o t hz e r o-s h o t a n df e w-s h o t s e t t i n g s.T oe n s u r e t h e r e l i a b i l i t yo f t h e f i n d i n g s,t h e e x p e r
8、i m e n t s c o v e r c o mm o na n dn e s t e dd a t a s e t s f r o mb o t hb i o m e d i c a l d o m a i na n dg e n e r a l d o m a i n.T h er e s u l t sd e m o n s t r a t e t h a t I n s t r u c t G P T sp e r f o r m a n c eo nz e r o-s h o tN E Ra c h i e v e s1 1%t o5 6%o f t h ep e r f o
9、r m a n c eb ya f i n e t u n e ds m a l l-s c a l e dm o d e l.T oe x p l o r ew h y I n s t r u c t G P Ts t r u g g l e sw i t hN E R,t h i sp a p e re x a m i n e s t h eo u t p u t s,f i n d i n g i n v a l i dg e n e r a t i o n f o r 5 0%o f t h e m.B e s i d e s,t h eo c c u r r e n c eo fb
10、o t h f a l s e-n e g a t i v e a n d f a l s e-p o s i t i v e p r e d i c t i o n sm a k e s i td i f f i c u l t t oi m p r o v ep e r f o r m a n c eb yo n l ya d d r e s s i n gt h e i n v a l i dg e n e r a t i o n.T h e r e f o r e,i na d d i t i o nt oe n s u r i n gt h ev a l i d i t yo fg
11、e n e r a t e do u t p u t s,f u r t h e rr e s e a r c hs t i l ls h o u l df o c u so nf i n d i n ge f f e c t i v ew a y so fu s i n gI n s t r u c t G P Ti nt h i sa r e a.K e y w o r d s:l a r g e l a n g u a g em o d e l;n a m e de n t i t yr e c o g n i t i o n;i n-c o n t e x t l e a r n i
12、n g;c h a i n-o f-t h o u g h t收稿日期:2 0 2 3-0 5-1 1 定稿日期:2 0 2 3-1 1-1 4基金项目:国家自然科学基金(6 2 0 2 2 0 2 7);国家重点研究与发展计划(2 0 2 2 C S J G G 0 8 0 1)0 引言大规 模 语 言 模 型(L a r g eL a n g u a g e M o d e l s,L LM s),如G P T-3系列1-3,由于其不依赖下游数据微调即可取得较好的性能表现4-5,在自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g,
13、N L P)社区引起了热烈讨论。具体而言,大规模语言模型只需要使用适当的提示(P r o m p t),就 可 以 在 零 样 本(Z e r o-s h o t)设定下取得不错的性能4,6;对于少样本(f e w-1期孙瑜等:I n s t r u c t G P T在命名实体识别任务中的表现和挑战s h o t)问题,大规模语言模型可以利用上下文学习(I n-c o n t e x tL e a r n i n g,I C L)1,7或 者 思 维 链(C h a i n-o f-T h o u g h t,C O T)8提示来提高性能。尽管过去的文献1,5 已经证明了大规模语言模型在自由
14、生成任务和多项选择任务中表现十分出色,但他 们在结构化 抽取任务,如 命名实体识 别(N a m e dE n t i t yR e c o g n i t i o n,N E R)中仍然面临挑战9。目前,没有工作对大规模语言模型在命名实体识别上的能力进行全面的研究,因此,本文设计了一系列实验,深入研究了I n s t r u c t G P T在命名实体识别任务上的表现及面临的挑战。具体地,本文主要回答了下面两个问题:(1)I n s t r u c t G P T在不同设定和不同领域上表现得怎么样?为了回答这个问题,本文分别在生物医学领域和通用领域上,进行了零样本学习和少样本学习。其中,通
15、用领域在中英文的常规数据集和英文的嵌套数据集上都进行了实验。为了增加可信度,本文沿用了之前工作5中采用的提示作为基准来解决零样本的命名实体识别任务。除此之外,由于抽取实体本质上是结构化抽取任务,模型的输出需要满足一定的格式才能从中成功地解析出实体。为了实现这个要求,本文设计了一个结构化提示,从而指导I n s t r u c t G P T生成格式化的文本。零样本场景下两种提示的例子如图1所示。在少样本设定下,本文探索了上下文学习和思维链两种方法。上下文学习时,本文沿用了之前广泛使用的提示方法9。目前的思维链方法主要在推理任务中使用,本文是第一个将该方法引入到命名实体识别任务中的。少样本场景下
16、的两种提示的例子如图2所示。结果显示,I n s t r u c t G P T无论在生物医学领域还是通用领域的数据上的表现,都和微调模型的表现有巨大的差距。其中,在零样本命名实体识别任务上,I n s t r u c t G P T仅能达到微调模型性能的1 1%到5 6%,在少样本命名实体识别上,I n s t r u c t G P T的性能最多达到7 2%。图1 零样本命名实体识别提示的例子 (2)为什么I n s t r u c t G P T在命名实体识别任务上表现得不理想?I n s t r u c t G P T在很多生成式的任务上的表现与微调模型性能相近,甚至更好。然而,I n
17、 s t r u c t G P T却在命名实体识别上没有达到预期效果。为了探究阻碍I n s t r u c t G P T成功抽取实体的原因,本文从两个方面来仔细评估了模型的输出:无效生成和虚假预测。无效生成包括输出无法成功匹配解析格式的“格式无效”,和输出的实体片段不在输入句子中的“片段无效”。结果表明,1 0%7 0%的输出句子存在无效生成的问题,严重影响了解析过程。零样本场景给出更详细的指令或者少样本场景增加示例的个数可以有效减少“格式无效”。然而,“片段无效”仍是一个亟需解决的问题。此外,无效性可能会直接导致生成的句子解析失败,从而不能识别预测成功的实体。本文称这种情况为虚假预测。
18、虚假预测除了存在导致性能偏低的“虚假错误57中 文 信 息 学 报2 0 2 4年图2 少样本命名实体识别提示的例子预测”,还存在导致性能偏高的“虚假正确预测”。当无效性问题严重时,“虚假正确预测”的数量甚至增加到4 0%。未来的工作在保证预测正确性的前提下,仍需从根本上提升I n s t r u c t G P T等大模型抽取实体的能力。除此之外,针对嵌套命名实体识别任务,本文还统计了I n s t r u c t G P T生成的实体中嵌套实体的比例,即实体嵌套率,发现其远低于数据集中的比例。并且,抽取嵌套实体的正确率也不足一半。这说明大模型 在处理嵌 套实体 方 面 还 是 面 临 挑战
19、的。总的来说,本文的贡献主要体现在以下个四方面:(1)本文首次详细探究了I n s t r u c t G P T在命名实体识别任务上的表现,覆盖了生物医学领域和通用领域、常规场景和嵌套场景的数据,并在零样本和少样本设定上都进行了实验。本文提供的实验结果可以作为之后研究的基准。(2)首次提出将思维链应用到命名实体识别任务上,并为生物医学领域和通用领域的数据设计了 不 同 形 式 的 思 维 链,并 对 其 性 能 进 行 了测试。(3)本文从两个指标出发,对I n s t r u c t G P T的输出进行了错误分析,发现了输出的无效性是阻碍I n s t r u c t G P T性能提升
20、的重要因素。通过分析无效生成问题导致的虚假预测问题,本文发现,解决无效生成问题并不一定会提升I n s t r u c t G P T在命名实体识别上的性能。未来工作可以针对本文列举的无效生成类型,首先保证模型生成的正确性,其次设计更好的抽取实体的方法。(4)首次针对性地研究了I n s t r u c t G P T在嵌套命名实体识别任务上的表现,发现I n s t r u c t G P T的实体嵌套率和嵌套正确率较低。通过增加上下文示例的数量可以一定程度上增加I n s t r u c t G P T生成嵌套实体的比例和识别的正确率。1 任务定义命名实体识别作为一个基本的结构化抽取任务,
21、旨在从原始文本中抽取实体片段,并将它们分类到预定义的类型中。例如,“复旦大学是上海市的一所综合性大学。”中,“复旦大学”是组织类别的实体,“上海市”是地点类别的实体。本文为了提升效率,I n s t r u c t G P T需要一次性从句子中抽取出所有类型的实体片段并分类。即,上面句子的输出应该 为“组织:复旦大学;地点:上海市”。最后,模型的原始输出被解析成结构化的实体,从而进行评测。671期孙瑜等:I n s t r u c t G P T在命名实体识别任务中的表现和挑战2 提示的设计为了充分研究I n s t r u c t G P T在命名实体识别任务中的表现,本节详细描述了在不同设
22、定和领域中提示的设计。2.1 零样本命名实体识别零样本学习时,本文使用的提示由3个部分构成:任务指令、候选句子、指示词。如图1所示,本文为零样本命名实体识别设计了两种提示。图1中从上到下的示例分别来自生物医学领域、英文通用领域和中文通用领域。2.1.1 原始提示作为基准,本文沿用了之前工作的提示,其中任务指令是关于命名实体任务的描述,并给出需要抽取的实体类别。在抽取可能包含嵌套实体的句子的时候,本 文 在 任 务 指 令 后 面 添 加 了“N o t i c et h a tt h e r e m a ye x i s tn e s t e de n t i t i e s.”。候 选 句
23、子 由“S e n t e n c e:”/“句子:”拼接待抽取的句子。指示符是“E n t i t y:”/“实体:”。原始提示的示例如图1(a)所示。2.1.2 结构化提示正如第1章所讨论的,I n s t r u c t G P T在其生成格式方面展现出了相当大的灵活性。因此,设计提示来指导I n s t r u c t G P T生成理想的格式化输出对于实现有效的解析至关重要。因此,本文修改了任务指令部分,添加了输出格式的详细指令。中英文关于输出格式的描述有所不同。其余两个部分与原始提示一致。如图1(b)所示,结构化指令部分用下划线标出。2.2 少样本命名实体识别少样本学习时,本文使用
24、的提示由四个部分构成:任务指令、示范(D e m o n s t r a t i o n)、候选句子、指示词。除了新增的示范部分,其他部分都与零样本学习的原始提示相同。如图2所示,本文使用了两种常见的大模型少样本学习方法,即上下文学习和思维链。不同方法的改变只存在于示范部分。图2中从上到下的示例分别来自生物医学领域、英文通用领域和中文通用领域,并只拼接了一个示范作为例子。2.2.1 上下文学习受到之前工作的启发5,本文设计的示范部分由几个完整训练示例组成,即训练示例构成的候选句子、指示词以及模型输出。其中训练示例的输出应与最终期望的模型输出具有相同的格式。图2(a)给出了三种情况下的上下文学习
25、输入输出的例子。2.2.2 思维链与上下文学习不同,思维链8的示范部分由几个推理链组成。其中每个推理链都包括了一系列中间推理步骤,即原理(R a t i o n a l e)和答案。本文是第一个将思维链提示应用到命名实体识别上的研究,并为不同领域的数据设计了不同的推理链。如图2(b)所示,推理链部分用下划线标出。对于生物医学领域,本文首先从维基百科检索出实体的条目页面,并选择定义句子(通常在文档开头)作为推理链。如果该实体没有条目,则随机选择一个包含该实体的句子。之后,在推理链后拼接“T h e r e f o r e”开头的结论作为答案部分。对于通用领域,本文受到了t r i g g e r
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- InstructGPT 命名 实体 识别 任务 中的 表现 挑战
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。