分销赏收藏举报申诉 / 12

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > InstructGPT在命名实体识别任务中的表现和挑战.pdf

InstructGPT在命名实体识别任务中的表现和挑战.pdf

上传人：自信****多点

文档编号：2414364

上传时间：2024-05-29

格式：PDF

页数：12

大小：11.16MB

《InstructGPT在命名实体识别任务中的表现和挑战.pdf》由会员分享，可在线阅读，更多相关《InstructGPT在命名实体识别任务中的表现和挑战.pdf（12页珍藏版）》请在咨信网上搜索。

1、第3 8卷第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 0 7 4-1 2I n s t r u c t G P T在命名实体识别任务中的表现和挑战孙瑜1,颜航1,邱锡鹏1,王定2,牟小峰2,黄萱菁1(1.复旦大学计算机科学技术学院,上海2 0 0 4 3 3;2.美的集团A I创新中心,广东佛山5 2 8 3 1 1)摘要:当前,关于大规模语

2、言模型,例如,I n s t r u c t G P T的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了I n s t r u c t G P T在基础的结构化抽取任务,命名实体识别上的表现。为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集。实验结果表明,I n s t r u c t G P T在零样本学习上的性能只能达到微调小规模语言模型的1 1%5 6%,增加少量样本也最多只能提升至7 2%。为了探究I n s t r u c t G P T在命

3、名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近5 0%的句子都存在无效生成的问题。另外,由于无效生成会同时导致“虚假错误预测”和“虚假正确预测”,解决生成无效问题并不能保证性能的提升。此外,I n s t r u c t G P T抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低。因此,用I n s t r u c t G P T解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法。关键词:大规模语言模型;命名实体识别;上下文学习;思维链中图分类号:T P 3 9 1 文献标识码:AP e r f o r m a n c ea n

4、dC h a l l e n g e so f I n s t r u c t G P Ti nN a m e dE n t i t yR e c o g n i t i o nS UNY u1,YAN H a n g1,Q I UX i p e n g1,WAN GD i n g2,MUX i a o f e n g2,HUAN GX u a n j i n g1(1.S c h o o l o fC o m p u t e rS c i e n c e,F u d a nU n i v e r s i t y,S h a n g h a i 2 0 0 4 3 3,C h i n a;2.

5、M i d e aA I.I n n o v a t i o nC e n t e r,F o s h a n,G u a n g d o n g5 2 8 3 1 1,C h i n a)A b s t r a c t:C u r r e n t l y,t h er e s e a r c ho nL a r g eL a n g u a g eM o d e l s(L LM s),s u c ha sI n s t r u c t G P T,i sp r i m a r i l yf o c u s e do nf r e e-f o r mg e n e r a t i o nt

6、a s k s,w h i l e t h ee x p l o r a t i o n i ns t r u c t u r e de x t r a c t i o nt a s k sh a sb e e no v e r l o o k e d.I no r d e r t og a i nad e e pu n d e r s t a n d i n go fL LM so ns t r u c t u r e de x t r a c t i o nt a s k s,t h i sp a p e ra n a l y z e sI n s t r u c t G P T sp e

7、 r f o r m a n c eo nn a m e de n t i t yr e c o g n i t i o n(N E R),o n eo f t h e f u n d a m e n t a l s t r u c t u r e de x t r a c t i o nt a s k s,i nb o t hz e r o-s h o t a n df e w-s h o t s e t t i n g s.T oe n s u r e t h e r e l i a b i l i t yo f t h e f i n d i n g s,t h e e x p e r

8、i m e n t s c o v e r c o mm o na n dn e s t e dd a t a s e t s f r o mb o t hb i o m e d i c a l d o m a i na n dg e n e r a l d o m a i n.T h er e s u l t sd e m o n s t r a t e t h a t I n s t r u c t G P T sp e r f o r m a n c eo nz e r o-s h o tN E Ra c h i e v e s1 1%t o5 6%o f t h ep e r f o

9、r m a n c eb ya f i n e t u n e ds m a l l-s c a l e dm o d e l.T oe x p l o r ew h y I n s t r u c t G P Ts t r u g g l e sw i t hN E R,t h i sp a p e re x a m i n e s t h eo u t p u t s,f i n d i n g i n v a l i dg e n e r a t i o n f o r 5 0%o f t h e m.B e s i d e s,t h eo c c u r r e n c eo fb

10、o t h f a l s e-n e g a t i v e a n d f a l s e-p o s i t i v e p r e d i c t i o n sm a k e s i td i f f i c u l t t oi m p r o v ep e r f o r m a n c eb yo n l ya d d r e s s i n gt h e i n v a l i dg e n e r a t i o n.T h e r e f o r e,i na d d i t i o nt oe n s u r i n gt h ev a l i d i t yo fg

11、e n e r a t e do u t p u t s,f u r t h e rr e s e a r c hs t i l ls h o u l df o c u so nf i n d i n ge f f e c t i v ew a y so fu s i n gI n s t r u c t G P Ti nt h i sa r e a.K e y w o r d s:l a r g e l a n g u a g em o d e l;n a m e de n t i t yr e c o g n i t i o n;i n-c o n t e x t l e a r n i

12、n g;c h a i n-o f-t h o u g h t收稿日期:2 0 2 3-0 5-1 1 定稿日期:2 0 2 3-1 1-1 4基金项目:国家自然科学基金(6 2 0 2 2 0 2 7);国家重点研究与发展计划(2 0 2 2 C S J G G 0 8 0 1)0 引言大规模语言模型(L a r g eL a n g u a g e M o d e l s,L LM s),如G P T-3系列1-3,由于其不依赖下游数据微调即可取得较好的性能表现4-5,在自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g,

13、N L P)社区引起了热烈讨论。具体而言,大规模语言模型只需要使用适当的提示(P r o m p t),就可以在零样本(Z e r o-s h o t)设定下取得不错的性能4,6;对于少样本(f e w-1期孙瑜等:I n s t r u c t G P T在命名实体识别任务中的表现和挑战s h o t)问题,大规模语言模型可以利用上下文学习(I n-c o n t e x tL e a r n i n g,I C L)1,7或者思维链(C h a i n-o f-T h o u g h t,C O T)8提示来提高性能。尽管过去的文献1,5 已经证明了大规模语言模型在自由

14、生成任务和多项选择任务中表现十分出色,但他们在结构化抽取任务,如命名实体识别(N a m e dE n t i t yR e c o g n i t i o n,N E R)中仍然面临挑战9。目前,没有工作对大规模语言模型在命名实体识别上的能力进行全面的研究,因此,本文设计了一系列实验,深入研究了I n s t r u c t G P T在命名实体识别任务上的表现及面临的挑战。具体地,本文主要回答了下面两个问题:(1)I n s t r u c t G P T在不同设定和不同领域上表现得怎么样?为了回答这个问题,本文分别在生物医学领域和通用领域上,进行了零样本学习和少样本学习。其中,通

15、用领域在中英文的常规数据集和英文的嵌套数据集上都进行了实验。为了增加可信度,本文沿用了之前工作5中采用的提示作为基准来解决零样本的命名实体识别任务。除此之外,由于抽取实体本质上是结构化抽取任务,模型的输出需要满足一定的格式才能从中成功地解析出实体。为了实现这个要求,本文设计了一个结构化提示,从而指导I n s t r u c t G P T生成格式化的文本。零样本场景下两种提示的例子如图1所示。在少样本设定下,本文探索了上下文学习和思维链两种方法。上下文学习时,本文沿用了之前广泛使用的提示方法9。目前的思维链方法主要在推理任务中使用,本文是第一个将该方法引入到命名实体识别任务中的。少样本场景下

16、的两种提示的例子如图2所示。结果显示,I n s t r u c t G P T无论在生物医学领域还是通用领域的数据上的表现,都和微调模型的表现有巨大的差距。其中,在零样本命名实体识别任务上,I n s t r u c t G P T仅能达到微调模型性能的1 1%到5 6%,在少样本命名实体识别上,I n s t r u c t G P T的性能最多达到7 2%。图1 零样本命名实体识别提示的例子 (2)为什么I n s t r u c t G P T在命名实体识别任务上表现得不理想?I n s t r u c t G P T在很多生成式的任务上的表现与微调模型性能相近,甚至更好。然而,I n

17、 s t r u c t G P T却在命名实体识别上没有达到预期效果。为了探究阻碍I n s t r u c t G P T成功抽取实体的原因,本文从两个方面来仔细评估了模型的输出:无效生成和虚假预测。无效生成包括输出无法成功匹配解析格式的“格式无效”,和输出的实体片段不在输入句子中的“片段无效”。结果表明,1 0%7 0%的输出句子存在无效生成的问题,严重影响了解析过程。零样本场景给出更详细的指令或者少样本场景增加示例的个数可以有效减少“格式无效”。然而,“片段无效”仍是一个亟需解决的问题。此外,无效性可能会直接导致生成的句子解析失败,从而不能识别预测成功的实体。本文称这种情况为虚假预测。

18、虚假预测除了存在导致性能偏低的“虚假错误57中文信息学报2 0 2 4年图2 少样本命名实体识别提示的例子预测”,还存在导致性能偏高的“虚假正确预测”。当无效性问题严重时,“虚假正确预测”的数量甚至增加到4 0%。未来的工作在保证预测正确性的前提下,仍需从根本上提升I n s t r u c t G P T等大模型抽取实体的能力。除此之外,针对嵌套命名实体识别任务,本文还统计了I n s t r u c t G P T生成的实体中嵌套实体的比例,即实体嵌套率,发现其远低于数据集中的比例。并且,抽取嵌套实体的正确率也不足一半。这说明大模型在处理嵌套实体方面还是面临挑战

19、的。总的来说,本文的贡献主要体现在以下个四方面:(1)本文首次详细探究了I n s t r u c t G P T在命名实体识别任务上的表现,覆盖了生物医学领域和通用领域、常规场景和嵌套场景的数据,并在零样本和少样本设定上都进行了实验。本文提供的实验结果可以作为之后研究的基准。(2)首次提出将思维链应用到命名实体识别任务上,并为生物医学领域和通用领域的数据设计了不同形式的思维链,并对其性能进行了测试。(3)本文从两个指标出发,对I n s t r u c t G P T的输出进行了错误分析,发现了输出的无效性是阻碍I n s t r u c t G P T性能提升

20、的重要因素。通过分析无效生成问题导致的虚假预测问题,本文发现,解决无效生成问题并不一定会提升I n s t r u c t G P T在命名实体识别上的性能。未来工作可以针对本文列举的无效生成类型,首先保证模型生成的正确性,其次设计更好的抽取实体的方法。(4)首次针对性地研究了I n s t r u c t G P T在嵌套命名实体识别任务上的表现,发现I n s t r u c t G P T的实体嵌套率和嵌套正确率较低。通过增加上下文示例的数量可以一定程度上增加I n s t r u c t G P T生成嵌套实体的比例和识别的正确率。1 任务定义命名实体识别作为一个基本的结构化抽取任务,

21、旨在从原始文本中抽取实体片段,并将它们分类到预定义的类型中。例如,“复旦大学是上海市的一所综合性大学。”中,“复旦大学”是组织类别的实体,“上海市”是地点类别的实体。本文为了提升效率,I n s t r u c t G P T需要一次性从句子中抽取出所有类型的实体片段并分类。即,上面句子的输出应该为“组织:复旦大学;地点:上海市”。最后,模型的原始输出被解析成结构化的实体,从而进行评测。671期孙瑜等:I n s t r u c t G P T在命名实体识别任务中的表现和挑战2 提示的设计为了充分研究I n s t r u c t G P T在命名实体识别任务中的表现,本节详细描述了在不同设

22、定和领域中提示的设计。2.1 零样本命名实体识别零样本学习时,本文使用的提示由3个部分构成:任务指令、候选句子、指示词。如图1所示,本文为零样本命名实体识别设计了两种提示。图1中从上到下的示例分别来自生物医学领域、英文通用领域和中文通用领域。2.1.1 原始提示作为基准,本文沿用了之前工作的提示,其中任务指令是关于命名实体任务的描述,并给出需要抽取的实体类别。在抽取可能包含嵌套实体的句子的时候,本文在任务指令后面添加了“N o t i c et h a tt h e r e m a ye x i s tn e s t e de n t i t i e s.”。候选句

23、子由“S e n t e n c e:”/“句子:”拼接待抽取的句子。指示符是“E n t i t y:”/“实体:”。原始提示的示例如图1(a)所示。2.1.2 结构化提示正如第1章所讨论的,I n s t r u c t G P T在其生成格式方面展现出了相当大的灵活性。因此,设计提示来指导I n s t r u c t G P T生成理想的格式化输出对于实现有效的解析至关重要。因此,本文修改了任务指令部分,添加了输出格式的详细指令。中英文关于输出格式的描述有所不同。其余两个部分与原始提示一致。如图1(b)所示,结构化指令部分用下划线标出。2.2 少样本命名实体识别少样本学习时,本文使用

24、的提示由四个部分构成:任务指令、示范(D e m o n s t r a t i o n)、候选句子、指示词。除了新增的示范部分,其他部分都与零样本学习的原始提示相同。如图2所示,本文使用了两种常见的大模型少样本学习方法,即上下文学习和思维链。不同方法的改变只存在于示范部分。图2中从上到下的示例分别来自生物医学领域、英文通用领域和中文通用领域,并只拼接了一个示范作为例子。2.2.1 上下文学习受到之前工作的启发5,本文设计的示范部分由几个完整训练示例组成,即训练示例构成的候选句子、指示词以及模型输出。其中训练示例的输出应与最终期望的模型输出具有相同的格式。图2(a)给出了三种情况下的上下文学习

25、输入输出的例子。2.2.2 思维链与上下文学习不同,思维链8的示范部分由几个推理链组成。其中每个推理链都包括了一系列中间推理步骤,即原理(R a t i o n a l e)和答案。本文是第一个将思维链提示应用到命名实体识别上的研究,并为不同领域的数据设计了不同的推理链。如图2(b)所示,推理链部分用下划线标出。对于生物医学领域,本文首先从维基百科检索出实体的条目页面,并选择定义句子(通常在文档开头)作为推理链。如果该实体没有条目,则随机选择一个包含该实体的句子。之后,在推理链后拼接“T h e r e f o r e”开头的结论作为答案部分。对于通用领域,本文受到了t r i g g e r

26、 N E R1 0的启发。t r i g g e r N E R是通过选择特定的单词和短语作为解释性标注来识别实体。对于C o N L L 0 3数据集,本文直接使用t r i g g e r N E R的标注;对于其他通用领域数据集,本文使用该技术原理,人工标注了解释性单词和短语。之后,将这些解释性单词和短语用自然语言描述,作为推理链;用“T h e r e f o r e/因此”开头的结论作为答案。3 实验本章节首先介绍了本文使用的9个数据集,然后展示并分析讨论了实验结果,来分别回答前面提出的两个问题。3.1 数据集本文在三个生物医学领域、四个常规通用领域和

27、两个嵌套通用领域的命名实体识别数据集上进行了实验。沿用过去的工作,本文只在10 0 0条测试数据上评估I n s t r u c t G P T的表现,如果测试集数据少于10 0 0条,则使用全部测试集。每个实验使用相同部分的子数据集。3.1.1 生物医学领域数据集本文选择了B L U R B基准数据集1 1中的三个数77中文信息学报2 0 2 4年据集。其中生物创新V化学-疾病关系语料库(B i o-C r e a t i v eVC h e m i c a l-D i s e a s eR e l a t i o nc o r p u s)1 2包含了P u b M e d摘要中

28、标注为疾病(B C 5 C D R-d i s e a s e)和化学(B C 5 C D R-c h e m)实体的句子,生物创造I I基因提及(B i o c r e a t i v eI IG e n eM e n t i o n,B C 2 GM)1 3数据集则包含了P u b M e d摘要中的基因标注。3.1.2 通用领域数据集本文选择了四个常用的通用领域的常规命名实体识别数据集,其中,两个是英文,两个是中文。对于英文数据集,本文使用了C o N L L 0 31 4数据集和O n t o N o t e s 51 5数据集,其中O n t o N o t e

29、s 5数据集本文只保留了非数字的实体类别;对于中文数据集,本文使用了M S R A1 6数据集和O n t o N o t e s 41 7数据集。除此之外,本文还选择了两个常用的英文嵌套命名实体识别数据集,分别是A C E 0 41 8和A C E 0 51 9。3.2 结果:I n s t r u c t G P T在不同设定和不同领域上表现得怎么样?本节的实验旨在探究I n s t r u c t G P T在低资源场景下解决命名实体识别任务的能力。表1展示了生物医学领域数据集的实验结果,表2和表3分别展示了通用领域常规实体和嵌套实体数据集的实验结果。少样本学习时,本文分别在拼接1个、5

30、个和1 0个示例的情况下测试。每个结果都是5次实验结果的平均值,下标表示标准差(例如,7 6.81 1表示7 6.81.1)。表1 生物医学领域数据的主要结果(单位:%)B C 5 C D R-d i s e a s eB C 5 C D R-c h e mB C 2 GMP r e.R e c.F1P r e.R e c.F1P r e.R e c.F1B i o B E R T微调小规模语言模型8 6.58 7.88 7.29 3.79 3.39 3.58 4.38 5.18 4.7原始提示结构化提示结构化提示零样本学习5 3.152 9.423 7.815 9.795 5.11 25 7

31、.31 03 0.492 6.392 8.293 7.563 5.443 6.454 2.046 2.51 05 0.352 9.844 1.233 4.64k=1k=5k=1 0上下文学习(k为示例数)4 2.52 53 2.973 7.165 8.51 95 9.81 75 9.143 4.52 02 6.21 02 9.885 6.42 24 1.054 7.497 2.33 56 5.776 8.81 83 7.12 13 1.11 13 3.81 25 8.12 14 6.635 1.787 2.597 1.21 67 1.873 5.21 03 1.91 23 3.51 1k=1k

32、=5k=1 0思维链(k为示例数)5 0.83 27.01 31 2.31 98 3.92 32 1.52 83 4.13 63 8.46 52.274.11 27 1.43 44 1.52 55 2.31 39 0.385 8.83 77 1.22 65 2.51 42 4.91 73 3.71 47 6.81 14 3.91 05 5.989 3.046 2.11 07 4.575 6.11 53 7.51 44 4.91 4表2 通用领域数据的主要结果(单位:%)C o N L L 0 3O n t o N o t e s 5M S R AO n t o N o t e s 4P r e

33、.R e c.F1P r e.R e c.F1P r e.R e c.F1P r e.R e c.F1R o B E R T a微调小规模语言模型9 2.39 4.09 3.59 0.39 2.19 1.29 5.89 5.89 5.88 2.88 1.38 2.087续表1期孙瑜等:I n s t r u c t G P T在命名实体识别任务中的表现和挑战C o N L L 0 3O n t o N o t e s 5M S R AO n t o N o t e s 4P r e.R e c.F1P r e.R e c.F1P r e.R e c.F1P r e.R e c.F1原始结构化零

34、样本学习3 3.42 32 9.51 53 1.271 3.48 08.45 81 0.36 73 7.82 05 3.31 14 4.21 73 1.22 44 1.24 53 5.53 27 0.23 74 1.81 75 2.42 13 6.97 78.72 11 8.22 84 6.41 64 5.32 64 7.72 33 7.02 43 8.33 33 7.62 7k=1k=5k=1 0上下文学习(k为示例数)5 0.73 14 4.92 64 7.51 71 8.91 61 5.12 71 6.72 34 4.995 0.194 7.343 7.42 54 1.33 43 9.2

35、2 86 2.24 05 0.21 35 5.52 13 2.92 52 6.32 32 9.22 35 9.31 55 1.91 45 5.334 8.92 54 6.13 54 7.42 66 7.51 75 7.51 16 2.11 03 9.493 1.173 4.796 3.61 15 8.096 0.685 3.764 8.02 35 0.72 4k=1k=5k=1 0思维链(k为示例数)4 5.12 03 0.03 73 6.02 92 1.61 31 6.51 71 8.61 14 3.92 41 9.31 82 6.82 03 4.371 1.02 51 6.52 85 5.

36、01 07 0.41 46 1.81 03 0.12 93 1.02 23 0.52 55 5.21 93 9.084 5.784 5.83 43 9.12 94 2.13 16 0.41 37 5.51 76 7.21 93 9.13 12 8.22 73 2.82 85 5.83 13 9.61 34 6.31 85 3.034 8.92 85 0.93 5表3 通用领域嵌套实体的主要结果(单位:%)A C E 0 4A C E 0 5P r e.R e c.F1P r e.R e c.F1B E R T微调小规模语言模型8 4.48 4.3原始结构化零样本学习5 3.01 21 5.64

37、2 4.266 0.31 49.701 6.81.24 7.271 1.831 8.985 5.71 77.141 2.67k=1k=5k=1 0上下文学习(k为示例数)4 3.11 81 6.942 4.374 2.941 5.772 3.084 9.11 12 3.873 2.074 7.41 62 3.81 83 1.71 95 2.91 32 7.653 6.355 0.51 22 6.61 03 4.81 1k=1k=5k=1 0思维链(k为示例数)3 4.01 61 9.93 22 4.92 33 1.41 51 5.82 22 1.02 24 2.873 0.01 93 5.21

38、 54 4.082 7.51 53 3.81 24 8.383 2.773 9.075 1.51 03 0.023 7.833.2.1 生物医学领域在生物医学领域,本文对比了微调B i o B E R T2 0预训练模型的结果。零样本学习时,I n s t r u c t G P T在生物医学领域数据集上能达到4 1%6 1%微调模型的表现。本文发现结构化提示对零样本学习似乎没有影响,甚至会对疾病和化学类别实体的提取产生负面影响。在少样本学习时,I n s t r u c t G P T在少样本的生物医学领域的数据上的表现达到了5 1%8 0%微调模型的能力。增加示例数量(从1个到1 0个)在

39、上下文学习和思维链方法中都有益于F1的提高,分别平均有+1 0.3和+4 1.6的增长。但是,仅使用一个示例时,思维链方法的F1相较于上下文学习平均下降了2 5.2。这是由于思维链方法的生成中,原理部分的结构比较复杂,I n s t r u c t G P T难以保证有效输出,导致了严重的解析失败问题,从而表现不佳。一旦示例数量增加,I n s t r u c t G P T在生物医学领域数据集上使用思维链的性能优于只使用上下文学习。3.2.2 通用领域在通用领域的常规命名实体识别数据集上,本文对比了微调R o B E R T a2 1预训练模型的结果。在通用领域的嵌套命名实体识别数据集上,本

40、文对比了微调B E R T2 2预训练模型的结果。由于该篇工作没有汇报完整的实验结果,因此我们也只在表格中展示了F1。在零样本常规实体的抽取上,I n s t r u c t G P T大概能达到2 0%5 6%微调模型的性能;在嵌套命名实体识别数据上大概能达到2 0%2 9%微调模型的性能。另外,本文发现,在常规实体的抽取上使用结构化提示可以显著提高性能,F1平均提高了8.7。这意味着通过修改提示指导I n s t r u c t G P T生成更加格式化的输出对于通用领域实体识别是有效的。嵌套实体抽取中使用结构化提示反而一定程度上损害了性能。在少样本学习时,随着上

41、下文示例数量的增加,97中文信息学报2 0 2 4年在常规命名实体识别任务上,上下文学习和思维链的性能分别平均提高了1 4.4和2 4.8;在嵌套命名实体识别任务上,则分别提高了1 1.9和1 5.5。对于通用领域常规实体的提取,实验发现思维链在常规实体抽取上的用处不大。其原因可能是实体触发词与实体本身之间没有强烈的因果关系,导致不能激发模型潜在的推理能力。并且由于思维链的输出结构更加复杂,反而会一定程度上损害模型的表现。值得注意的是,在每个设置中,O n t o N o t e s 5的性能明显低于其他数据集。这是由于O n t o N o t e s 5有1 1个类别,远远

42、多于其他数据集的3、4个类别。I n s t r u c t G P T在解决很多类别的分类时,也面临了巨大的挑战。思维链方法运用在嵌套实体中可以一定程度上提升性能,这可能是由于A C E 0 4和A C E 0 5数据集中有很多指代词被标注为实体。思维链的使用帮助I n s t r u c t G P T利用上下文的逻辑来抽取实体。总体而言,与微调模型相比,实验发现I n s t r u c t-G P T在每个命名实体识别数据集上的表现都不尽人意。具体来说,I n s t r u c t G P T只能通过零样本提示实现1 1%5 6%的性能。即使添加了示例样本,I

43、n s t r u c t G P T的F1最多也只能达到7 2%。通过之前的观察,本文建议在解决通用领域的命名实体识别问题时,可以使用结构化提示来提升最终的性能。面对少样本问题时,思维链提示在生物医学领域更有可能表现良好;而对于通用领域的少样本学习,上下文学习足以胜任。3.3 结果:为什么I n s t r u c t G P T在命名实体识别任务上表现得不理想?正如前文所述,尽管在许多设定下进行了尝试,I n s t r u c t G P T的结果与微调模型之间仍存在显著差距。本节对输出文本进行了详细的分析,发现了导致结果不理想的一个重要原因是无效生成。这种无效性问题还会导致虚假预测问题

44、,使得目前获得的结果不完全准确。在嵌套命名实体识别时,本文发现I n s t r u c t G P T的嵌套实体识别率偏低,说明在识别嵌套的实体上还面临挑战。3.3.1 无效生成由于命名实体识别任务本质上是一个结构化抽取任务,因此最终目的是得到结构化的实体。要将I n s t r u c t G P T输出的非结构化文本解析成结构化的实体,其生成的输出必须是格式化的,才能成功地匹配解析。基于这个特性,本文引入了“格式无效”这一指标,表示模型输出的格式与期望格式不符。主要体现在解析阶段无法区分不同实体类型之间的实体,或者无法区分类别词和实体。例如,图3中的(1)就是“格式无效”的一个例子。此外

45、,命名实体识别任务要求抽取的实体片段必须完全属于原始句子。由于实体有各种表达方式,I n s t r u c t G P T可能会生成该实体的其他形式,从而导致匹配解析失败。此外,单数和复数的使用不一致也会导致此问题。本文为此定义了“片段无效”指标来记录不符合该要求的实体片段的数量。例如,图3中(2)就是“片段无效”的一个例子。图3 无效生成的例子除此之外,本文还引入了“无效句子”,来记录具有任何以上两种类型无效性的句子的数量。三种无效性的结果如图4所示。在每个子图中,“格式无效”和“片段无效”的单位都是片段数量,基于左边的Y轴,而“无效句子”的单位是句子数量,基于右边的Y轴。值得注意的是,生

46、物医学领域数据集的“格式无效”在零样本学习和上下文学习时始终为0。这是由于生物医学领域的数据集都只有一个实体类型,解析过程中不需要格式匹配来区分不同实体类型。总的来说,无效生成问题有三个值得注意的结论:(1)在零样本学习时添加结构化提示或者在少样本学习时增加示例数量都有助于提高输出格式的正确性。从图3中可以看出,增加结构化提示后,“格式无效”平均减少了3 4个;将示例数量从1个增加到1 0个,“格式无效”在上下文学习中平均减少了4 2个,在思维链上平均减少了5 3 6个。(2)使用思维链方法时,如果只拼接一个示例,I n s t r u c t G P T很难模仿复杂的推理过程。如图4所示,每

47、个数据集在只使用一个示例的思维链方法中,都有相当多的“格式无效”,达到了6 0 0到9 0 0个片段。增加示例的数量可以显著缓解这个问题,如可以将无效的片段数降低到个位数。(3)“片段无效”问题更具挑战性,并且使用现有的大模型学习方法难以解决。通081期孙瑜等:I n s t r u c t G P T在命名实体识别任务中的表现和挑战图4 无效生成的统计数据图过提示或者示例引导I n s t r u c t G P T生成格式化的输出,几乎可以将“格式无效”降至零;但几乎每个数据集的每个场景中,“片段无效”都超过了2 0 0个。I n-s t r u c t G P T在中文数据集上的“片段无

48、效”问题尤为严重。3.3.2 虚假预测上一节描述的无效生成问题可能会导致I n s t r u c t G P T的输出面临解析失败的问题。解析失败会导致预测正确的实体没有被解析出来,即判别为预测错误的句子实际是正确的,使最终性能偏低,本文称之为“虚假错误预测”。直觉上,设计更好的提示或者更好的解析方法可以缓解无效生成的问题,进而减少“虚假错误预测”,从而得到更好的性能。然而,通过收集I n s t r u c t G P T存在无效生成的句子,本文发现,解析失败还会使一些预测错误的实体躲过与目标实体匹配的过程,使得预测错误的句子被错误判别为正确预测,使最终性能偏

49、高,本文称之为“虚假正确预测”。本文将这两种情况统称为虚假预测。存在“虚假错误预测”的句子,一旦模型的输出被更好地解析,就可能纠正这些虚假错误,性能就可以进一步提高。从表2、表3和图4中可以看出,零样本中增加结构化提示或者少样本中增加样本数量时,“格式无效”的数量减少,F1也相应地有所提升。“虚假正确预测”的统计结果见图5,每个子图的单位都是句子数量,每个柱体的高度是正确预测的数量,包括“真实正确”(实心部分)和“虚假正确”(斜线部分)。如果I n s t r u c t G P T预测正确并且输出的句子不存在无效生成问题,则表示该测试用例是真实正确的。“真实正确”部分表明,添加结构化提示比仅

50、使用一个示例更有用,同时添加的示例越多,真实正确的数量也越多,表示模型能力越好。如果I n s t r u c t G P T预测正确但是输出句子存在无效生成,则认为该测试用例是虚假正确的。实验表明,原始提示和使用一个样本的思维链方法均面临了严重的“虚假正确”问题。正如3.3.1节描述的,这两种情形下,I n s t r u c t G P T的输出存在很多“格式无效”问题。这个问题可以通过添加结构化提示和增加示例数量缓解。18中文信息学报2 0 2 4年图5 虚假正确预测的统计数据总之解决I n s t r u c t G P T生成的无效性并不能保证最终结果的提高。如果解决的“

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: InstructGPT 命名实体识别任务中的表现挑战

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。