基于朴素贝叶斯分类器的古诗词作者争议检测.pdf
《基于朴素贝叶斯分类器的古诗词作者争议检测.pdf》由会员分享,可在线阅读,更多相关《基于朴素贝叶斯分类器的古诗词作者争议检测.pdf(10页珍藏版)》请在咨信网上搜索。
1、引言古代文学作品中存在不少作者有争议的情况。以往面对这些争议,研究者主要基于文献证据和主观经验来判断,缺乏比较客观的参数衡量。进入19世纪,随着生产力的不断发展,数学等相关工具也逐渐被应用到作者识别研究中。Mendenhall较早尝试量化作品的风格特征,使用词谱和特征曲线对莎士比亚的戏剧等不同作品进行作者归属判断。随后又有学者从特殊词出现的频率和分布特征、功能词的频率、词汇量等角度衡量作品的风格特征,判断作者的归属。在国内也有不少学者采用量化作品风格的方式对中文作品展开研究,并且研究方法和研究对象具有多样性和广泛性,既有传统的模型,也有新开发的模型,既有对古典诗词、小说等的研究,也有对现当代散
2、文、微博等的研究。胡俊峰等较早采用计算语言学的方法提取了唐宋诗中的词汇,总结词汇的共现关系、对仗关系以及词汇的作者分布特征信息,开发了基于词汇的统计分析和诗句相似性检索等功能。易勇等基于机器学习的朴素贝叶斯算法等方法,对诗词文本采用向量空间模型表示,首次提出了中国古代诗人李白和杜甫作品判别的计算模型,获得较高的判别准确度。胡韧奋等基于朴素贝叶斯 张洋、江铭虎:作者识别研究综述,自动化学报 2021年第11期。Mendenhall T.C.“The characteristic curves of composition”,Science,1887(9-214s),p.237.Mosteller
3、 F.,Wallace D.L.Inference and Disputed Authorship:The Federalist.Reading,Mass:Addison-Wesley Publishing Company,1964;Damerau F.J.“The use of function word frequencies as indicators of style”,Computers and the Humanities,1975(6),p.271;Efron B.,Thisted R.A.“Estimating the number of unseen species:How
4、many words did Shakespeareknow”,Biometrika,1976(3),p.435.胡俊峰、俞士汶:唐宋诗之计算机辅助深层研究,北京大学学报(自然科学版)2001年第5期。易勇、郑艳、何中市、李良炎:基于机器学习的古典诗词作者的判别研究,心智与计算 2007年第3期。诗学与词学黄玮冉启斌内容提要:本文收集了 蝶恋花(庭院深深深几许)等六首作者存在争议的作品所涉及作者的其他作品作为训练语料,经过分词和特征提取后,使用朴素贝叶斯分类器学习作者特征,随后对争议作品进行作者判断。判断结果详细显示了各首争议作品的作者可能性,除生查子 元夕 外,其余判断结果与文献考证的契合度
5、较高。本文还收集了三组唐朝并称诗人“元白”“皮陆”“小李杜”的作品,使用朴素贝叶斯分类器进行作者判断,取得了较好的效果,进一步验证了该方法在作者检测上的有效性。关键词:作者争议作品风格特征朴素贝叶斯分类器古诗词基于朴素贝叶斯分类器的古诗词作者争议检测-95WENXUE YU WENHUALiterature and Culture Studies和支持向量机算法构造文本分类器,提出唐诗题材自动分类模型。祁瑞华系统地介绍了作者身份识别的原理、算法和应用等一系列问题,并做了中文微博作者身份、作者性别识别实验。范亚超等采用降噪自编码器深度模型提取吴承恩、王廷陈、薛蕙等人诗词的文本结构特征,再采用支持
6、向量机分类器进行作者识别,并进一步将该方法应用于 西游记 诗词的作者识别中。张航等将双向循环神经网络运用到中文古诗词风格分类中,构建了基于深度神经网络的中文古诗词文本分类模型,提高了分类效果。陈汝嫣采用定量研究方法,提取鲁迅和周作人多篇散文的“语言指纹”,通过N-gram和依存关系建立分类模型,推测篇章归属。宋丽等采用假设检验、文本聚类、文本分类、波动风格计量等方法考察 水浒传 的写作风格,为其作者身份认定提供参考。周爱等提出了一种双通道的集成模型完成唐诗作者身份识别任务。周睿等采用应用计量风格学的研究范式来判定 醒世姻缘传 的作者归属。在中国古典诗词中,有的作品由于编者讹误或作者风格相近等原
7、因,常常产生作者归属的争议问题。例如 蝶恋花(庭院深深深几许),分别出现在冯延巳和欧阳修的作品集中,但由于年代久远,真相已经不可考证,后世学者也大多是从作者的创作背景、任职经历和读者的主观感受等方面来推断作品的作者归属,常常各执一言,难有定论。对于这些诗词作者争议,从机器学习方面做出回应的研究还比较少见。本文拟集中分析 蝶恋花(庭院深深深几许)等六首通常被认为作者有争议的作品,通过收集争议所涉及作者的其他作品作为训练语料,经过分词和特征提取后,使用朴素贝叶斯分类器来判断争议作品的作者归属,希望对相关争议提供一定参考。本文还有一项补充实验,即收集三组唐朝并称诗人“元白”“皮陆”“小李杜”的作品,
8、在训练朴素贝叶斯分类器以后对作品进行作者判断,以检测本文所用方法的有效性。一实验材料(一)诗词作者争议情况本文要分析的六首作者有争议的诗词是:蝶恋花(庭院深深深几许)、蝶恋花(帘幕风轻双语燕)、生查子 元夕(去年元夜时)、菩萨蛮(哀筝一弄湘江曲)、题白云楼(西北楼开四望通)、清明(清明时节雨纷纷)。下面简单梳理一下这六首作品的作者争议问题。欧阳修的大部分艳情词,风格和艺术手法与南唐词相近,蝶恋花(庭院深深深几许)既见于冯延巳 阳春集,又见于欧阳修词集。该词的作者,在朱彝尊、汪森 词综 和周济 词辩 中作冯 胡韧奋、诸雨辰:唐诗题材自动分类研究,北京大学学报(自然科学版)2015年第2期。祁瑞华
9、:文本作者身份识别基于机器学习与计算语言学,清华大学出版社,2017年,第2165页。范亚超、罗天健、周昌乐:基于降噪自编码器特征学习的作者识别及其在 西游记 诗词上的应用,厦门大学学报(自然科学版)2018年第6期。张航、何中市:基于BLSTM的诗词风格分类技术研究,现代计算机 2020年第2期。陈汝嫣:周氏兄弟“随感录”归属考证兼论鲁迅与周作人早期杂感“语言指纹”(19181927),鲁迅研究月刊 2022年第6期。宋丽、刘颖、马艳军:用计量风格学方法考察 水浒传 的作者争议问题以罗贯中 平妖传 为参照,中文信息学报 2022年第8期。周爱、桑晨、张益嘉、鲁明羽:诗人密码:唐诗作者身份识别
10、,中文信息学报 2022年第6期。周睿、马清华:醒世姻缘传 作者归属的应用计量风格学研究,明清小说研究 2022年第4期。周彩虹:浅论南唐、北宋词家的忧患意识,佛山科学技术学院学报(社会科学版)2005年第1期。二二三年 第三期WENXUE YU WENHUALiterature and Culture Studies-96延巳,在张惠言 词选 中作欧阳修。全宋词 没有收录该词,认为是五代时期冯延巳所作,曾昭岷等编的 全唐五代词 也认为是冯氏之作。而于此之外,很多论者据李清照之说将该词定为欧阳修之作,“因为李清照是现在所能见到的最早提到这首词的古人”。蝶恋花(帘幕风轻双语燕)的作者也有争议,曾
11、慥 乐府雅词 将该词收录在欧阳修名下,况周颐 历代词人考略 认为该词为晏殊所作。明代词选如 类编草堂诗余 天机余锦 等多将该词归为晏殊,后世学者也多默认该词为晏殊所作。生查子 元夕 一词见于 欧阳文忠集,明代杨慎 词品 将该词定为朱淑真所作,毛晋刊刻断肠词 又承袭杨慎做法将该词归为朱氏。但是,唐圭璋以清代 池北偶谈 四库提要 等为证据论证该词为欧阳修所作,认为杨慎将该词归为朱淑真是失误。胡云翼也提供 乐府雅词 蕙风词话 等证据证明该词为欧阳修所作。在后世学者的研究中,也还没有定论。菩萨蛮(哀筝一弄湘江曲)的作者是晏几道还是张先也有争议。张先和晏殊齐名,风格与南唐李氏父子和冯延巳相似,而晏几道的
12、词风又深受晏殊的影响,所以三人的 菩萨蛮 容易混淆。王鹏运校勘 草堂诗余、黄苏 蓼园词选、李文林 诗余协律 认为该词为张先所作,清末朱祖谋辑校 小山词 则将该词归为晏几道。吴熊和、沈松勤校注的 张先集编年校注 引用唐圭璋的 张子野词跋 也认为该词为晏几道所作。吴在庆校注的 杜牧集系年校注 将 题白云楼 编在 集外诗一 内。吴在庆指出,该诗可能是并非杜牧亲作的“集外诗,并且 四部丛刊 景宋本 丁卯集(许浑作)也收有该诗,题作 汉水伤稼。因而,该诗常被视作许浑所作。铃木修次等根据“复句”的使用情况认定该诗应为许浑所作。王辉斌从诗题、任职经历、旁诗证据等方面论证该诗并非许浑所作,而是杜牧所作。在后来
13、的研究中,也没有定论。除 题白云楼 外,清明 也被 杜牧集系年校注 收在“集外诗”中,该诗的作者到底是杜牧、许浑还是宋祁,也有一定争议,但流传甚广的说法是杜牧所作。可见,传统上对诗词作者的认定比较依赖于研究者的主观经验,大多从作品内容和作者经历 李睿:从周济选词看常州派与浙西派的融合,中国韵文学刊 2010年第1期。王兆鹏、郁玉英:宋词经典名篇的定量考察,文学评论 2008年第6期。孙晓明:谈古典文学研究的历史观,云南社会科学 1986年第3期。孙克强:试论况周颐唐宋词赏析的词学意义,北京大学学报(哲学社会科学版)2018年第1期;曾素芸:晏殊词接受史研究,南昌大学硕士学位论文,2016年。沈
14、义芙:晏欧联章词例释及考辨,赣南师范学院学报 1985年第2期;周建国:论花间词中的鸟类意象,杭州师范学院学报 1996年第5期;吴旭莹:唐宋诗词燕子意象研究,南京师范大学硕士学位论文,2019年;魏若君:论晏殊词在明代词选评中的接受与正宗地位的确立,许昌学院学报 2022年第4期。欧阳明亮:欧阳文忠公近体乐府 传刻述考,井冈山大学学报(社会科学版)2021年第4期。唐圭璋:词学论丛,上海古籍出版社,1986年,第702704页。郭映蕊:胡云翼 宋词选 对初中语文宋词教学的启示,华中师范大学硕士学位论文,2021年。刘振乾:唐宋 菩萨蛮 研究,广西师范大学硕士学位论文,2012年。.清 朱祖谋
15、辑校:彊村丛书 第一册,广陵书社,2005年,第184页;金镛:菩萨蛮(哀筝一弄)非张先词,文史知识 1995年第8期;顾宝林:晚近四大家对晏欧三家词的传承推动,2016词学国际学术研讨会论文集,河北大学,2016年,第13531373页;宋琳:常州词派对 花间集 的接受研究,中南民族大学硕士学位论文,2021年。宋 张先著,吴熊和、沈松勤校注:张先集编年校注,上海古籍出版社,2012年,第305、347348页。唐 杜牧著,吴在庆校注:杜牧集系年校注,中华书局,2013年,第777、803804、825页。日 铃木修次:许浑与杜牧,张建群译,国外社会科学 1982年第11期。王辉斌:杜牧的登
16、高诗及其艺术精神,唐都学刊 2009年第5期;王辉斌:论杜牧登高诗,武汉大学出版社,2017年,第167174页。基于朴素贝叶斯分类器的古诗词作者争议检测-97WENXUE YU WENHUALiterature and Culture Studies等方面着手,结合文献记载进行论证,而采用机器学习的办法对上述诗词的作者进行判断的研究还比较少见。本文分别收集了上述诗词所涉作者一定数量的作品作为训练材料,通过机器学习的方式形成各作者的特征集合,然后将六首有争议的诗词分别放入分类器中进行作者判断。具体方法见后文。(二)诗词数据集本文把检测作者争议所用到的诗词文本材料统称为诗词数据集。诗词数据集中包
17、含诗词训练语料和诗词测试语料。诗词测试语料主要就是上文所述的六首作者存在争议的诗词作品,其次是后文补充实验中所用到的三组唐朝并称诗人的作品,这部分测试语料后文再介绍。诗词训练语料包含我们收集的各位作者的作品,其中欧阳修、冯延巳、晏殊和朱淑真的作品各3980字,晏几道和张先的作品各9312字,体裁均为诗和词;杜牧、许浑和宋祁的作品各5040字,体裁为七律和七绝,不包括五言诗。诗词训练语料和测试语料的情况如表1所示(补充实验的训练语料见后文;测试语料文本见附录)。表1诗词训练语料和测试语料情况序号123456诗词测试语料蝶恋花(庭院深深深几许)蝶恋花(帘幕风轻双语燕)生查子 元夕菩萨蛮(哀筝一弄湘
18、江曲)题白云楼(汉水伤稼)清明诗词争议作者欧阳修、冯延巳欧阳修、晏殊欧阳修、朱淑真晏几道、张先杜牧、许浑杜牧、许浑、宋祁诗词训练语料字数各3980字各3980字各3980字各9312字各5040字各5040字需要说明的是,本文尽可能多地收集各位作者的作品,但由于机器学习对训练文本的长短比较敏感,因此,在收集语料时只能适应作品较少的作者。例如,朱淑真流传下来的作品,相对于欧阳修、冯延巳和晏殊来讲是比较少的,因此只能从后三者的作品中筛选一部分出来组成和朱淑真作品字数相当的语料;而晏几道和张先流传下来的作品都比较多,因此这一组的训练语料字数较多。此外,训练语料和测试语料中均已将标点符号删除,并以简体
19、汉字形式存储。二实验方法(一)文本预处理与英文等以空格标记词语边界的文字系统不同,中文的词语之间一般没有专有的区分标记,因而分词是中文文本处理的一项基础技术。目前常见的中文分词方法主要有基于词典的字符串匹配方法、基于概率计算的统计方法,近年来,基于卷积神经网络、双向长短时记忆网络、双向门限循环单元、BERT预训练模型等的深度学习方法也逐渐兴起。本文采用的分词方法为jieba分词。jieba分词结合了字符串匹配分词和统计分词,不仅实现了隐马尔可夫模型和Viterbi算法,还支持自定义词典,具有较高的实用性和便捷性。需要说明的 钟昕妤、李燕:中文分词技术研究进展综述,软件导刊 2023年第2期。具
20、体介绍详见https:/ 第三期WENXUE YU WENHUALiterature and Culture Studies-98是,jieba分词主要是面向现代汉语的分词方法,在古代汉语分词上的效果略逊于专门用于古汉语处理的自然语言处理包。本文采用jieba分词,一方面是考虑到它的便捷性,另一方面也考虑到诗词中某些多字词和词组在诗词中大量使用或已经具有特定的意象意义,使用面向现代汉语的分词工具也比较合理。胡韧奋等在探究唐诗题材的自动分类时采用的是面向现代汉语的NLPIR/ICTCLAS2014分词系统,张航等在探讨诗词风格分类技术时采用的是面向现代汉语的jieba分词工具。文本分词的具体操作
21、,以欧阳修、冯延巳这一组为例:在Python3.7中导入jieba库,并分别读取欧阳修和冯延巳的训练语料,然后分别使用jieba.cut()命令得到欧阳修和冯延巳训练语料的分词结果,以备下一步使用。(二)特征提取作者在创作过程中通常会在字符、词汇、句法和语义等方面表现出一定的风格特征。本文采用的特征提取方法是一种基于词语的特征提取方法,构建了一个简单的“词袋模型”。具体来讲,就是将两位作者作品分词所得的词语列表分别输入Python,Python对输入的每个词语进行遍历,将其作为字典中的键,对应的值均为“True”,最终返回一个包含所有词语及其对应值的Python字典。该字典表示的是一种二元特征
22、集,即如果文本中出现了某个词语,则该词语在字典中的值为“True”,否则为“False”。(三)训练朴素贝叶斯分类器在得到两位作者作品的特征集以后,需要使用这些特征集训练一个分类器。本文采用NLTK库中的朴素贝叶斯分类器(Nave Bayes Classifier)模块来完成特征学习。朴素贝叶斯分类器以朴素贝叶斯算法为基础。为了让朴素贝叶斯分类器学习到更多的特征和它们对应的标签,进而提高分类器的准确性,在训练时,将分别贴有两位作者标签的特征集合并到一起以后放入分类器中。在这个过程中,分类器会学习到每个特征与其对应的标签(即作者)之间的关系,并将这些信息用于预测未知数据的标签。对分类器完成训练以
23、后,将测试语料分词、提取特征并输入到分类器中,分类器将估测输入的数据属于每个类别的概率,并输出测试语料属于某一位作者的可能性。三实验结果(一)作者争议检测结果根据上述检测方法,本文分别检测了各首有争议作品的作者可能性,结果如表2所示。需要说明的是,由于 清明 可能涉及的作者有杜牧、许浑和宋祁三位,本文分别用杜牧与许浑的作品、杜牧与宋祁的作品、许浑与宋祁的作品训练了三个分类器来检测该诗的作者。林伟杰、杨阳、文玉锋、周文杰:古籍知识组织中的知识计算:理论特性与基础指标,图书与情报 2022年第5期。胡韧奋、诸雨辰:唐诗题材自动分类研究,北京大学学报(自然科学版)2015年第2期;张航、何中市:基于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 朴素 贝叶斯 分类 古诗词 作者 争议 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。