基于特征点匹配的甲骨文识别.pdf
《基于特征点匹配的甲骨文识别.pdf》由会员分享,可在线阅读,更多相关《基于特征点匹配的甲骨文识别.pdf(13页珍藏版)》请在咨信网上搜索。
1、书 书 书古文字研究基于特征点匹配的甲骨文识别 陈婷珠刘志基【摘要】传统的甲骨文识别方法在识别精度、识别速度和抗干扰能力等方面还有进一步的发展空间,尤其是现有甲骨文识别技术对专家的依赖性高而甲骨文信息共享普及率则相对较低。本文通过实验模拟现实场景,采用特征不变匹配算法和编码法,从甲骨文单字图片每个像素的灰度值入手,以像素之间的变化关系作为图片的特征点进行甲骨文识别。无论对甲骨文原始单字图片进行旋转、缩放、对比度调整,还是电子设备噪声处理,其识别测试结果都非常好,其识别准确率为,识别精度相当高,这说明了将特征点匹配算法和编码法结合起来使用,对不同失真图像的识别能力很高,对甲骨文识别具有非常重要的
2、作用。【关键词】甲骨文;特征匹配;识别【作者简介】陈婷珠,女,上海交通大学人文学院副研究员、硕士生导师,博士,研究方向为古文字学。刘志基,华东师范大学中国文字研究与应用中心教授、博士生导师,研究方向为古文字学。(上海 )一引言甲骨文是我国迄今发现的最早的一种成熟文字系统,对甲骨文的识别研究具有很高的学术价值。目前,海内外学者对甲骨文的识别进行了大量理论和实证方面的研究。李锋等(、)、王晓丽()、栗青生等(、)从字形出发,利用笔画方向和长度等字形特征,采用无向或有向笔段和笔元技术以描述甲骨文字形。这种方法将甲骨文字形进行矢量描述,建立了甲骨文字形描述库,为古文字的数字化编辑提供了一个新思路。顾绍
3、通()、吕肖庆等()利用拓扑结构或图形对甲骨文分类,高峰等()基于语义对甲骨文进行分类。史小松(瑏 瑠)、孙莹莹(瑏 瑡)、刘永革等(瑏 瑢)则利用甲骨文字结构等特征,采用语料库和支持向量机(,瑏 瑣)的理论建立知识库,实现简单的甲骨文字形相似性分析分类和识别。高峰 瑏 瑠 瑏 瑡 瑏 瑢 瑏 瑣基金项目:本文为上海市教委 年科研创新项目“全息型甲骨文智能图像识别系统与配套数据库建设(冷门绝学项目)”、上海交通大学文科科研创新培育项目“甲骨字形系统分类模型的初步研究()”的阶段性成果。李锋、周新伦:甲骨文自动识别的图论方法,电子科学学刊 年第 期,第 页。周新伦、李锋、华星城、韦剑:甲骨文计算
4、机识别方法研究,复旦学报(自然科学版)年第期,第 页。王晓丽:高精度曲线轮廓甲骨文字形生成系统的研究与实现,硕士学位论文,苏州大学,年。吴琴霞、栗青生:基于有向笔段甲骨文输入方法的设计与实现,计算机应用 年第期,第 页。栗青生、吴琴霞、杨玉星:甲骨文字形动态描述库及其字形生成技术研究,北京大学学报(自然科学版)年第期,第 页。栗青生、杨玉星、王爱民:甲骨文识别的图同构方法,计算机工程与应用 年第期,第 页。顾绍通:基于拓扑配准的甲骨文字形识别方法,计算机与数字工程 年第 期,第 页。吕肖庆、李沫楠、蔡凯伟、王晓、唐英敏:一种基于图形识别的甲骨文分类方法,北京信息科技大学学报(自然科学版)年第
5、期,第 页。高峰、吴琴霞、刘永革、熊晶:基于语义构件的甲骨文模糊字形的识别方法,科学技术与工程 年第 期,第 ,页。史小松:基于支持向量机的甲骨文字结构分析研究,硕士学位论文,华东师范大学,年。孙莹莹:基于混合核 的古汉字图像识别,硕士学位论文,安徽大学,年。刘永革、刘国英:基于的甲骨文字识别,安阳师范学院学报 年第期,第 页。技术是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。等()、王长虎()、微软亚洲研究院()、刘芳等()、门艺等()、林小渝等()尝试深度学习(核心算法是卷积神经网络)技术,辅以甲骨文识别技术,建立甲
6、骨文文字数据库。甲骨学与 的深度结合具有重要学术意义,尤其是甲骨学者们带有强烈的学术课题意识。近几年,“字鉴书法识别”、“商周金文智能镜”等重点将“认字”的研究成果公布于网络,供更多人使用,河南大学主研并发布了缀多多,首次在真正意义上实现了人工智能批量缀合甲骨。随着研究的不断深入,前人关于甲骨文识别研究在识别精度、识别时间和抗干扰能力等方面仍有一定的发展空间。首先,以往研究往往采用分类的办法,如字形或结构。不过,由于甲骨文字形线条极其复杂,不存在现代汉字一般意义上的笔画概念,人类在识别甲骨文上往往是整体输入方式,而非一个个笔画。因此,采用类似方法的分类率并不高,尚无法真正意义上为甲骨文进行机器
7、识别分类。不过,甲骨文虽然是成熟的文字系统,但毕竟处于汉字早期形式,不仅异体字众多,而且低频字高度集中,仍有很多甲骨文字属于未考释字。其次,以往研究主要适用于模式识别领域,在解决图画特征明显、结构不清晰的甲骨文字上还有困难,另外,该方法对甲骨文字的旋转、缩放、平移、遮挡等识别率不高,算法处理尚有空间,同时在存储和计算时耗费大量的机器内存和运算时间,运行效率较低。再次,已有的识别方法是通过去噪、二值化、骨架提取等一系列图像处理的方法,提取出甲骨文的字形框架,然后根据其拓扑结构特征在已有的数据里进行搜索匹配。甲骨文拓片表面可能有许多裂缝、划痕等噪声点,由于这一特殊性,数字图像处理的方法表现出了一定
8、的局限性。处理后的图片依然有大量的噪声点、划线保留下来,这严重破坏了拓扑结构特征,进而影响匹配准确度。最后,以往研究试图采用大数据,但是简单地应用神经网络无法在甲骨文识别上取得较好的效果,模型的过拟合严重,无法泛化。数据集中分类数目过多,且在分类的类目下面仍然存在大量的异体字,能够为网络提供特征提取的样本过少。因此,目前甲骨文识别研究尚无法完全提取甲骨文字的主要特征,尚未得出完全符合甲骨文字实际情况的算法,且使用范围受到一定的限制。随着 领域的崛起,基于机器视觉的图像识别技术再一次成为研究热点,关于甲骨文识别的定义也有待于进一步确定。我们认为,甲骨文识别技术可以定义为一种视觉识别技术,它是基于
9、甲骨文的特征信息进行搜索定位的一种视觉识别技术。该技术的智能性体现在基于图像搜索而非基于文本搜索,因此不需过多依赖用户的甲骨文已有知识。同时,在识别时不受用户拍摄时可能产生的个体行为或客观外在因素的影响,如甲骨文拓片的旋转、缩放、平移(:、),或用户视点即图像仿射投影变换(),或光照影响(),或杂物场景()与噪声,甚至于甲骨文字本身被部分遮挡()等。甲骨文识别技术应该具有识别精度高、识别时间短和抗干扰能力强的特点。正如刘志基()提出“将识别对象定位为可以经二手处理、少量选择的古文字,而不是原貌保中国文字研究第三十七辑 ,“”;,;(),:,“”犐犈犈犈犜狉 犪 狀 狊 犪 犮 狋 犻 狅 狀
10、狊狅 狀犐犿犪 犵 犲犘 狉 狅 犮 犲 狊 狊 犻 狀 犵,():微软亚洲研究院:。刘芳、李华飙、马晋、闫升、金沛然:基于 的甲骨文拓片的自动检测与识别研究,数据分析与知识发现 年第 期,第 页。门艺、张重生:基于人工智能的甲骨文识别技术与字形数据库构建,中国文字研究第三十三辑,华东师范大学出版社,年,第 页。林小渝、陈善雄、高未泽、莫伯峰、焦清局:基于深度学习的甲骨文偏旁与合体字的识别研究,南京师大学报(自然科学版)年第期,第 页。刘志基:简析古文字识别研究的几个认识误区,语言研究 年第期,第 页。真的古文字;将识别任务定位为仅仅识别出字形对应的今日简化字,而不是识别对象的各种信息的迄今学
11、界认知;将识别的基本思路定位为通过少量对象的特征归纳去匹配全部对象,而不是识别对象的逐个唯一身份认定。”本文采用的特征不变()算法,在真实的甲骨文拓片上,而非二手处理或少量选择的材料,侦测与描述甲骨原始拓片中的局部性特征,在原始拓片上寻找极值点,并提取出其位置、尺度、旋转不变数,对甲骨文单字逐一进行分割与识别。本文以殷墟小屯村中村南甲骨(简称村中南)为研究对象,该书著录中国社会科学院考古研究所安阳工作队历年来在小屯村中、村南发掘发现的甲骨文 片,编为 号(片分正反);收入小屯村北 片,花园庄东地片,苗圃北地片,大司空村片。全书共计甲骨 片。选择村中南出于以下三点考虑:资料整饬,考古学属性完整,
12、地层情况清晰。拓片总量适中,对数据采样和实验结果具有可推广性。该书编著体例科学完备,采取拓本、摹本、照片、释文四位一体的方式,科学丰富且真实准确。我们首先把村中南甲骨按照单字进行逐一切分,同时建立村中南甲骨文数据库,使得每个甲骨文单字有一个唯一的编码。在此基础上,我们进一步为所有村中南甲骨文图片建立特征点的数据库,并利用 (以下简称为 )算法进行匹配识别,对接后台村中南甲骨文数据库。通过设置合适的门限值,识别准确率能够接近。经实验,用户可以通过手机拍摄或扫描村中南甲骨文字,通过该识别技术,在线识别该字,并且通过数据库选项进一步得到该甲骨文字的相关信息。二特征不变算法原理在图像处理中引入一个尺度
13、的概念,它可以模拟人在距离目标由近到远的过程。目标在视网膜当中形成图像的过程,尺度越大,表示图像的概貌,只能看清楚物体的轮廓,简单地说就是看起来越模糊,相当于我们观察远处的物体;尺度越小,表示图像的细节,相当于我们观察近处的物体。如果需要识别出包含不同尺寸的同一物体的两幅图像,随着物体在图像中大小发生变化,属于该物体的局部区域的大小也会发生变化。本文采用的两种尺度不变特征变换算法就可以解决这一问题。(一)特征不变算法原理特征不变算法即尺度不变特征变换,是一种计算机视觉的特征提取算法,用来侦测与描述图像中的局部性特征。它在尺度空间中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由大卫罗威(
14、)在 年所发表,年完善总结。(二)犛 犐 犉犜特征提取步骤尺度空间的极值检测:尺度空间指一个尺度可变的二维高斯函数犌(狓,狔,)与原图像犐(狓,狔)卷积(即高斯模糊)后形成的空间,记作犔(狓,狔,),也就是犔(狓,狔,)犌(狓,狔,)犐(狓,狔)()其中,尺度可变高斯函数犌(狓,狔,)犲狓狔,(狓,狔)是空间坐标,是尺度坐标。的大陈婷珠刘志基:基于特征点匹配的甲骨文识别殷墟小屯村中村南甲骨,中国社会科学院考古研究所编,云南人民出版社,年月。,“犗 犫 犼 犲 犮 狋狉 犲 犮 狅 犵 狀 犻 狋 犻 狅 狀犳 狉 狅犿犾 狅 犮 犪 犾狊 犮 犪 犾 犲 犻 狀 狏 犪 狉 犻 犪 狀 狋犳
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 匹配 甲骨文 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。