智能时代多语种信息处理技术的创新与发展.docx
《智能时代多语种信息处理技术的创新与发展.docx》由会员分享,可在线阅读,更多相关《智能时代多语种信息处理技术的创新与发展.docx(12页珍藏版)》请在咨信网上搜索。
1、 智能时代多语种信息处理技术的创新与发展 魏雪峰 王强 曾海军 沈阳摘 要 吾守尔斯拉木院士阐述了多语种信息处理技术的发展现状,围绕新兴技术与多语种智能信息处理的结合对教育的影响、民族语言信息化在“一带一路”建设中的特色和优势,以及多语种智能信息处理的产学研一体化发展等方面提出了诸多有价值的建议。吾守尔院士团队开拓了计算机民文信息处理新领域,突破和解决了民文信息处理领域的许多关键理论及核心技术;分析了大数据和人工智能技术在多语种智能信息处理中的应用,研发了智能双语教学系统,有效解决了民族教育发展不均衡、优质教育资源不能充分利用的问题;结合“一带一路”倡议,建设教育信息化“丝绸之路”,针对不同沿
2、线国家共建需要开展“多语种+”跨文化教育;分析了人工智能与多语种智能信息化处理相融合的交叉学科对学科建设和人才培养的影响。关键词 智能时代; 人工智能; 多语种; 信息处理中图分类号 G434 文献标志码 A作者简介 魏雪峰(1981),男,山东莱芜人。教授,博士,主要从事人工智能与教育研究。E-mail:xuefengwei99。沈阳为通讯作者,E-mail:shenyang。一、多语种信息处理技术的溯源及发展现状访谈者:吾守尔院士,您好!非常感谢您拨冗接受我们的采访。您是维吾尔族唯一的院士,研发出20多种多语种信息处理系统软件和工具,开拓了计算机民文信息处理新领域,突破和解决了民文信息处理
3、领域的许多关键理论及核心技术。作为多语种信息化领域的著名专家、带头人,请您给大家介绍一下多语种信息处理的内涵和发展历程。吾守尔斯拉木:20世纪80年代初,计算机、互联网等现代信息技术的出现给世界科技和产业等各领域带来巨大的冲击和变革,信息化成为历史的发展趋势并逐渐渗透、改变人们的生活和发展方式。当时的计算机刚引入国内,操作系统为英文,如何让计算机能识别并处理少数民族语言文字,这在当时完全是一个不可企及的梦,要知道操作系统从英文到中文的本地化,汇聚了国内学术界大批优秀人才和工业界上百个企业的力量才实现。通过分析解剖Dos的输入、输出及数百个功能调用模块,在IBM PC/XT电脑上成功研发完成基于
4、Dos2.0操作系统的多语种综合信息处理系统,实现了维哈柯文与汉语、英语完全兼容的混合处理功能,达到同类汉语操作系统的同等水平1。1986年4月,我们团队开发的多语种综合信息系统软件在新疆人大会议上应用,实现了会议管理、会议资料和参会代表资料的维哈柯文录入、打印、排版。这一成果轰动了新疆乃至中西亚各界。通过不断研发Dos3.0至Dos6.2系列操作系统及应用软件,针对维哈柯文独有的自动选型、双向混合处理等特点,研发出不同版本的维哈柯文输入法、维汉声图文一体化系统。针对维哈柯文独有的字符连笔、不等宽、右向输入等文字特点,创造出维哈柯文变宽字符选形插入连接、连笔字左右字符智能判断、智能组合、光标不
5、等宽管理等特殊技术和机制2,使方块字处理技术发展成为变宽连笔字处理技术,基于上述技术基础实现Windows3.1/95/98/2000系列及其他许多应用软件、多媒体软件、网络应用软件的维哈柯文版本,并在全新疆及部分中西亚国家推广应用,其技术达到国际先进水平,属国内首创。20世纪90年代初,通过剖析Windows系列体系结构及内核机制,提出并创建了外挂式嵌入方法,攻克了维哈柯文的混合智能输入编辑、嵌入式在线处理、分音节、分栏混排等多个关键技术3,解决了维哈柯文信息的网络传送接收等国际难题3。彻底淘汰了原来办公用的维哈柯文机械打字机和蜡纸刻录方式,促使其进入电与光的时代,推动维哈柯文铅印排版革新为
6、电子印刷排版,为维哈柯文信息处理进入电子化、自动化、网络化、多媒体化、智能化打下良好基础。通过剖析Linux系列系统及嵌入式系统内核结构、国际化机制,创建了维哈柯文信息混合处理、输入编辑、存取检索、发送接收等技术及国际化、本地化机制,研发出具有自主知识产权的Linux系列维哈柯文操作系统桌面版、服务器版及应用软件,开发了多语种智能输入联想式3G、几种CDMA及飞利浦手机,为多语种国产软件奠定了基础3。创立了维哈柯文的附加管道嵌入式字库技术,在线显示处理和IME技术,解决了维哈柯声、图、文混合文件的传输和接收展示问题,实现不安装民文软件也能正常浏览网站信息,解决了维哈柯文信息处理与交换面向全国、
7、面向国际的难题,为新疆信息化事业保驾护航、为新疆信息化事业的多语种化、多媒体化、网络化提供技术支撑。近年来,带领团队对自然语言理解、智能语音交互、机器翻译、视频图文处理等方面展开研究,针对典型反恐场景,结合可实际运行的示范应用场景,突破现有地区安全精细化程度不足的重大应用问题,构建了面向公共安全的多语言舆情监测、预警系统,实现了苗头性涉政涉恐事件提前发现、提前预警等功能,为实现地区安全能力升级、社会稳定和长治久安提供关键理论与技术支撑。访谈者:您和研究团队经过长期攻关,将维吾尔文、哈萨克文、柯尔克孜文嵌入计算机系统,方便使用民族语言对计算机进行操作,这在技术方面遇到了哪些挑战?吾守尔斯拉木:维
8、吾尔文、哈萨克文、柯尔克孜文(以下简称维哈柯文)属于阿尔泰语系,其书写方式为自右向左,具有字符变形、连笔、不等宽等与汉英文完全不同的特点4,另外当时前后端使用的字库相互不兼容,会导致“前后端不一致”的问题,这些问题深深困扰着照排输出用户。20世纪90年代,针对上述问题,自主研发出民文信息处理系统使用的点阵字体和矢量字体,在微软和Adobe公司联合推出的Trutype字体基础上编制出1616、168全角、半角点阵维吾尔字库和矢量字库,制定了符合国家G18030标准的信息交换维、哈、柯文信息技术三项国家标准,后来又研制了4种与此对应的OpenType字体,使OpenType字体技术首次在新疆使用,
9、提高了维哈柯文在新闻、图书、报刊电子印刷等方面的印刷质量和系统健壮性,为系统开发人员带来方便。1987年,最早研发的维哈柯文信息文输入法1发展成自动选型输入技术,该技术仅仅把33个维文字母布置到键盘上,让计算机自动选型(首连体、中连体、尾连体、独立体),大大提高了维哈柯文的输入效率5。同时制定了键盘布局的国家标准,提出创立了文字双向输入及混合编辑技术、光标不等宽控制技术、多语言混排技术,设计出相关词库,后来又研制出维哈柯智能输入法、语音输入法等技术,为维哈柯操作系统、办公套件的智能化、產业化应用打下坚实基础。为了推进维、哈、柯文信息处理的标准化、规范化,把原来的维文56个基本字符、哈文50个字
10、符、柯文49个基本字符输入键盘布局技术,发展成独立字母自动选型输入键盘布局技术,制定了维哈柯信息技术键盘布局国家标准。这些标准为多种文字共用计算机带来极大的方便,意义非常大6。二、民族语言信息化:夯实民族教育发展之基访谈者:我国政府始终高度重视双语教育,国务院印发的国务院关于加快发展民族教育的决定规定: “科学稳妥推行双语教育”的方针。在教学方面,您合作研发了智能双语教学系统,您能介绍一下智能双语系统在教学中的应用以及效果吗?吾守尔斯拉木:新疆是一个多民族、多语言的地区,尚未掌握或根本不懂汉语的少数民族占大多数,特别是熟练掌握汉语的双语人口比例很低,这就导致教育资源匮乏的新疆更加落后。汉语作为
11、国家通用语言,加快推广普及工作,对于偏远地区的教育均衡、脱贫攻坚更是至关重要。掌握好汉语对于加强各民族间的交流沟通,增进民族团结,维护祖国统一,实现新疆的社会稳定和长治久安具有重要而深远的意义。发挥“互联网+”技术的作用,利用人工智能、多语种智能互译等技术手段研制“能听会说”的教学设备、触手可及的教学资源,可以有效解决当前教育发展不均衡、优质教育资源不能充分利用的问题。通过“云端”的点对点教学模式,可以让每位学习者拥有一位AI老师实时帮助学习者纠正发音、高效学习,从而促进多样化、个性化学习,让学生随时随地学习,让教学变得更加专注和深入。智能远程教育打破了时空限制,支持远程多地互动教学,可以为少
12、数民族和偏远地区的孩子构建班级标准的语言环境,实现优质教学资源共享,助力国家通用语言文字工作和推动脱贫攻坚迈上全新的台阶。访谈者:您的研究团队开发了智能语音识别系统,能识别少数民族语言文字、听“懂”少数民族语言,也能根据文字读出文章内容。目前,智能语音识别系统已在教学中应用,您觉得对我国少数民族教育事业的发展会产生什么影响?吾守尔斯拉木:实现语言互通最便捷的方式就是利用语音识别、语音合成、机器翻译手段实现智能语音交互,并在教育、文化、旅游、通信、安全等领域推广应用。为此,我们研究了多语言的词法、句法、语义、篇章、情感、蕴含、信息抽取等语言分析方法,研究复杂形态语言和长距离语言模型、声学模型、跨
13、语言文法推导方法等,重点突破同语系和跨语系语言机器翻译方法和训练模型,开展维汉等语音识别、语音合成、机器翻译研究开发7,研发出维汉双向语音翻译系统,目前,我们维汉互译已经达到实用化水平,部分语音识别准确率已达到95%以上。在此基础上,通过互联网把语音云、智能识别等技术应用到少数民族的远程教育、双语教育中。这些可以扩大优质资源覆盖面,助力优质教育资源输血给教育资源欠缺地区,对于促进教育发展均衡,改变偏远地区落后教育现状起了重大作用。另外,随着“一带一路”建设的深入推进,中央提出加快培养拔尖创新人才、非通用语种人才、国际组织人才、国别和区域研究人才等,在新形势下,“多语种+”的研究可以助力打破学科
14、壁垒和专业藩篱,培养复合型人才,提高新疆少数民族学生学业成就、知识水平,开阔他们的视野,培养经济社会发展所需的民汉兼通性人才,加强各民族文化交流、交融,让他们深入理解中华民族优秀传统文化,增强国家和民族认同感,推动民族团结进步,铸牢中华民族共同体意识8。三、多语种智能信息处理技术:拓宽国际教育信息化的“丝绸之路”访谈者:在信息化发展历程中,大数据与人工智能等技术将被广泛应用于教育领域。您带领团队致力于研究基于云平台的多语种大数据处理、智能分析技术,从跨民族、跨文化教育的视角来看,将催生怎样的技术发展新趋势?吾守尔斯拉木:利用现代化技术手段,建立大规模、跨语言、多模态的多媒体语言资源工作对于开展
15、语言研究进而突破同语系、跨语言互通意义深远,结合教育场景来看,其深远意义在于夯实跨文化、跨民族教育的基础。我们团队的维哈柯语料库平台9,主要包含大型平行语料库、词性标注语料库、语法信息词典、语言形态分析库、词频统计库、语义知识库等,建设了大规模、多层次综合型多语言知识库系统。重点研究多种自然语言智能理解技术、同语系和跨语系自然语言机器翻译方法和模型,研究阿尔泰语系、印欧语系等中西亚语系的词法、句法、语义、篇章、情感、蕴含、信息抽取等语言分析方法,突破了同语系相似语言的互译对齐和跨语系的序列迁移学习和深度学习等技术,基于黏着语的形态丰富与黏着性特点、同语言多文字等问题,开展了编码转换、语种识别、
16、文字校对、词干提取、词类标注、命名实体识别与关系抽取、句法分析、框架语义构建与语义角色标注等方面的研究10,研发了维哈柯文字校对中间件、维哈编码转换与语种识别系统、维语句法分析软件、维文命名实体识别中间件、维语框架语义平台以及维、哈词法分析软件等10余项多语言语料智能处理与管理系统,填补了我国面向黏着语的自然语言处理技术的空白,为进一步研究中西亚语言的自然语言处理奠定基础。我认为,随着“一带一路”建设深入推进,需要进一步整合语种资源、数据资源,利用云计算、人工智能、大数据等技术深入开展智能语音交互、多语言翻译、视频图像处理、人脸识别、智慧教育等方面的研究,重点开发一批高度本地化、个性化及产业化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 时代 语种 信息处理 技术 创新 发展
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。