中国少数民族语言网络信息资源的保存标准体系研究应用.doc
《中国少数民族语言网络信息资源的保存标准体系研究应用.doc》由会员分享,可在线阅读,更多相关《中国少数民族语言网络信息资源的保存标准体系研究应用.doc(17页珍藏版)》请在咨信网上搜索。
1、中国少数民族语言网络信息资源保留体系研究赵生辉-9-21 10:47:36起源:情报资料工作02期【英文标题】Preservation System Research of Internet Information Resources in Chinas Ethnic Minority Languages【作者介绍】赵生辉,男,1977年生,西藏民族学院管理学院讲师,武汉大学信息管理学院档案和政务信息学系博士硕士,咸阳712082【内容提要】 文章在介绍少数民族语言网络信息资源发展概况基础上,分析了少数民族语言网络信息资源长久保留内涵、需求等问题。基于档案化管理、多元一体和信息共享理念,设计了
2、少数民族语言网络信息资源保留体系整体架构。Based on the introduction of network information resource in minority languages of China, this paper analyzes the connotation, requirement of long-term preservation for these resource. According on the idea of archiving management, diversity and integrity as well as information
3、sharing, the author designs the whole architecture of preservation system for network information resource in minority languages of China. 【关 键 词】少数民族语言/网络信息资源/长久保留/架构设计minority languages of China/network information resource/long-term preservation/architecture design中国是统一多民族国家,多民族、多语言、多文字是国情基础特征。互联
4、网当中,除了以国家通用汉语和汉字作为信息统计语言之外,中国民族地域社会实践和民族事务管理过程中建立各类语种各异、类型丰富、功效多样少数民族语言网站、网页和其它网络资源也是中国网络信息资源关键组成部分,其长久保留对少数民族文化保护、国家语言文字政策实践证据保留、少数民族语言语料积累和信息资源大范围利用等方面含相关键意义。1、少数民族语言网络信息资源长久保留概述少数民族语言网络信息资源是指主体内容使用中国境内各少数民族历史上曾经通用或现在正在使用、表现本民族传统文化特征文字或语音符号作为信息统计方法网站、网页或其它网络资源,现在关键关注是由蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文、彝文、壮文等使用
5、人口较多、影响面较大语种文字所建立网站或网页。1.1少数民族语言网络信息资源发展概况1月6日,中国互联网上第一个少数民族文字网站“同元藏文网站”正式开通,标志着中国少数民族语言网络信息服务开端。以后,民族地域和包含民族事务部分机构相继在互联网上建立了少数民族文字网站或网页。内蒙古自治区建成中国蒙文知识产权服务平台,提供专利专栏、商标专栏、版权专栏、商业秘密、知识产权政策法规、知识产权保护、文件检索等约15万字蒙文信息1。据统计,从20世纪90年代末到本世纪初中国建立蒙古文网站有数百个2。截至,中国藏区已经有近百种藏文报纸、刊物及网站,成为宣传党政策、传输藏区社会发展最新动态、传输中国外信息关键
6、媒介3。截至第一季度,新疆维吾尔自治区建立较为稳定少数民族文字网站500余个,其中维吾尔文网站400余个、哈萨克文网站30余个4。,权威媒体“人民网”推出维吾尔文、哈萨克文、彝文、壮文四种少数民族文字网页和藏文、维文两种手机报,实现了蒙文、藏文、维吾尔文、哈萨克文、朝鲜文、彝文、壮文七种少数民族文字网页全部上线,成为全国互联网站中首家实现党代会、人代会七种关键少数民族语言全覆盖网站5。1.2少数民族语言网络信息资源长久保留紧迫性从20世纪末期开始,美国、澳大利亚、丹麦、瑞典、荷兰等国家图书馆和档案馆就已经意识到网络信息资源保留关键性并相继开展了部分网络信息保留试验项目,中国也已经开启了多个汉字
7、网络信息保留研究项目,不过对于少数民族语言网络信息保留问题较少包含。少数民族语言网站和网页发展使得中国网络信息资源类型愈加丰富,也是中国政府保护少数民族语言文字、促进少数民族文化在信息时代传承和发扬政策表现。然而,因为少数民族语言文字信息处理技术相对非成熟性和少数民族语言网站用户群体有限性,少数民族语言网络信息资源生命周期却很短暂。依据美国数字信息基础架构和保留项目(NDIIPP)研究,网络信息资源平均生命周期仅有44天6。相比之下,少数民族语言网页生命周期就愈加短暂,受到支撑技术影响,网页出现乱码、断链等故障概率远远高于通常性网页。假如任由这种情况继续下去,大量少数民族语言网络信息资源在互联
8、网上“昙花一现”以后就再难以找到,这对少数民族文化保护无疑是巨大损失,同时可能造成这一领域社会记忆“断层”现象。网络信息资源含有数字化特征,消失以后就极难再找回来,依据中国少数民族语言网络信息资源特点,深入分析其长久保留功效需求,明确少数民族语言网络信息资源保留责任体系,建立适应中国民族地域实际少数民族语言网络信息资源采集、保留和利用体系是目前迫切需要处理问题。1.3少数民族语言网络信息资源长久保留概念和内涵少数民族语言网络信息资源总量相对较少,用户数量也不多,在短期内其文化价值和档案价值要远远高于商业价值,私人组织通常不愿意投资这类项目,需要政府机构负担其关键责任,经过财政手段推进项目标运行
9、和建设。少数民族语言网络信息资源长久保留是指国家为了保护表现为网络信息资源少数民族文化,保留国家帮助和支持少数民族文字信息处理工作证据,积累少数民族语言语料资源,开发和利用深层知识,建立整体性技术架构和管理体系,搜集和保留各类少数民族语言网络信息资源,为全社会提供综合性信息服务过程。上述概念内涵关键表现在以下方面:(1)战略性。少数民族语言网络信息资源保留不仅仅是一个技术行为,而是包含了政治、文化原因在内复杂性问题,必需从战略层面上进行计划和管理;(2)整体性。少数民族语言语种众多,不过少数民族语言网络信息资源保留关键是全部语种少数民族语言网络信息资源共同特征和共性需求,而不拘泥于某一语种网络
10、信息资源了解问题;(3)基础性。少数民族语言网络信息长久保留意在为同一类型网络信息资源提供基础性技术架构和管理方案,不能因为某一语种网络信息资源数量较少就不考虑其保留问题。2、少数民族语言网络信息资源长久保留需求分析少数民族语言网站或网页是网络信息资源特殊类型,语言差异性使其长久保留需求在通常性信息资源保留需求基础上,展现出部分和汉语信息资源不一样特征。2.1证据属性保障需求互联网中绝大多数汉语网站或网页是作为信息载体出现,网民访问这些网站关键关心是信息内容。少数民族语言网络信息资源除了含有上述特征以外,还含有一定证据属性。比如,互联网上各个语种少数民族语言网站繁荣本身就表现了国家保护少数民族
11、文化、保护少数民族语言文字使用权政治态度。这些信息资源搜集保留不仅仅是保留信息内容,还应该尽可能多地保留这些信息资源产生背景信息、原始技术环境信息和对其进行更新和管理相关信息。所以,从证据属性而言,少数民族语言网络信息资源长久保留必需考虑到这些信息资源真实性保障问题,尽可能多地搜集和保留其产生和管理过程信息,以证实这些信息资源确实是在互联网上存在过原始信息,而不是事后为了特定需要对其做了变更,也不是事后人为有意制作虚假信息。2.2长久可读性保障需求少数民族语言网络信息资源可读性和相关支撑技术发展紧密相关。汉字信息处理技术被成功攻克以后,在巨大应用需求推进下,和汉字信息处理技术相关各类字处理软件
12、、各类应用系统得到了快速发展,汉字信息处理技术已经完全成熟,极少因为编码或技术原因造成信息无法读取情况。少数民族语言网络信息资源保留则愈加复杂,国家曾经公布过关键少数民族语言、基于单一语种编码平面编码方案,多语种环境下少数民族语言文字编码方案到底采取国家标准GB18030还是ISO10646尚无定论,假如在信息资源保留同时没有做好编码方案等信息保留,极有可能出现乱码、无法读取等问题。对于部分需要特定应用软件支持深网信息资源,假如只保留了页面框架而没有保留读取软件相关信息,也有可能造成不知道读取软件类型或即使知道读取软件名称而这类软件已经被淘汰无法找到,从而造成信息无法读取。假如信息无法读取,即
13、使其内容很有价值,其最终效果也等于零,以前为保留信息所付出各类成本就毫无意义。所以,少数民族语言网络信息资源可读性保障是长久保留必需处理关键问题。2.3可了解性支持需求语言是人类进行沟通和交流基础工具,中国语言文字丰富性在造就文化多样性同时,也给掌握不一样语种人群之间沟通和交流带来很多不便。因为语言文字差异性,对于不掌握特定语种人而言,即使所看到信息内容对其很关键也无法了解和利用。为了能够打破语言障碍,进行跨语种沟通和交流,少数民族语言网络信息资源长久保留必需考虑到大范围用户可了解性支持问题,尽可能让使用不一样语种人群全部可能了解到信息内容。少数民族语言网络信息资源可了解性支持关键包含双语著录
14、问题、跨语言检索、跨语种机器翻译等内容。所谓双语著录,就是在少数民族语言网络信息资源保留时候尽可能使用对应语种文字和国家通用语言文字两种文字同时进行元数据著录,这么就能够使掌握国家通用语言人口较为方便地了解信息关键内容,同时以国家通用语言文字为中介能够进行跨语种信息检索,确保同一专题信息资源不管采取哪种少数民族语言全部能够被检索到。在服务大范围用户时,跨语种机器翻译系统能够使用户经过低精度机器翻译了解对应信息资源大致内容,很关键信息能够借助人工翻译得到高精度翻译结果。2.4语料(Corpus)积累需求要实现少数民族语言网络信息资源跨语种机器翻译,建立各个语种之间双语对齐语料库是基础前提。同时,
15、语料库建设也是进行少数民族语言学研究关键工具,对于探索少数民族语言现象基础规律含相关键价值。语料库建设必需有数字化语言文本作为基础加工处理对象,假如没有现存数字化版本,还要人工输入或对纸质文件数字化以后进行文字识别,加工处理工作量很大。汉语网络信息资源极其丰富,汉语语料库建设可供选择资源很多,关键依据需求进行筛选、著录和保留。相对于汉语信息资源,少数民族语言信息资源数量较少,现存少数民族语言历史文件在没有数字化加工情况下不能被语料库所使用。所以,互联网上现存少数民族语言网络信息资源就成为少数民族语料关键起源。尤其是部分政府机构建立少数民族语言网络往往同时提供相同内容国家通用语言(汉语)版本,这
16、对于建立少数民族语言和国家通用语言之间双语对齐语料库而言是很难得资源。所以,少数民族语言网络信息资源保留过程同时也是少数民族语言语料积累过程,除了满足本身机器翻译需求以外,对语言学研究也含相关键意义。2.5专业化管理需求专业化管理是提升管理系统整体效率、保障工作质量基础标准。在少数民族语言网络信息资源采集和保留时候要对其进行高质量元数据双语著录,必需由同时掌握少数民族语言和国家通用语言双语人才来完成。要进行可读性保障,该语种密集使用地域往往也是双语人才最为密集、相关语种信息技术产品最为齐全地域,比如掌握蒙古语科技人才和蒙古语信息处理软件数量一定最集中在内蒙古自治区,所以,不管少数民族语言网络信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 少数民族 语言 网络 信息资源 保存 标准 体系 研究 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。