推广工程数字资源联合建设地方文献数字化加工规则(2015).doc
《推广工程数字资源联合建设地方文献数字化加工规则(2015).doc》由会员分享,可在线阅读,更多相关《推广工程数字资源联合建设地方文献数字化加工规则(2015).doc(31页珍藏版)》请在咨信网上搜索。
1、推广工程数字资源联合建设地方文献数字化加工规则(2015)1术语和定义1.1双层PDF将标准资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,直接生成的可检索的PDF文件。该文件是双层的,上层是原始图像,下层是识别结果。1。2单版TXT文件由图像数据一一对应进行文本转换得到的TXT文件.一个单版TXT文件对应一个图像文件.1。3合并版TXT文件将单版TXT文件按顺序合并得到一册书的完整TXT文件。2图像数字化和命名规则2。1图像数字标准2.1。1扫描标准(1) 黑白页和灰度页用灰度方式扫描色彩位深:8 位 分辨率:300 dpi;小于5号字体用400 dpi档案典藏级格式:TIFF 不压缩
2、(2) 彩色页用彩色方式扫描色彩位深:24 位 分辨率:300 dpi;小于5号字体用400 dpi档案典藏级格式:TIFF 不压缩2.1.2拍照标准像素:不小于300万档案典藏级格式:TIFF 不压缩2。2数字化要求数字化环境注意防护光源,避免透光或反射光的影响.数字化后的图像清晰,文件页码连续,没有重页、缺页、错页等情况(原书缺页、错页除外).补扫的图像要与同册图像文件的大小一致,颜色接近。(1) 以原文献的上边沿为基准,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。(2) 数字图像放大至实际尺寸100,图像不失真。(3) 数字图像文件与文献原件颜色不一致,须先进行设备色彩校正
3、,再重新进行扫描或拍照工作。2.3 数字图像处理要求数字图像处理是在未改变原扫描图像的色彩、分辨率、格式、压缩等情况下进行。数字图像文件处理内容及要求如下:(1) 纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯。(2) 图像剪裁。图像保留到文献的外边缘。(3) 不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理.2。4数字图像检查要求根据本项目要求,数字化单位检查各级别图像数据的质量,建议扫描完成后立即进行质检。数据检查的内容和要求如下:(1) 图像文件(各种格式)放大到1:1状态,逐页检查。检查文件
4、是否有透光、透字、彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像内容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描(拍照).(2) 发现文件漏扫时,应及时补扫并正确插入图像。(3) 拼接图像接缝处无错位、无缝吻合,不应出现白边和内容缺失,没有明显的歪斜.(4) 检查是否符合扫描(拍照)规格要求和技术参数。(5) 所有文件保存位置正确,可以有效打开和显示。(6) 图像名称必需正确,同一数据流水号不得有跳号情况,按顺序排列命名,图像文件的排列顺序应与原文献一致.2.5命名规则2。5。1加工编号(book_id)文献数字化加工过程中一册文献的唯一标识,它由11位数字和1
5、位下划线组成。文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)、下划线(1位)、单位内部流水号(3位)。本规则针对图书的文献基本资料类型为0,文献语种为1,加工年为公元年后两位数字(15年项目统一为15),机构代码见推广工程数字资源联合建设机构代码,单位内部流水号由各单位自行分配,从1开始,不足3位以0补齐。例:01150101_0012。5。2图像文件名(1) 前封(含封一、封二)扫描文件名为Axxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(2) 前附页目录页之前的前附页扫描文件名为Bxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序
6、.目录页之后的前附页扫描文件名为Dxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(3) 目录页扫描文件名为Cxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(4) 正文有页码的正文扫描文件名为Txxxxx_00,其中xxxxx为5位数字,与原书页号一致,按原书顺序依次排序。正文中插页扫描文件名为Txxxxx_yy,其中xxxxx为5位数字,表示插页的前一页顺序号,yy为数字,表示插页,并按原书顺序依次排序。(5) 后附页扫描文件名为Yxxxxx_00,其中 xxxxx为5位数字,按原书顺序依次排序.(6) 后封(含封三、封四)扫描文件名为Zxxxxx_00,其
7、中xxxxx为5位数字,按原书顺序依次排序。3双层PDF标准3.1双层PDF输出将处理完成后的TIFF图像进行OCR逐页识别校对.采用图在文上的模式进行双层PDF输出,包括单版PDF和合并版PDF两种,单版PDF命名与对应TIFF文件保持一致,合并版的命名同该文献的加工编号。PDF文件根据图像尺寸、颜色、数据存储量、按JPEG2000有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。3.2 PDF目录提取将输出后的双层PDF进行目录标签提取,提取级别上限为三级。提取过程中应按照原书页面顺序进行提取,不可出现章节丢失或级别划分错误等情况。3.3 PDF文件质
8、量要求(1) 双层PDF数据需完整,避免缺页、重页、页码顺序颠倒等问题。(2) 双层PDF文件的图像层和文字层的文字对位准确,反显区域与文字区域相差1毫米以内.(3) 打开一本电子文献阅览并对文字放大时,保证在放大到百分之二百的时候,字迹清晰,笔画连续,无断裂、缺块的现象。(4) 合并版PDF必须制作书签。书签是电子书的目录,内容和纸质书的目录一致。书签的功能是用户点击书签的某一章节,电子书会自动显示为相应页.打开PDF文件时,自动显示书签,书签只展开到第一级目录.(5) 双层PDF错误率不超过0。3。4图像文本转换要求4。1单版TXT和合并版TXT(1) 对图像数据逐页进行版式分析,并对版式
9、分析结果进行质检.(2) 对图像数据逐页进行文本转换,生成单版TXT文件,文件名与对应TIFF文件名一致。(3) 对单版TXT文件进行校对.(4) 经验收合格的单版TXT文件需合并生成合并版TXT文件,合并版文件的命名同加工编号.(5) 图像中的注释、下划线等特殊情况需进行专门处理,表格、插图、空白页等需进行描述,描述内容用 = =进行标识(= = 均用半角标识),并保存未转换文件对应的图像文件.4。2 TXT文件质量要求(1) 文本数据应如实反映原书内容、版面等所有原书相关信息.(2) 文本数据保存格式为TXT纯文本格式。(3) 文件命名无误,且在数量上与TIFF图像一致.(4) 文本数据内
10、容与TIFF图像内容吻合,不存在乱码、转换错误等问题。(5) 文本数据应如实反映原文的章节、段落,不应出现与文章不符的字符、段落、硬回车、空格等。(6) 单版TXT文件与合并版TXT文件内容完全一致。(7) 文本转换数据的文字、符号,其错误率不超过0。3。4.3特殊情况处理办法4。3.1注释注释分注释类和解说类,仅对有意义注释进行转换,无意义注释不做转换。(1) 注释出现在当页,且明确标出与正文对应位置的将注释内容填入括号“()内,插回到原文注释所对应的位置。(2) 注释在一篇文章或章节结尾,以参考或引用等专项标题单独列出的按原文版式转换,不插回原文.(3) 解说类注释出现在正文文字段落中间或
11、左右两侧,在正文中无对应位置的将注释内容放在其出现的那段文字后,另起一段,段首标注“注释:。(4) 解说类注释出现在黑框或深色底框内,且在正文文字段落中间的将注释内容放在【】内,原位置转换.4。3。2空白页为保持内容完整性和页面连贯性,正文中空白页需保留,并按照命名规则正确命名,内容标注为“=此处为空白页=.4。3.3插图与插图页(1) 插图仅对有意义插图进行转换和标注.在插图出现的段落后另起一段,标注为“=此处为插图(图注)=。(2) 插图页均需保留,并按照命名规则正确命名,内容标注为:“=此处为插图页(图注)=”;对于包含多个插图的插图页,内容标注为:“=此处为插图页:图一(图注),图二(
12、图注)=”.4。3。4表格与表格页表格只转换表格内文字及表注,任何形式表格边框不予转换.(1) 表格简单的单列或横向排版表格应予转换;多列复杂表格,内容为分类列举的文字按列予以转换;其他表格不予转换,在表格出现的位置,标注为“=此处为表格(表格说明)=。(2) 表格页需保留,并按照命名规则正确命名,内容标注为“=此处为表格页(表格说明)=”。对未进行转换的图像和表格,需在其所属单版TXT文件目录内建立“未转换文件对应图像”子目录,将此插图/表格所在的图像文件以jpg格式保存在该子目录内,命名不变;多个插图/表格对应同一个图像时,仅保存一个图像文件。同时对未进行转换的插图/表格在文献全文转换未转
13、换文件记录表中进行记录.4。3。5拼音文字混编拼音文字混编分为对全文均做拼音标注和仅对个别文字做拼音标注两种情况。(1) 全文均做拼音标注的(拼音一般标注在文字上方),只转换文字,不转换拼音。(2) 个别文字做拼音标注的(拼音一般标注在文字后面),需按照原文版式,同时转换文字和拼音。4。3。6下划线(1) 下划线标记的为单个字符或字母的,将标注内容填入【】,放在有下划线的字符或字母后。(2) 下划线标注的为一句话或一段字符或字母的,将有下划线的内容放在()内,标注内容填入【】,放在有下划线的内容后。4。3。7其他无法录入的生僻字、公式、符号等内容用“”表示。同时将“”所对应图像文件保存在单版T
14、XT文件目录内建立“未转换文件对应图像”文件夹内。文件夹建立方法:(1) 子目录内应包含所有用“表示的图像文件并以jpg格式保存。(2) 图像文件删除其他信息,仅保留“无法录入的内容”信息,图像命名不变。(3) 多个用“”表示的内容对应同一个图像时,仅保存一个图像文件。5。数据库命名及加工5。1数据库命名对象数据所对应数据库。数据库名由8位数字组成:文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位).本规范针对中文图书其文献基本资料类型为0,文献语种为1,加工年为公元年后2位数字。例:01150101.mdb5。2数据库制作5.2。1 对marc数据进行加工处理,制作
15、文献基本信息表(book)。序号中文名称字段名称对应书目数据(MARC)内容1加工编号book_id2分类cat_id第一个690字段$a3书名book_name200字段$a。h,i,e4作者author200字段f5出版社pub_house210字段$c6出版时间pub_date210字段d7ISBN号isbn010字段a8001record_id001字段9条码号barcode10唯一标识符cdoi注:文献基本信息表(book表)除加工编号和条码号外,各字段内容原则上均取自书目数据(MARC).对于相同“001”、不同“条码号的图书,要进一步标注“书名”字段,标注内容用“()”括起来。如
16、:(上册)、(下册)。如果没有MARC数据,可人工添加.5.2。2目录信息著录,生成文献目录信息表(catalog).序号中文名称字段名称备注1加工编号book_id2序号serial_num3章节号chapter_num4章节名chapter_name5作者author6页码page_num客观著录,如实反映目录页原貌(可为空)7绝对页码ppage_num文件名数字部分8页位置page_place文件名字母部分9属性page_prop1)“目录”属性为“1”;2)“无目录”属性为“2”;3)每册文献除第一条目录外,其余记录的属性默认为“0”。5。2。3 文献版权页著录,生成文献版权信息表(c
17、opyright)。序号中文名称字段名称备注1加工编号book_id2书名book_name3作者author4001record_id5版权页位置copyright_place记录版权页文件名5。2.4 不带页号插图信息著录,生成文献插页信息表(inset).序号中文名称字段名称备注1加工编号book_id2插页前正文页号prior_text_page文献印刷页码3插页数量inset_num5。2。5 文献缺页信息著录,生成文献缺页信息表(lostpage).序号中文名称字段名称备注1加工编号book_id2缺页前正文页号start_text_page文献印刷页码3缺页数lostpage_n
18、um5。2。6 文献结构信息著录,生成文献结构信息表(process).序号中文名称字段名称备注1加工编号book_id2封面页数fore_cover_num3目录前,前附页数preface1_num4目录前,前附页起始页号preface1_start_page5目录页数content_num6目录起始页号content_start_page7目录后,前附页数preface2_num8目录后,前附页起始页号preface2_start_page9正文页数text_num10正文起始页号text_start_page11后附页数appendix_num12后附页起始页号appendix_star
19、t_page13封底页数back_cover_num注:起始页号均为文献印刷页码5。2.7 记录扫描分辨率、压缩因子、文件数量、存储量等信息,生成文献加工信息表(struct)。序号中文名称字段名称备注1加工编号book_id2书名book_name3扫描分辨率dpi4压缩因子comp_factor5灰度页数量grey_num6彩色页数量col_num7TIFF数量tiff_num8PDF数量pdf_num包含单版和合并版总数量9TXT数量txt_num包含单版和合并版总数量10TIFF存储量tiff_mb存储单位:MB11PDF存储量pdf_mb存储单位:MB12TXT存储量txt _kb存
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 推广 工程 数字 资源 联合 建设 地方 文献 数字化 加工 规则 2015
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。