首页> 中国专利> 现代地方文献电子图书制作方法

现代地方文献电子图书制作方法

摘要

为了实现对具有复杂内容的现代地方志由纸质转为电子,并且能根据客户需求进行检索,本发明提供了一种现代地方文献电子图书制作方法,包括以下步骤:图像扫描,图像处理,PDF转换,版面分析识别校对,TXT排版并进行JPG插图索引,目录制作,XML文件制作,生成XML文件,XML质检。通过科学的步骤,提高了将纸质文本转化成电子文本的效率。通常情况下一本十万字的地方志由一个20人小组在一个星期内能完成。错误率在万分之一左右。完成的文稿都已经通过XML文件制成目录,方便查阅和检索。

著录项

  • 公开/公告号CN103218351A

    专利类型发明专利

  • 公开/公告日2013-07-24

    原文格式PDF

  • 申请/专利权人 杭州中元数据科技有限公司;

    申请/专利号CN201310085316.0

  • 发明设计人 周小芳;朱国明;戚凌均;

    申请日2013-03-15

  • 分类号

  • 代理机构杭州华鼎知识产权代理事务所(普通合伙);

  • 代理人胡根良

  • 地址 310030 浙江省杭州市西湖区西湖科技园西园一路8号一楼

  • 入库时间 2024-02-19 19:41:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-22

    授权

    授权

  • 2013-08-21

    实质审查的生效 IPC(主分类):G06F17/25 申请日:20130315

    实质审查的生效

  • 2013-07-24

    公开

    公开

说明书

技术领域

本发明涉及一种电子图书制作方法,尤其是对现代地方文献类书籍的电子图书的制作方法。 

背景技术

知识就是力量,千百年来,书籍一直是传承知识的载体。但是随着科技的进步,人们也慢慢发现纸质书籍的保藏是一个难题。主要原因在于纸由于制材关系容易损坏。导致纸张损坏的原因大致有以下几种: 

一,温度 

温度乃表示空气中冷热程度的指标,是物体热能的量度,热能是促进有机质文物变质的一种能量形式,当温度越高,原子,分子相撞的机会就越多,化学反应就加快,科学实验证明:在化学反应中,温度升高10℃,其反应速率将增加二倍,而对纸质,温度升高5℃,变质速率就会增加二倍,即使在高温下放置短时间,也会使纸变黄,发脆。从下表可以看出,温度越高,纸张半衰期越短,反之,温度越低,半衰期越长。 

温度忽高忽低,对纸质的保护也是不利的,温度忽高,蒸发到空气中的水汽量就增加,空气就过於潮湿;反之,温度忽低,蒸发到空气中的水汽也就忽然减少,空气就过於乾燥。由於温度忽高忽低,则会造成纸张中的纤维忽胀,忽缩,而影响纸张纤维的抗张强度。 

二,湿度 

湿度是表示空气中水汽含量或乾湿的程度。潮湿的环境不仅会使纸张变潮而发生水解,而且会使耐水性差的字迹湮化褪色,模糊不清。还有利於微生物的生长繁殖,促使纸张霉烂,虫蛀,变质。另外会加速其它有害物质(如大气中酸性气体CO2,NO2,SO2等),极易被潮湿纸张中的水份所吸收,形成腐蚀性更强的无机酸,以及明矾更易水解生成硫酸,而加速纸张的损坏。 

三,光照 

光对纸质的危害,一般认为是光的热作用与光化学作用造成的。 

对此,为了保护书籍,我们现在常用的方式是将书籍进行电子化处理,扫描。将书籍转为电子化。但是事实上在这个过程中,会有许多意想不到的事情发生。如电子扫描识别的精确度一直是个难以解决的问题。现有技术中虽然也有相关的专利,如深圳市点通数据有限公司就有公开号为CN101488126的发明专利《双语语句对齐方法及装置》用于提高版权对齐的效率;以及公开号CN101308491的《版面还原方法》发明专利用于提高版面位置的对应。但是在针对文字校对方面并没有突出的进步。而且电子书的查阅方式和纸质文本也不同,需要方便的链接等方式,现有技术中的扫描文件均无法满足这样的要求。 

文本的种类也很多,但是现代地方文献具有文字量大,数据、图案、文字表格混排等多种特点,而且对于文字、数字准确率的要求非常高,是转电子版本文件中难度较高的一种。而且转成电子文本后,又要满足便于查询检索等要求,后期制作要求高。但是优点在于现代地方文献纸质文本的纸质较好,适合现代化的扫描工具。 

发明内容

为了实现对具有复杂内容的现代地方志由纸质转为电子,并且能根据客户需求进行检索,本发明提供了一种现代地方文献电子图书制作方法,包括以下步骤: 

步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像; 

步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的文字、图片、注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理,确保图片整洁美观; 

步骤3.PDF转换,按目录最小组织结构采用PDF图像格式进行封装; 

步骤4.版面分析识别校对,包括图像版面分析、文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,所述纵向校对为逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字校对的是否正确; 

步骤5.TXT排版并进行JPG插图索引,包括对经所述步骤4识别产生的文本的TXT文件进行排版以及对文本中间的插图进行索引,确保JPG插图嵌套在文本中正确位置,并且索引准确; 

步骤6.目录制作,根据规则编制目录并完成目录标引,完成的文件生成目录文件; 

步骤7.XML文件制作,根据编制的目录文本和所述步骤5的TXT文本生成描述每本地方文献用于入库的XML文件; 

步骤8.XML质检。检查针对每本文献生成的XML文件格式,包括书名、作者、出版社、正文、PDF路径等所有字段的检查,确保与原纸本文献的内 容完全对应。 

优选的,所述步骤2中的纠偏工序中包括对文字的初步辨识;确认是扫描导致的倾斜后进行纠偏,纠偏后文字和水平方向的夹角不超过3度。这样转换过后能提高后期文本OCR识别的准确率,减轻后期校对的工作负担。 

其特征在于:所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样从版面上检验是否有遗漏或者缺少。这样也能检查出复制错误页的问题。 

优选的,所述步骤3中所述采用PDF图像格式进行封装;即封面后的插图封装成一个节点,命名为“冠图”,冠图之间允许插入有序、前言,冠图分为冠图1、冠图2;封底前的插图封装成一个节点,命名为“附图”;封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装PDF;对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别,用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹;对于序、前言、编纂委员会内容需要识别校对。 

优选的,所述步骤4中版面分析识别校对,即首先将原文的图片中的文字段落和图片分别进行版面分析,画上代表不同识别类型的区域框,所述版面分析工作完成后,进行OCR识别,所述OCR识别工作完成后,须将识别后的文本内容逐行进行横向校对。所述横向校对工作完成后,再进行纵向校对,即逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字在文中的出现是否正确,确保文字的识别错误率要低于万分之一。 

优选的,所述步骤7中的XML文件制作过程为:将XML文件里图书中文名称、馆藏标识、一级目录、二级目录、名称、正文、PDF等所有字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致,则取题名页标题;书本内容有“<>”字符,在XML里采用“()”代替;书本内有注释内容,著录规则为: 

————(本页注释开始)———— 

注释内容 

————(本页注释完)———— 

有无法录入的生僻汉字用黑色实心方框代替; 

正文里的数学公式、化学分子式或方程式按插图处理,给出图片索引地址;有无法录入的特殊符号,如能用中文描述的,采用用中文文字表达;一份表格内容在第一页没有结束,在第二页有续表,如第二页上没有“续表”二字,则增加“续表”二字并录入在正文里,后加该表格的索引地址;书本的目录标题与正文标题不一致,录入目录标题。 

优选的,XML的目录级别只制作到三级,即一级目录、二级目录和名称。这样避免了过多的目录级别导致目录导航混乱。 

优选的,成套出版物在所述单本文件做完步骤8的质检工作后,还需要进行总检,并生成xml文件。这样使得检索更为方便。 

对于不需要进行校验,仅仅是扫描保存的现代地方文献电子图书制作方,包括以下步骤: 

步骤1.图像扫描,通过专业扫描仪将纸质地方文献扫描到电脑中,这样将纸件文本转化成图像; 

步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗 漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理; 

步骤3.PDF转换,整本书直接进行封装。这样的电子版文本通常用于备份,保存价值不高。封装后只要在图像处理时确保图像清晰即可,不需要后续质检。 

优选的,所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件没有遗漏原始文本信息。 

本发明具有以下效果:通过科学的步骤,提高了将纸质文本转化成电子文本的效率。通常情况下一本十万字的地方志由一个20人小组在一个星期内能完成。错误率在万分之一左右。完成的文稿都已经通过XML文件制成目录,方便查阅和检索。 

附图说明

下面结合附图对本发明作进一步说明: 

图1为本实用现代地方文献图书制作方法的整体流程示意图。 

具体实施方式

如图1所示,本实用现代地方文献图书制作方法,以20人为规模的制作流水线安排,3人做PDF封装,13人做识别校对,1人做目录制作,3人做排版图片索引及XML质检。地方文献制作的主要工作量在识别校对这道工序上,由于制作规范要求识别错误率要低于万分之一,就必须要经过横向校对和纵向校对, 这也就直接影响到了识别所需花费的时间。PDF封装的操作人员完成本职工作后,可分配到识别校对和排版索引的工序中,刚好调节这两道工序的人员安排,而目录制作按比例分配可按排1人做目录制作,此操作人员的工作饱和度较高,安排3人同时做2道工序——排版索引与XML质检,这样的安排人员可动性较高,调整起来不费力。 

为了实现对具有复杂内容的现代地方志由纸质,本发明提供了一种现代地方文献电子图书制作方法,包括以下步骤: 

步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像; 

步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理;纠偏工序中包括对文字的初步辨识;确认是扫描导致的倾斜后进行纠偏,纠偏后文字和水平方向的夹角不超过3度。这样转换过后能提高后期ORC识别的成功率,减轻后期校对的工作负担。所述图像处理和PDF转换工作完成后,将图像的有效信息部分进行投影,该投影覆盖了图像所有有效信息区域,该区域可以按比例放大和缩小,将该投影区域的四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件和原始图像完全一致,没有遗漏原始图像有效信息。 

步骤3.PDF转换,按目录结构采用PDF图像格式进行封装;所述步骤3中所述采用PDF图像格式进行封装。具体的说就是封面后的插图封装成一个节点,命名为“冠图”,冠图之间允许插入有序、前言,冠图分为冠图1、冠图2;封底前的插图封装成一个节点,命名为“附图”;封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装 PDF;对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别,用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹;对于序、前言、编纂委员会内容需要识别校对。 

步骤4.版面分析识别校对,包括文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,ORC识别后,将原文的图片按行切割后和识别后的文本以一行对一行的格式排列。方便横向校对。 

所述纵向校对为逐一选择书本中所有不同的字,寻找这些词语在文中出现的位置,一一对比确认这些文字在文中的出现是否正确; 

步骤5.TXT排版并进行JPG插图索引; 

步骤6.目录制作,根据规则编制目录并完成目录标引,完成的文件生成目录; 

步骤7.XML文件制作,根据编制的目录文本和校对后的文本生成XML文件; 

步骤8.XML质检。 

优选的,所述步骤7中的XML文件制作过程为:将XML文件里所有标题字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致,则取题名页标题;书本内容有“<>”字符,在XML里采用“()”代替;书本内有注释内容,注入规则为: 

————(本页注释开始)———— 

注释内容 

————(本页注释完)———— 

有无法录入的生僻汉字用黑色实心方框“■”代替; 

正文里的数学公式、化学分子式或方程式按插图处理,给出图片索引地址; 有无法录入的特殊符号,如能用中文描述的,采用用中文文字表达;一份表格内容在第一页没有结束,在第二页有续表,如第二页上没有“续表”二字,则增加“续表”二字并录入在正文里,后加该表格的索引地址;书本的目录标题与正文标题不一致,录入目录标题。 

实施例1: 

<?xml version="1.0"encoding="gbk"?> 

<!DOCTYPE TRS[ 

<!ELEMENT TRS(REC)> 

<REC> 

<图书中文名称>浙江省少数民族志</图书中文名称><br/><br/> 

<馆藏标识>F426.21214.21563</馆藏标识><br/><br/> 

<目录次序>28</目录次序><br/><br/> 

<目录页码>161</目录页码><br/><br/> 

<一级目录>第一编畲族</一级目录><br/><br/> 

<二级目录>第四章经济生活</二级目录><br/><br/> 

<名称>第八节物质生活</名称><br/><br/> 

<存放目录>F426.21214.21563</存放目录><br/><br/> 

<正文>第八节物质生活<br/> 

经济收入<br/> 

建国前,帝国主义、封建主义、官僚资本主义的反动统治极其严重地束缚了畲族地区生产 

&lt;img 

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-5.jpg&gt;<br/> 

&lt;img 

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-6.jpg&gt;<br/> 

&lt;img 

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-7.jpg&gt;<br/> 

居住条件<br/> 

建国前,畲村分散,规模较小,基本上分布在山岙里、山腰上。半数农房为土木结构平房,半数为茅草房或杉树皮铺盖屋顶的简陋矮房,少数富裕户有庭院结构楼房。<br/> 

温州畲民1949年居住在潮湿阴暗不通风的草寮的,占30~40%。80年代,平阳县青街盖瓦房239间7130平方米,苍南县鹤山村建新房79间,半宫村建新房68间。莒溪镇有畲民3100多人,是全省畲族最多的一个乡镇,旧时住草寮茅屋,现全住上瓦房、新房。到1990年,仍住草寮的畲民全市只剩19户。丽水畲民住房条件改变见表4-9。<br/> 

&lt;img 

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-8.jpg&gt;<br/> 

80年代后期,家用电器进入畲家。温州4县8个村620户,有电视机119台,平均6户有1台。丽水地区畲民每千户拥有彩电11台,黑白电视机215台,洗衣机10台,电冰箱5台,电风扇279台,电饭煲208只,缝纫机501台,自行车880辆,摩托车3辆。见表4-10。<br/> 

&lt;img src=/dfz/F426.21214.21563/1-4-8-9.jpg&gt;<br/> 

</正文><br/><br/> 

<PDF文件名>1-4-8.pdf</PDF文件名><br/><br/> 

</REC> 

</TRS> 

通过这样定义后,当检索到“物质生活”等关键词时,就能找到该文本。XML的目录级别只制作到三级,即一级目录、二级目录和名称。 

成套出版物在所述单本文件做完步骤8的质检工作后,还需要进行总检,并生成总目录。这样进一步确保制作结果准确方便检索。通常总质检包括: 

 在目录制作的同时需要对PDF文件做质检,质检PDF文件是否有漏页或多页或前后颠倒现象,内容是否按照目录最小组织结构封装; 

 XML文件内馆藏符要正确,要注意将馆藏标识符中“-”改为“_”、“()”改为“()”,XML文件命名是否正确; 

 质检一、二、三级目录是否准确;目录标题是“附录”的标题要附上前面一级的标题;四级目录标题前要附上三级目录的标题,要与三级目录同级; 

 一个REC结点的内容要完整,排版要正确,标题、小节与小节之间应有<br>和</br>隔开,内容与PDF图像文件相对应; 

 XML文件内目录次序的最大值与PDF个数要相对应; 

 图片的链接地址要正确,链接地址个数要与JPG图片个数相对应,否则导入数据库后将链接不到对应插图图片的现象,检查JPG质量是否符合规范; 

 将OTIFF文件夹、PDF文件及XML文件以馆藏符命名; 

 OTIFF文件夹内TIFF个数与整本书的PDF页数要一致,如不一致找原因并修改;检查流程单后有没有返工纪录,有返工纪录则需检查返工是否完成,及根据返工纪录修改整本书的PDF文件。 

通过本发明的方法,能快速、高效、准确地将地方志文献转为电子版本,而且转换速度快,误差低,起到了非常好的效果。 

对于不需要进行校验,仅仅是扫描保存的现代地方文献电子图书制作方法,包括以下步骤: 

步骤1.图像扫描,通过专业扫描仪将文本扫描到电脑中,这样将纸件文本转化成图像; 

步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理; 

步骤3.PDF转换,整本书直接进行封装。这样的电子版文本通常用于备份,保存价值不高。封装后只要在图像处理时确保图像清晰即可,不需要后续质检。所述图像处理和PDF转换工作完成后,将图像的有效信息部分进行投影,该投影覆盖了图像所有有效信息区域,该区域可以按比例放大和缩小,将该投影区域的四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件和原始图像完全一致,没有遗漏原始图像有效信息。 

这样的操作简化,但是确保扫描留底的文件中没有遗漏任何信息。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号