首页> 中国专利> 现代地方文献电子图书制作方法

现代地方文献电子图书制作方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

为了实现对具有复杂内容的现代地方志由纸质转为电子，并且能根据客户需求进行检索，本发明提供了一种现代地方文献电子图书制作方法，包括以下步骤：图像扫描，图像处理，PDF转换，版面分析识别校对，TXT排版并进行JPG插图索引，目录制作，XML文件制作，生成XML文件，XML质检。通过科学的步骤，提高了将纸质文本转化成电子文本的效率。通常情况下一本十万字的地方志由一个20人小组在一个星期内能完成。错误率在万分之一左右。完成的文稿都已经通过XML文件制成目录，方便查阅和检索。

著录项

公开/公告号CN103218351A

专利类型发明专利
公开/公告日2013-07-24

原文格式PDF
申请/专利权人杭州中元数据科技有限公司;
展开▼

申请/专利号CN201310085316.0
发明设计人周小芳;朱国明;戚凌均;
展开▼

申请日2013-03-15
分类号
代理机构杭州华鼎知识产权代理事务所(普通合伙);
代理人胡根良
地址 310030 浙江省杭州市西湖区西湖科技园西园一路8号一楼
入库时间 2024-02-19 19:41:48

法律信息

法律状态公告日

法律状态信息

法律状态
2016-06-22

授权

授权
2013-08-21

实质审查的生效 IPC(主分类):G06F17/25 申请日:20130315

实质审查的生效
2013-07-24

公开

公开

说明书

技术领域

本发明涉及一种电子图书制作方法，尤其是对现代地方文献类书籍的电子图书的制作方法。

背景技术

知识就是力量，千百年来，书籍一直是传承知识的载体。但是随着科技的进步，人们也慢慢发现纸质书籍的保藏是一个难题。主要原因在于纸由于制材关系容易损坏。导致纸张损坏的原因大致有以下几种：

一，温度

温度乃表示空气中冷热程度的指标，是物体热能的量度，热能是促进有机质文物变质的一种能量形式，当温度越高，原子，分子相撞的机会就越多，化学反应就加快，科学实验证明:在化学反应中，温度升高10℃，其反应速率将增加二倍，而对纸质，温度升高5℃，变质速率就会增加二倍，即使在高温下放置短时间，也会使纸变黄，发脆。从下表可以看出，温度越高，纸张半衰期越短，反之，温度越低，半衰期越长。

温度忽高忽低，对纸质的保护也是不利的，温度忽高，蒸发到空气中的水汽量就增加，空气就过於潮湿；反之，温度忽低，蒸发到空气中的水汽也就忽然减少，空气就过於乾燥。由於温度忽高忽低，则会造成纸张中的纤维忽胀，忽缩，而影响纸张纤维的抗张强度。

二，湿度

湿度是表示空气中水汽含量或乾湿的程度。潮湿的环境不仅会使纸张变潮而发生水解，而且会使耐水性差的字迹湮化褪色，模糊不清。还有利於微生物的生长繁殖，促使纸张霉烂，虫蛀，变质。另外会加速其它有害物质(如大气中酸性气体CO₂，NO₂，SO₂等)，极易被潮湿纸张中的水份所吸收，形成腐蚀性更强的无机酸，以及明矾更易水解生成硫酸，而加速纸张的损坏。

三，光照

光对纸质的危害，一般认为是光的热作用与光化学作用造成的。

对此，为了保护书籍，我们现在常用的方式是将书籍进行电子化处理，扫描。将书籍转为电子化。但是事实上在这个过程中，会有许多意想不到的事情发生。如电子扫描识别的精确度一直是个难以解决的问题。现有技术中虽然也有相关的专利，如深圳市点通数据有限公司就有公开号为CN101488126的发明专利《双语语句对齐方法及装置》用于提高版权对齐的效率；以及公开号CN101308491的《版面还原方法》发明专利用于提高版面位置的对应。但是在针对文字校对方面并没有突出的进步。而且电子书的查阅方式和纸质文本也不同，需要方便的链接等方式，现有技术中的扫描文件均无法满足这样的要求。

文本的种类也很多，但是现代地方文献具有文字量大，数据、图案、文字表格混排等多种特点，而且对于文字、数字准确率的要求非常高，是转电子版本文件中难度较高的一种。而且转成电子文本后，又要满足便于查询检索等要求，后期制作要求高。但是优点在于现代地方文献纸质文本的纸质较好，适合现代化的扫描工具。

发明内容

为了实现对具有复杂内容的现代地方志由纸质转为电子，并且能根据客户需求进行检索，本发明提供了一种现代地方文献电子图书制作方法，包括以下步骤：

步骤1.图像扫描，通过专业扫描仪将纸本地方文献扫描到电脑中，这样将纸件文献转化成电子图像；

步骤2.图像处理，所述图像处理步骤包括校对信息完整性，确保没有遗漏文本的文字、图片、注释等信息，对图像进行纠偏，确保图像位置正，以及图片去污处理，确保图片整洁美观；

步骤3.PDF转换，按目录最小组织结构采用PDF图像格式进行封装；

步骤4.版面分析识别校对，包括图像版面分析、文本OCR识别，文本校对，所述文本校对包括了横向校对和纵向校对，所述横向校对即逐行校对，所述纵向校对为逐一选择书本中所有不同的字，寻找这些字在文中出现的所有位置，一一对比确认这些文字校对的是否正确；

步骤5.TXT排版并进行JPG插图索引，包括对经所述步骤4识别产生的文本的TXT文件进行排版以及对文本中间的插图进行索引，确保JPG插图嵌套在文本中正确位置，并且索引准确；

步骤6.目录制作，根据规则编制目录并完成目录标引，完成的文件生成目录文件；

步骤7.XML文件制作，根据编制的目录文本和所述步骤5的TXT文本生成描述每本地方文献用于入库的XML文件；

步骤8.XML质检。检查针对每本文献生成的XML文件格式，包括书名、作者、出版社、正文、PDF路径等所有字段的检查，确保与原纸本文献的内容完全对应。

优选的，所述步骤2中的纠偏工序中包括对文字的初步辨识；确认是扫描导致的倾斜后进行纠偏，纠偏后文字和水平方向的夹角不超过3度。这样转换过后能提高后期文本OCR识别的准确率，减轻后期校对的工作负担。

其特征在于：所述纠偏工作完成后，将文字部分进行投影，该投影覆盖了一定的区域，该区域可以按比例放大和缩小，将该投影区域调整到和原稿等比大小后，将其四个顶点和原稿位置一一校对，看是否能同时重合，然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样从版面上检验是否有遗漏或者缺少。这样也能检查出复制错误页的问题。

优选的，所述步骤3中所述采用PDF图像格式进行封装；即封面后的插图封装成一个节点，命名为“冠图”，冠图之间允许插入有序、前言，冠图分为冠图1、冠图2；封底前的插图封装成一个节点，命名为“附图”；封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装PDF；对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别，用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹；对于序、前言、编纂委员会内容需要识别校对。

优选的，所述步骤4中版面分析识别校对，即首先将原文的图片中的文字段落和图片分别进行版面分析，画上代表不同识别类型的区域框，所述版面分析工作完成后，进行OCR识别，所述OCR识别工作完成后，须将识别后的文本内容逐行进行横向校对。所述横向校对工作完成后，再进行纵向校对，即逐一选择书本中所有不同的字，寻找这些字在文中出现的所有位置，一一对比确认这些文字在文中的出现是否正确，确保文字的识别错误率要低于万分之一。

优选的，所述步骤7中的XML文件制作过程为：将XML文件里图书中文名称、馆藏标识、一级目录、二级目录、名称、正文、PDF等所有字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致，则取题名页标题；书本内容有“<>”字符，在XML里采用“（）”代替；书本内有注释内容，著录规则为：

————（本页注释开始）————

注释内容

————（本页注释完）————

有无法录入的生僻汉字用黑色实心方框代替；

正文里的数学公式、化学分子式或方程式按插图处理，给出图片索引地址；有无法录入的特殊符号，如能用中文描述的，采用用中文文字表达；一份表格内容在第一页没有结束，在第二页有续表，如第二页上没有“续表”二字，则增加“续表”二字并录入在正文里，后加该表格的索引地址；书本的目录标题与正文标题不一致，录入目录标题。

优选的，XML的目录级别只制作到三级，即一级目录、二级目录和名称。这样避免了过多的目录级别导致目录导航混乱。

优选的，成套出版物在所述单本文件做完步骤8的质检工作后，还需要进行总检，并生成xml文件。这样使得检索更为方便。

对于不需要进行校验，仅仅是扫描保存的现代地方文献电子图书制作方，包括以下步骤：

步骤1.图像扫描，通过专业扫描仪将纸质地方文献扫描到电脑中，这样将纸件文本转化成图像；

步骤2.图像处理，所述图像处理步骤包括校对信息完整性，确保没有遗漏文本的注释等信息，对图像进行纠偏，确保图像位置正，以及图片去污处理；

步骤3.PDF转换，整本书直接进行封装。这样的电子版文本通常用于备份，保存价值不高。封装后只要在图像处理时确保图像清晰即可，不需要后续质检。

优选的，所述纠偏工作完成后，将文字部分进行投影，该投影覆盖了一定的区域，该区域可以按比例放大和缩小，将该投影区域调整到和原稿等比大小后，将其四个顶点和原稿位置一一校对，看是否能同时重合，然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件没有遗漏原始文本信息。

本发明具有以下效果：通过科学的步骤，提高了将纸质文本转化成电子文本的效率。通常情况下一本十万字的地方志由一个20人小组在一个星期内能完成。错误率在万分之一左右。完成的文稿都已经通过XML文件制成目录，方便查阅和检索。

附图说明

下面结合附图对本发明作进一步说明：

图1为本实用现代地方文献图书制作方法的整体流程示意图。

具体实施方式

如图1所示，本实用现代地方文献图书制作方法，以20人为规模的制作流水线安排，3人做PDF封装，13人做识别校对，1人做目录制作，3人做排版图片索引及XML质检。地方文献制作的主要工作量在识别校对这道工序上，由于制作规范要求识别错误率要低于万分之一，就必须要经过横向校对和纵向校对，这也就直接影响到了识别所需花费的时间。PDF封装的操作人员完成本职工作后，可分配到识别校对和排版索引的工序中，刚好调节这两道工序的人员安排，而目录制作按比例分配可按排1人做目录制作，此操作人员的工作饱和度较高，安排3人同时做2道工序——排版索引与XML质检，这样的安排人员可动性较高，调整起来不费力。

为了实现对具有复杂内容的现代地方志由纸质，本发明提供了一种现代地方文献电子图书制作方法，包括以下步骤：

步骤1.图像扫描，通过专业扫描仪将纸本地方文献扫描到电脑中，这样将纸件文献转化成电子图像；

步骤2.图像处理，所述图像处理步骤包括校对信息完整性，确保没有遗漏文本的注释等信息，对图像进行纠偏，确保图像位置正，以及图片去污处理；纠偏工序中包括对文字的初步辨识；确认是扫描导致的倾斜后进行纠偏，纠偏后文字和水平方向的夹角不超过3度。这样转换过后能提高后期ORC识别的成功率，减轻后期校对的工作负担。所述图像处理和PDF转换工作完成后，将图像的有效信息部分进行投影，该投影覆盖了图像所有有效信息区域，该区域可以按比例放大和缩小，将该投影区域的四个顶点和原稿位置一一校对，看是否能同时重合，然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件和原始图像完全一致，没有遗漏原始图像有效信息。

步骤3.PDF转换，按目录结构采用PDF图像格式进行封装；所述步骤3中所述采用PDF图像格式进行封装。具体的说就是封面后的插图封装成一个节点，命名为“冠图”，冠图之间允许插入有序、前言，冠图分为冠图1、冠图2；封底前的插图封装成一个节点，命名为“附图”；封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装 PDF；对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别，用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹；对于序、前言、编纂委员会内容需要识别校对。

步骤4.版面分析识别校对，包括文本OCR识别，文本校对，所述文本校对包括了横向校对和纵向校对，所述横向校对即逐行校对，ORC识别后，将原文的图片按行切割后和识别后的文本以一行对一行的格式排列。方便横向校对。

所述纵向校对为逐一选择书本中所有不同的字，寻找这些词语在文中出现的位置，一一对比确认这些文字在文中的出现是否正确；

步骤5.TXT排版并进行JPG插图索引；

步骤6.目录制作，根据规则编制目录并完成目录标引，完成的文件生成目录；

步骤7.XML文件制作，根据编制的目录文本和校对后的文本生成XML文件；

步骤8.XML质检。

优选的，所述步骤7中的XML文件制作过程为：将XML文件里所有标题字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致，则取题名页标题；书本内容有“<>”字符，在XML里采用“（）”代替；书本内有注释内容，注入规则为：

————（本页注释开始）————

注释内容

————（本页注释完）————

有无法录入的生僻汉字用黑色实心方框“■”代替；

实施例1：

<?xml version="1.0"encoding="gbk"?>

<!DOCTYPE TRS[

<!ELEMENT TRS(REC)>

<REC>

<图书中文名称>浙江省少数民族志</图书中文名称>

<馆藏标识>F426.21214.21563</馆藏标识>

<目录次序>28</目录次序>

<目录页码>161</目录页码>

<一级目录>第一编畲族</一级目录>

<二级目录>第四章经济生活</二级目录>

<名称>第八节物质生活</名称>

<存放目录>F426.21214.21563</存放目录>

<正文>第八节物质生活

经济收入

建国前，帝国主义、封建主义、官僚资本主义的反动统治极其严重地束缚了畲族地区生产

<img

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-5.jpg>

<img

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-6.jpg>

<img

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-7.jpg>

居住条件

建国前，畲村分散，规模较小，基本上分布在山岙里、山腰上。半数农房为土木结构平房，半数为茅草房或杉树皮铺盖屋顶的简陋矮房，少数富裕户有庭院结构楼房。

温州畲民1949年居住在潮湿阴暗不通风的草寮的，占30～40％。80年代，平阳县青街盖瓦房239间7130平方米，苍南县鹤山村建新房79间，半宫村建新房68间。莒溪镇有畲民3100多人，是全省畲族最多的一个乡镇，旧时住草寮茅屋，现全住上瓦房、新房。到1990年，仍住草寮的畲民全市只剩19户。丽水畲民住房条件改变见表4-9。

<img

src=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-8.jpg>

80年代后期，家用电器进入畲家。温州4县8个村620户，有电视机119台，平均6户有1台。丽水地区畲民每千户拥有彩电11台，黑白电视机215台，洗衣机10台，电冰箱5台，电风扇279台，电饭煲208只，缝纫机501台，自行车880辆，摩托车3辆。见表4-10。

</正文>

<PDF文件名>1-4-8.pdf</PDF文件名>

</REC>

</TRS>

通过这样定义后，当检索到“物质生活”等关键词时，就能找到该文本。XML的目录级别只制作到三级，即一级目录、二级目录和名称。

成套出版物在所述单本文件做完步骤8的质检工作后，还需要进行总检，并生成总目录。这样进一步确保制作结果准确方便检索。通常总质检包括：

　在目录制作的同时需要对PDF文件做质检，质检PDF文件是否有漏页或多页或前后颠倒现象，内容是否按照目录最小组织结构封装；

　XML文件内馆藏符要正确，要注意将馆藏标识符中“-”改为“_”、“()”改为“（）”，XML文件命名是否正确；

　质检一、二、三级目录是否准确；目录标题是“附录”的标题要附上前面一级的标题；四级目录标题前要附上三级目录的标题，要与三级目录同级；

一个REC结点的内容要完整,排版要正确，标题、小节与小节之间应有 和隔开，内容与PDF图像文件相对应；

　XML文件内目录次序的最大值与PDF个数要相对应；

　图片的链接地址要正确，链接地址个数要与JPG图片个数相对应，否则导入数据库后将链接不到对应插图图片的现象，检查JPG质量是否符合规范；

　将OTIFF文件夹、PDF文件及XML文件以馆藏符命名；

　OTIFF文件夹内TIFF个数与整本书的PDF页数要一致，如不一致找原因并修改；检查流程单后有没有返工纪录，有返工纪录则需检查返工是否完成，及根据返工纪录修改整本书的PDF文件。

通过本发明的方法，能快速、高效、准确地将地方志文献转为电子版本，而且转换速度快，误差低，起到了非常好的效果。

对于不需要进行校验，仅仅是扫描保存的现代地方文献电子图书制作方法，包括以下步骤：

步骤1.图像扫描，通过专业扫描仪将文本扫描到电脑中，这样将纸件文本转化成图像；

步骤2.图像处理，所述图像处理步骤包括校对信息完整性，确保没有遗漏文本的注释等信息，对图像进行纠偏，确保图像位置正，以及图片去污处理；

步骤3.PDF转换，整本书直接进行封装。这样的电子版文本通常用于备份，保存价值不高。封装后只要在图像处理时确保图像清晰即可，不需要后续质检。所述图像处理和PDF转换工作完成后，将图像的有效信息部分进行投影，该投影覆盖了图像所有有效信息区域，该区域可以按比例放大和缩小，将该投影区域的四个顶点和原稿位置一一校对，看是否能同时重合，然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件和原始图像完全一致，没有遗漏原始图像有效信息。

这样的操作简化，但是确保扫描留底的文件中没有遗漏任何信息。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 现代地方文献电子图书制作方法 [P] . 中国专利： CN103218351B . 2016.06.22
2. 现代地方文献电子图书制作方法 [P] . 中国专利： CN103218351A . 2013-07-24
3. Electronic library systems, a recording medium storing the electronic library creation processing method and an electronic library system program [P] . 日本专利： JP3660533B2 . 2005-06-15

机译：电子图书馆系统，存储电子图书馆创建处理方法的记录介质和电子图书馆系统程序
4. ELECTRONIC LIBRARY SERVER AND ELECTRONIC LIBRARY SERVICE SYSTEM [P] . 日本专利： JP2004287994A . 2004-10-14

机译：电子图书馆服务器和电子图书馆服务系统
5. ELECTRONIC LIBRARY SERVER AND ELECTRONIC LIBRARY SERVICE SYSTEM [P] . 日本专利： JP2004287514A . 2004-10-14

机译：电子图书馆服务器和电子图书馆服务系统