首页> 中文学位 >PDF论文的重编辑与处理系统的研究与开发
【6h】

PDF论文的重编辑与处理系统的研究与开发

代理获取

目录

声明

第1章 绪 论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文组织结构

第2章 相关文档格式的介绍

2.1 PDF 文档的介绍

2.1.1 PDF 的简介

2.1.2 PDF 文档对象的分析

2.1.3 PDF 的逻辑结构

2.1.4 PDF 的物理结构

2.2 HTML 文档的介绍

2.2.1 HTML 文档的简介

2.2.2 HTML 文档的示例

2.3 JSON 格式文档的介绍

2.3.1 JSON 的数据类型

2.4 本章小结

第3章 基于 HTML 文档树的内容抽取算法

3.1 文档格式的转换技术

3.1.1 转化成 WORD 格式

3.1.2 转化成 HTML 格式

3.2 PDF 文档的划分

3.2.1 文档划分的依据

3.2.2 文档划分结果的存储

3.3 PDF 文档信息的抽取

3.3.1 抽取 PDF 中的非文本信息

3.3.2 抽取出渲染样式

3.3.3 常见的网页抽取算法

3.3.4 抽取文本内容

3.4 本章小结

第4章 基于网页技术的自适应渲染方法

4.1 传统布局结构的分析

4.2 移动端网页技术的介绍

4.3 重构布局

4.4 PDF 论文的抽象

4.5 排版算法的分析

4.6 渲染效果展示

4.7 本章小结

第5章 并行化任务的分析与处理

5.1 系统后端处理流程设计

5.2 文件类型数据存储结构的设计

5.3 数据库中存储的层次关系

5.4 处理过程中并行化分析

5.5 统一任务调度方案

5.6 实验评估

5.7 本章小结

结 论

参考文献

致 谢

附录 A 攻读硕士学位期间的学术成果

展开▼

摘要

自从PDF文档问世以来,以其诸多的优良特性已经在学术界和工业界被广泛的使用。大量的文档资料以PDF格式被存档,读者只需要借助任意的PDF阅读器就可以方便的浏览其中所包含的信息。随着科技和文化的飞速发展,学术界已经积累了海量以PDF格式存档的论文,这其中绝大多数的论文内容的排版结构都是可以适配于PC端,在PC端可以渲染出良好的效果。目前移动互联网时代已经来临,各式各样的移动设备已经普及,由于移动设备不受时间和空间的约束同时具备良好的交互性等优势,越来越多的人群倾向于通过移动设备浏览和获取信息。然而PDF格式文件一旦被生成,其包含信息的排版格式是固定不变的,对于在PC端渲染良好的PDF学术论文,并不一定适合在屏幕尺寸较小移动设备上,这使得PDF学术论文在移动设备端的阅读体验大打折扣。  本文以学术界PDF格式论文作为研究对象,介绍了当前PDF文档格式的转换技术,PDF包含信息的提取技术和渲染技术,同时对系统中涉及到的处理流程进行深入分析,设计了高效的处理模型用于优化系统的处理能力提高系统的处理效率。本文完成了对PDF学术论文多种格式的转化工作,并借助现有技术对PDF论文的内容进行分块处理,设计了基于HTML文档树的文本信息抽取算法和渲染样式信息的抽取算法,将提取出的本文信息按照一定的顺序结构进行重排版,同时对控制文本的渲染信息进行过滤处理,使得渲染信息能够良好的控制文本信息的渲染样式,最后将排版后的内容基于HTML格式作为输出结果。总的来说,本文的工作是提出一种高效的解决方案,使得PDF论文能够在移动设备端被渲染得更优雅。  最后对系统进行实际测试,验证了本系统可以自动化的对PDF论文的内容进行提取,而后对提取出的内容进行编辑排版,使得排版后的内容在移动终端能够达到较好的展示效果,本文的研究内容有利于使PDF文档在移动设备端呈现更加友好的渲染方式,同时对PDF文件文包含文本信息和非文信息的提取工作开阔了新的思路。

著录项

  • 作者

    金鹏;

  • 作者单位

    湖南大学;

  • 授予单位 湖南大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 何黎刚;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    PDF文档,论文格式,重编辑,处理系统;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号