声明
第1章 绪 论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文主要工作
1.4 本文组织结构
第2章 相关文档格式的介绍
2.1 PDF 文档的介绍
2.1.1 PDF 的简介
2.1.2 PDF 文档对象的分析
2.1.3 PDF 的逻辑结构
2.1.4 PDF 的物理结构
2.2 HTML 文档的介绍
2.2.1 HTML 文档的简介
2.2.2 HTML 文档的示例
2.3 JSON 格式文档的介绍
2.3.1 JSON 的数据类型
2.4 本章小结
第3章 基于 HTML 文档树的内容抽取算法
3.1 文档格式的转换技术
3.1.1 转化成 WORD 格式
3.1.2 转化成 HTML 格式
3.2 PDF 文档的划分
3.2.1 文档划分的依据
3.2.2 文档划分结果的存储
3.3 PDF 文档信息的抽取
3.3.1 抽取 PDF 中的非文本信息
3.3.2 抽取出渲染样式
3.3.3 常见的网页抽取算法
3.3.4 抽取文本内容
3.4 本章小结
第4章 基于网页技术的自适应渲染方法
4.1 传统布局结构的分析
4.2 移动端网页技术的介绍
4.3 重构布局
4.4 PDF 论文的抽象
4.5 排版算法的分析
4.6 渲染效果展示
4.7 本章小结
第5章 并行化任务的分析与处理
5.1 系统后端处理流程设计
5.2 文件类型数据存储结构的设计
5.3 数据库中存储的层次关系
5.4 处理过程中并行化分析
5.5 统一任务调度方案
5.6 实验评估
5.7 本章小结
结 论
参考文献
致 谢
附录 A 攻读硕士学位期间的学术成果
湖南大学;