声明
摘要
第1章 绪论
1.1 研究背景
1.2 研究现状
1.3 主要研究内容
1.4 研究意义
1.5 论文组织结构
第2章 相关理论基础
2.1 OOXML文档格式与Word文档对象模型
2.2 模板获取方法
2.3 段落逻辑标签判断方法
2.3.1 可提取的格式特征
2.3.2 分类方法
2.4 逻辑结构重建方法
2.5 本章小结
第3章 总体设计方案
3.1 改进格式向量中定性分量的量化方法
3.2 改进段落逻辑标签判断方法
3.2.1 YSN段落逻辑标签判断方法分析
3.2.2 符合段落逻辑标签判断需求的n-gram倒排索引方法
3.2.3 用于段落逻辑标签判断的n-gram倒排索引方法
3.3 文档逻辑结构重建方法的设计思路
第4章 格式向量的提取及量化
4.1 文档模板中逻辑标签格式的提取
4.2 文档格式向量的生成
4.3 定量与定性分量的量化
4.3.1 隶属度
4.3.2 利用隶属度量化定性分量
4.4 本章小结
第5章 基于n-gram索引的段落逻辑标签判断方法
5.1 模板文档n-gram词典的构建
5.1.1 模板文档词典词汇表的构建
5.1.2 模板文档词典倒排索引的构建
5.2 待查文档的n-gram词典的构建
5.3 待查文档段落逻辑标签的判断
5.4 本章小结
第6章 文档逻辑结构重建
6.1 确定有向图相关参数
6.1.1 提取模板中逻辑标签出现顺序
6.1.2 段落逻辑标签判断结果
6.1.3 逻辑标签出现概率
6.2 构建有向图
6.2.1 得到有向图的节点
6.2.2 得到有向图的边
6.2.3 为有向图的边设置权值
6.3 图的最短路径算法
6.4 文档逻辑结构重建方法
6.4.1 单源最短路径算法的初始化
6.4.2 单源最短路径算法的松弛技术
6.4.3 单源最短路径算法
6.5 本章小结
第7章 文档排版格式检查系统的实现
7.1 系统功能模块
7.1.1 模板分析和信息提取模块
7.1.2 段落逻辑标签判断模块
7.1.3 文档逻辑结构重建模块
7.1.4 段落排版格式检查模块
7.2 系统功能实现
7.3 本章小结
第8章 实验结果分析
8.1 样本集的建立
8.1.1 段落逻辑标签样本集的建立
8.1.2 文档逻辑结构样本集的建立
8.2 评测方法
8.2.1 段落逻辑标签判断评测方法
8.2.2 文档逻辑结构重建评测方法
8.3 评测结果
8.3.1 段落逻辑标签判断结果
8.3.2 文档逻辑结构重建结果
8.4 本章小结
第9章 总结与展望
9.1 总结
9.2 展望
致谢
参考文献
附录
个人简历、在学期间发表的学术论文及研究成果