首页> 中文学位 >基于格式索引和图的文档排版格式检查方法研究
【6h】

基于格式索引和图的文档排版格式检查方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究现状

1.3 主要研究内容

1.4 研究意义

1.5 论文组织结构

第2章 相关理论基础

2.1 OOXML文档格式与Word文档对象模型

2.2 模板获取方法

2.3 段落逻辑标签判断方法

2.3.1 可提取的格式特征

2.3.2 分类方法

2.4 逻辑结构重建方法

2.5 本章小结

第3章 总体设计方案

3.1 改进格式向量中定性分量的量化方法

3.2 改进段落逻辑标签判断方法

3.2.1 YSN段落逻辑标签判断方法分析

3.2.2 符合段落逻辑标签判断需求的n-gram倒排索引方法

3.2.3 用于段落逻辑标签判断的n-gram倒排索引方法

3.3 文档逻辑结构重建方法的设计思路

第4章 格式向量的提取及量化

4.1 文档模板中逻辑标签格式的提取

4.2 文档格式向量的生成

4.3 定量与定性分量的量化

4.3.1 隶属度

4.3.2 利用隶属度量化定性分量

4.4 本章小结

第5章 基于n-gram索引的段落逻辑标签判断方法

5.1 模板文档n-gram词典的构建

5.1.1 模板文档词典词汇表的构建

5.1.2 模板文档词典倒排索引的构建

5.2 待查文档的n-gram词典的构建

5.3 待查文档段落逻辑标签的判断

5.4 本章小结

第6章 文档逻辑结构重建

6.1 确定有向图相关参数

6.1.1 提取模板中逻辑标签出现顺序

6.1.2 段落逻辑标签判断结果

6.1.3 逻辑标签出现概率

6.2 构建有向图

6.2.1 得到有向图的节点

6.2.2 得到有向图的边

6.2.3 为有向图的边设置权值

6.3 图的最短路径算法

6.4 文档逻辑结构重建方法

6.4.1 单源最短路径算法的初始化

6.4.2 单源最短路径算法的松弛技术

6.4.3 单源最短路径算法

6.5 本章小结

第7章 文档排版格式检查系统的实现

7.1 系统功能模块

7.1.1 模板分析和信息提取模块

7.1.2 段落逻辑标签判断模块

7.1.3 文档逻辑结构重建模块

7.1.4 段落排版格式检查模块

7.2 系统功能实现

7.3 本章小结

第8章 实验结果分析

8.1 样本集的建立

8.1.1 段落逻辑标签样本集的建立

8.1.2 文档逻辑结构样本集的建立

8.2 评测方法

8.2.1 段落逻辑标签判断评测方法

8.2.2 文档逻辑结构重建评测方法

8.3 评测结果

8.3.1 段落逻辑标签判断结果

8.3.2 文档逻辑结构重建结果

8.4 本章小结

第9章 总结与展望

9.1 总结

9.2 展望

致谢

参考文献

附录

个人简历、在学期间发表的学术论文及研究成果

展开▼

摘要

目前排版格式主要依靠人工检查,准确率和效率都较低,现有的一些自动排版格式检查算法适用范围有限,文档格式向量没有合理量化,检查准确率较低,难以重构文档的整体逻辑结构。为了解决这些问题,本课题设计隶属度表,解决格式向量的定性分量难以合理量化,段落无法跟任意逻辑标签对比的问题;设计基于n-gram索引的段落逻辑标签判断方法,提高段落逻辑标签判断的正确率和召回率;设计基于图最短路径的文档逻辑结构重建方法,解决难以重建文档逻辑结构的问题。其中隶属度表使用模糊识别的隶属度概念,将格式向量中的定性分量用隶属度根据统计量化,使得段落可以跟任意逻辑标签对比;基于n-gram索引的段落逻辑标签判断算法借鉴拼写校正中的n-gram索引,将格式向量切分成多个n-gram,使得向量相似度计算时各分量彼此独立,提高了计算精确度;基于图最短路径的文档逻辑结构重建方法在段落逻辑标签判断的基础上生成图,利用最短路径排除掉多余的逻辑标签,从而重建逻辑结构。实验证明,这3种方法结合能够合理量化向量,准确判断段落逻辑标签,完整重构文档逻辑机构,不仅可以有效进行排版格式检查,也为文档复用和文档检索提供了基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号