首页> 中文学位 >文档内容抽取与特征选择技术的研究与实现
【6h】

文档内容抽取与特征选择技术的研究与实现

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 文本信息抽取技术

1.2.2 文本特征选择技术

1.3 本文研究内容

1.4 论文组织结构

第二章 相关理论和技术

2.1 网页正文抽取技术

2.2 信息熵理论

2.2.1 信息熵

2.2.2 条件熵

2.2.3 互信息

2.3 中文分词技术

2.4 本章小结

第三章 多格式文档内容抽取技术研究

3.1 多格式文档内容抽取的问题分析

3.2 多格式文档内容抽取模型

3.3 内容抽取算法研究

3.3.1 HTML文档内容抽取

3.3.2 WORD文档内容抽取

3.3.3 XML文档内容抽取

3.3.4 文档PDF内容抽取

3.4 本章小结

第四章 基于信息增益和内容属性的特征选择算法

4.1 文本的向量空间模型

4.2 文本特征选择问题分析

4.3 文本特征选择算法设计

4.3.1 词性过滤

4.3.2 内容选择

4.3.3 CPIG特征选择算法

4.4 本章小结

第五章 多格式文档抽取系统的设计与实现

5.1 系统设计目标

5.2 系统总体设计

5.2.1 系统体系结构

5.2.2 系统功能模块

5.3 主要模块设计与实现

5.3.1 文档内容抽取模块

5.3.2 特征选择模块

5.3.3 数据传输和服务调用

5.4 本章小结

第六章 实验研究与系统测试

6.1 实验设计

6.1.1 实验内容

6.1.2 性能评价标准

6.1.3 实验环境和数据集

6.2 实验结果及分析

6.3 MDES系统测试

6.3.1 文档抽取测试

6.3.2 特征选择测试

6.3.3 服务调用测试

6.4 本章小结

第七章 总结与展望

致谢

参考文献

在读期间参与项目

展开▼

摘要

随着越来越多的信息以电子文档的形态存在,文本处理相关软件也日益增多。在文本处理领域,传统单一格式文档处理系统在扩展性和通用性方面已经不能满足需求。对于文本特征的选择,现有技术主要是从词的频率和词的语义信息两个方面进行处理,忽略了词在源文档中的重要程度。
  本文针对以上问题,以军事领域文档处理为背景,为多格式文档定义了一种统一的半结构化文本模型,有效地保留了词在源文档中的语义结构信息。在此基础上研究了HTML、XML、PDF和WORD文档的内容抽取和特征选择技术。在HTML正文抽取中,改进了基于DOM树的网页正文抽取算法。此外,针对现有文本特征选择算法存在的问题,提出了一种基于信息增益和内容属性的特征选择算法,有效地降低了特征维度,使得所选出的特征集合具有更强的区别度。在对内容抽取和特征选择技术研究的基础上,设计并实现了多格式文档抽取系统。
  最后,通过实验验证了改进后的HTML正文抽取算法以及基于信息增益和内容属性的特征选择算法的高效性,同时对多格式文档抽取系统进行了功能测试,实验证明系统达到了设计要求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号