文摘
英文文摘
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 文本信息抽取技术
1.2.2 文本特征选择技术
1.3 本文研究内容
1.4 论文组织结构
第二章 相关理论和技术
2.1 网页正文抽取技术
2.2 信息熵理论
2.2.1 信息熵
2.2.2 条件熵
2.2.3 互信息
2.3 中文分词技术
2.4 本章小结
第三章 多格式文档内容抽取技术研究
3.1 多格式文档内容抽取的问题分析
3.2 多格式文档内容抽取模型
3.3 内容抽取算法研究
3.3.1 HTML文档内容抽取
3.3.2 WORD文档内容抽取
3.3.3 XML文档内容抽取
3.3.4 文档PDF内容抽取
3.4 本章小结
第四章 基于信息增益和内容属性的特征选择算法
4.1 文本的向量空间模型
4.2 文本特征选择问题分析
4.3 文本特征选择算法设计
4.3.1 词性过滤
4.3.2 内容选择
4.3.3 CPIG特征选择算法
4.4 本章小结
第五章 多格式文档抽取系统的设计与实现
5.1 系统设计目标
5.2 系统总体设计
5.2.1 系统体系结构
5.2.2 系统功能模块
5.3 主要模块设计与实现
5.3.1 文档内容抽取模块
5.3.2 特征选择模块
5.3.3 数据传输和服务调用
5.4 本章小结
第六章 实验研究与系统测试
6.1 实验设计
6.1.1 实验内容
6.1.2 性能评价标准
6.1.3 实验环境和数据集
6.2 实验结果及分析
6.3 MDES系统测试
6.3.1 文档抽取测试
6.3.2 特征选择测试
6.3.3 服务调用测试
6.4 本章小结
第七章 总结与展望
致谢
参考文献
在读期间参与项目