文摘
英文文摘
学位论文版权使用授权书及硕士学位论文原创性声明
第1章绪论
1.1问题的产生
1.2研究现状
1.2.1国外现状
1.2.2国内现状
1.2.3发展趋势及小结
1.3本文的研究内容与组织
第2章信息抽取技术
2.1什么是信息抽取
2.2信息抽取技术与信息检索的区别
2.3信息抽取技术的历史
2.4信息抽取系统的评价指标
2.5网页信息抽取的特点
2.6网页信息抽取的分类
2.6.1按自动化程度分类
2.6.2按抽取原理分类
第3章网页主题信息抽取算法
3.1算法基础
3.1.1 DOM(文档对象模型)
3.1.2 HTML解析
3.1.3内容块
3.2算法综述
3.3网页获取及网页类型判定
3.3.1网页获取
3.3.2网页类型判定
3.4过虑算法
3.5语义分析与主题内容块判定算法
3.5.1语义分析
3.5.2主题内容块判定
3.6剪枝算法
3.7算法总结
第4章算法测评及应用
4.1实验系统的组成
4.2实验数据集
4.3实验测评标准
4.4实验结果及分析
4.5网页主题信息提取的应用领域
第5章结论和未来的展望
5.1结论
5.2未来的展望
致谢
参考文献
个人简历 在读期间发表的学术论文与研究成果
北京信息科技大学;
北京机械工业学院;