文摘
英文文摘
第一章序论
1.1引言
1.1.1背景
1.1.2 XML的出现
1.1.3网页信息抽取
1.2网页信息抽取要解决的主要问题
1.2本文的工作
第二章网页信息抽取技术相关研究
2.1网页抽取技术的发展历史
2.2相关研究
2.2.1基于自然语言理解的方法
2.2.2基于机器学习的方法
2.2.3基于Ontology的方法
2.2.4基于网页结构分析的方法
2.4小结
第三章目标信息所在区域的确定
3.1问题描述
3.2 HTML
3.3 XML
3.4 DOM
3.5基于标记树的目标信息区域确定方法
3.5.1相关概念的定义
3.5.2基于标记树的启发式方法
3.6实验结果
3.7小结
第四章记录的抽取
4.1问题描述
4.2记录抽取相关研究
4.3基于最大相似子树(MSST)方法的记录抽取
4.3.1基本思想
4.3.2基于最大相似子树的记录抽取方法
4.4实验结果
4.5 小结
第五章记录属性的抽取
5.1问题描述
5.2记录属性抽取的相关研究
5.3基于隐马尔可夫模型的属性抽取
5.3.1 HMM简介及其在网页信息抽取上的应用
5.3.2 HMM结构的选择
5.3.3 HMM参数的学习
5.4实验结果
5.5 小结
第六章总结和未来的工作
6.1总结
6.2未来的工作
参考文献
致 谢
攻读硕士学位期间的参研项目和发表论文