首页> 中文学位 >网页信息的自动抽取方法研究
【6h】

网页信息的自动抽取方法研究

代理获取

目录

文摘

英文文摘

第一章序论

1.1引言

1.1.1背景

1.1.2 XML的出现

1.1.3网页信息抽取

1.2网页信息抽取要解决的主要问题

1.2本文的工作

第二章网页信息抽取技术相关研究

2.1网页抽取技术的发展历史

2.2相关研究

2.2.1基于自然语言理解的方法

2.2.2基于机器学习的方法

2.2.3基于Ontology的方法

2.2.4基于网页结构分析的方法

2.4小结

第三章目标信息所在区域的确定

3.1问题描述

3.2 HTML

3.3 XML

3.4 DOM

3.5基于标记树的目标信息区域确定方法

3.5.1相关概念的定义

3.5.2基于标记树的启发式方法

3.6实验结果

3.7小结

第四章记录的抽取

4.1问题描述

4.2记录抽取相关研究

4.3基于最大相似子树(MSST)方法的记录抽取

4.3.1基本思想

4.3.2基于最大相似子树的记录抽取方法

4.4实验结果

4.5 小结

第五章记录属性的抽取

5.1问题描述

5.2记录属性抽取的相关研究

5.3基于隐马尔可夫模型的属性抽取

5.3.1 HMM简介及其在网页信息抽取上的应用

5.3.2 HMM结构的选择

5.3.3 HMM参数的学习

5.4实验结果

5.5 小结

第六章总结和未来的工作

6.1总结

6.2未来的工作

参考文献

致 谢

攻读硕士学位期间的参研项目和发表论文

展开▼

摘要

本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同,对多项相关的研究做了概要性的叙述,介绍了这些研究的思想及其优、缺点。对于目标记录所在区域的确定,本文使用基于启发式的方法来解决,介绍了三种针对这一问题的启发式,分别从节点扇出、子树大小增量和子树标记数三个方面对网页进行考察,并且将它们结合起来使用以取得更好的效果。对于记录的抽取,针对现有方法对噪声敏感的问题,本文提出了基于记录子树的最大相似度发现记录模式的思想,称为最大相似子树方法,将相似度超过一定阈值的子树识别为同类记录。这种方法在同类记录的表现模式有一定差异的情况下依然能够正确识别记录。对于记录属性的抽取,本文将隐马尔可夫模型用于网页信息抽取问题,介绍了隐马尔可夫模型的基本结构以及如何将其应用到信息抽取领域。针对本文的特定问题,确定了隐马尔可夫模型的结构,并使用训练样本学习了模型的参数。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号