首页> 中文学位 >HTML网页主题信息抽取方法研究
【6h】

HTML网页主题信息抽取方法研究

代理获取

目录

文摘

英文文摘

学位论文版权使用授权书及硕士学位论文原创性声明

第1章绪论

1.1问题的产生

1.2研究现状

1.2.1国外现状

1.2.2国内现状

1.2.3发展趋势及小结

1.3本文的研究内容与组织

第2章信息抽取技术

2.1什么是信息抽取

2.2信息抽取技术与信息检索的区别

2.3信息抽取技术的历史

2.4信息抽取系统的评价指标

2.5网页信息抽取的特点

2.6网页信息抽取的分类

2.6.1按自动化程度分类

2.6.2按抽取原理分类

第3章网页主题信息抽取算法

3.1算法基础

3.1.1 DOM(文档对象模型)

3.1.2 HTML解析

3.1.3内容块

3.2算法综述

3.3网页获取及网页类型判定

3.3.1网页获取

3.3.2网页类型判定

3.4过虑算法

3.5语义分析与主题内容块判定算法

3.5.1语义分析

3.5.2主题内容块判定

3.6剪枝算法

3.7算法总结

第4章算法测评及应用

4.1实验系统的组成

4.2实验数据集

4.3实验测评标准

4.4实验结果及分析

4.5网页主题信息提取的应用领域

第5章结论和未来的展望

5.1结论

5.2未来的展望

致谢

参考文献

个人简历 在读期间发表的学术论文与研究成果

展开▼

摘要

Web页面所表达的“主题”信息通常隐藏在大量无关结构和文字中,通常我们在浏览Web上的网页时会发现两部分内容:一部分内容体现的是网页的主题信息,比如一张新闻网页中的新闻部分,称之为“主题”内容;另一部分则是与主题内容无关的导航条、广告信息、版权信息以及调查问卷等内容,我们称之为“噪音”内容。大量的无关内容存在使得用户不能迅速获取主题信息,准确完整地提取网页主题信息是影响Web应用服务质量的关键技术之一。本文基于Dog规范,把网页的HTML文档表示成一棵DOM树,然后提出一种新的结点主题相关判定方法,这种方法综合了局部相关度和上下文相关度的网页主题内容块判定算法。依据此判定方法判定出要抽取的内容,并删除掉无关的内容,最后输出只含有主题信息的HTML文档。与现有采用的算法相比,新方法利用一个更加精确的主题内容块判定算法,能够准确地提取出主题信息。方法不依赖于网页的模板信息,是一种通用的主题信息提取方法。实验结果也证明了方法的准确性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号