首页> 中文学位 >基于分类技术的网页去噪方法的研究
【6h】

基于分类技术的网页去噪方法的研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪论

1.1课题研究的背景与意义

1.2国内外研究现状

1.3本文的研究内容

1.4论文的组织结构

2 网页结构特点与网页去噪技术

2.1网页DOM树

2.2网页DOM树的解析

2.3网页去噪技术

2.4本章小结

3 基于分类方法的网页去噪

3.1常用分类方法

3.2分类方法的对比

3.3网页去噪分类模型

3.4本章小结

4 网页特征的提取与表示

4.1文本与标题相似度

4.2文本长度比

4.3链接文字比

4.4网页的标签特征

4.5本章小结

5 实验过程及评价

5.1数据获取与解析工具

5.2实验数据集

5.3实验及评价准则

5.4结果及其分析

5.5特征选择

5.6本章小结

6 总结与展望

参考文献

攻读硕士学位期间完成论文

致谢

声明

展开▼

摘要

互联网的快速发展使网络上的各种信息呈现出快速增长的趋势。如何从浩瀚的互联网文本中获取有效信息、分析网页数据之间的关联性等,是自然语言处理领域的一项挑战。网页导航、主题信息、超链接信息、版权信息等构成一个网页,其中除了网页正文信息外,其他的信息对于研究人员来说都属于噪音信息,这些噪音信息会对Web信息检索,网页分类等研究产生了不利的影响。
  为了使自然语言处理技术更好地应用到网页信息的研究中,提高对网页正文的处理能力,同时降低网页去噪领域对于网页模板的依赖性,本文提出了一种基于网页标签位置特征与文本特征相结合的网页去噪方法。该方法将HTML网页映射为相应的DOM树,在分析DOM树结构的基础上,抽取其中每一个标签节点的位置特征以及文本特征,同时考虑正文与标题的语义相似性,将这些DOM树节点在网页中所属的块分为正文节点和噪音节点,最后将它们表示为样本数据,运用机器学习中的分类方法进行分类实验。该方法实现简单且对于网页的模板依赖较小,具有一定的通用性。
  实验选取了决策树、朴素贝叶斯和支持向量机三种分类方法,通过对比实验验证了方法的有效性,同时实验还获得了较高的准确度,表明该方法能够较为精确地抽取出正文信息,去除网页噪音信息。最后,对实验结果进行了详细分析与讨论,总结导致误分类的原因。同时,通过特征选择实验将所选特征对于结果的贡献度及该特征的时间复杂度进行对比分析,论证特征选择对于模型训练精度和效率的重要性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号