首页> 中文学位 >主题型网页的信息抽取技术研究
【6h】

主题型网页的信息抽取技术研究

代理获取

摘要

随着互联网络技术的发展,万维网作为一种新兴的信息媒介已经越来越多的渗入到社会的经济、文化、教育以及娱乐等各个领域,并作为其中的重要组成部分,改变着我们的工作和生活。主题型网页作为万维网中最主要的网页类型之一,主要包括了新闻网页、论坛(BBS)、博客三种类型的网页,其中的论坛和博客网页,由于它们包含了丰富的社会舆论信息和各个领域的知识,如同一个巨大的信息库,而受到了人们广泛的关注。因此,研究针对主题型网页的信息抽取技术将有助于人们更充分的利用这个信息库,无论是对社会学的研究、或是对网络舆情收集还是进行数据挖掘、知识发现都具有重要的贡献意义。
   本文在主题型网页信息提取方面做了以下研究:
   (1)本文提出了一种估算网页图片信息量和图片有效信息量的方法,并以此为基础提出了一个基于图文信息量的网页正文定位算法。通过对网页中最小正文子树的定位,以达到去除网页中的噪音的目的,并且通过实验验证了该算法具有较好的去除网页噪音的效果。
   (2)针对以往网页中评论发现方法中的不足,提出了一种新的基于后缀树的网页评论算法,该算法综合考虑了网页标签的视觉信息与HTMLDOM树的层次信息,在不需要进行网页人工标注、比较HTMLDOM子树的相似度和人为设置阈值的情况下,也能够对网页中的评论信息进行自动抽取。经过试验验证,该方法能够达到一个较好的准确率和查全率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号