首页> 中文学位 >内容相关性驱动的Web资源离群点挖掘技术研究与系统实现
【6h】

内容相关性驱动的Web资源离群点挖掘技术研究与系统实现

代理获取

摘要

随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。但由于Web信息来源极为广泛,信息发布带有很大的随意性,在为用户提供信息的同时,也造成了信息过载和信息污染。对Web资源进行必要的评测,有助于人们快速获取网上高质量的信息。基于内容相关性的web资源离群点挖掘就是研究如何从内容相关性的角度获取Web内容资源高质量的数据。
   本文使用web内容离群点挖掘算法对web资源内容相关性质量进行量化评测,并实现了一个原型系统。该系统包含两个模块:web文本内容抽取和web文本内容离群点挖掘。在第一个模块中,针对新闻网页内容比较集中的特点,本论文采用基于统计的链接密度和链接文本密度的方法对HTML网页的正文进行抽取,并将相关内容集成到一个XML页面中;在第二个模块中,利用N—gram技术对获得的XML文件中各个文档进行建模,再应用文本内容离群点检测算法,检测出文档集中内容不相关的文本,并分析讨论了挖掘结果的合理性和效果。
   实验结果表明,利用基于统计的链接密度和链接文本密度可以准确地对中英文页面正文内容进行抽取,同时利用基于距离的文本内容离群点检测算法,可以较为有效地发现同类文本集中内容不相关的网页。实验表明本文所实现的web资源内容相关性质量离群点挖掘系统具有一定的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号