首页> 中文期刊>计算机工程与应用 >基于Web挖掘的网页清洗技术

基于Web挖掘的网页清洗技术

     

摘要

随着互联网上信息的大量增多,Web挖掘技术越来越重要.而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果.在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息.

著录项

  • 来源
    《计算机工程与应用》|2006年第25期|98-101|共4页
  • 作者单位

    中国科技大学,合肥,230027;

    中国科学院计算技术研究所智能信息处理实验室,北京,100080;

    中国科学院计算技术研究所智能信息处理实验室,北京,100080;

    中国科学院计算技术研究所智能信息处理实验室,北京,100080;

    中国科学院计算技术研究所智能信息处理实验室,北京,100080;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 理论、方法;
  • 关键词

    Web数据; 信息抽取; 噪音数据;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号