首页> 中文期刊> 《计算机研究与发展》 >搜索引擎索引网页集合选取方法研究

搜索引擎索引网页集合选取方法研究

         

摘要

随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.

著录项

  • 来源
    《计算机研究与发展》 |2014年第10期|2239-2247|共9页
  • 作者

    茹立云; 李智超; 马少平;

  • 作者单位

    智能技术与系统国家重点实验室(清华大学)北京 100084;

    清华信息科学与技术国家实验室(筹) 北京 100084;

    清华大学计算机科学与技术系 北京 100084;

    北京搜狗科技发展有限公司 北京 100084;

    智能技术与系统国家重点实验室(清华大学)北京 100084;

    清华信息科学与技术国家实验室(筹) 北京 100084;

    清华大学计算机科学与技术系 北京 100084;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 检索机;
  • 关键词

    搜索引擎; 内容签名; 文本聚类; 机器学习; 线性回归模型;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号