首页> 中文学位 >中文搜索结果及新闻网页的聚类研究
【6h】

中文搜索结果及新闻网页的聚类研究

代理获取

摘要

随着中国互联网的飞速发展,中文互联网页在5 年内增长了120 倍,可查网页数已经达到6 亿。海量的网页在为人们提供包罗万象、无比丰富的信息资源的同时,也向人们提出了如何快速从中获取其所需信息的挑战。搜索引擎的存在方便了人们对信息的查找,但是,人们通常无法用简单的几个词来描述自己的信息需求。对于一个检索查询词,搜索引擎往往会返回成千上万的文本结果,这些结果是动态而简单的,但绝大部分对于某个特定的用户而言都是不相关的。因此,用户必须通过浏览冗长的列表才能找到自己需要的信息。此外,查询词也往往具有歧义,不同用户具有不同的背景、兴趣以及使用目的。因此,我们对中文网页搜索结果进行聚类及可视化等方面的研究,为用户提供更加智能的搜索服务。 同时,门户网站的新闻浏览也是用户获取进行信息的重要途径。国内的新浪、搜狐、百度、中搜等网站每天发布上万条新闻,并提供了分类的层次目录供用户选择。目前的新闻主要是按照要闻、国内、国际、社会、体育、娱乐、互联网的方式进行分类。RSS 新闻聚合服务的提出改变了新闻浏览的方式,用户可以定制新闻,方便地利用RSS 阅读器得到最新消息。但是,即使如此,用户还是需要从特定的类别中分拣出自己真正需要的信息,阅读负担沉重。本文在目前机器学习、数据挖掘和人工智能理论的基础上,提出新型的算法、理论和检索模式来对中文Web 检索结果进行优化,充分利用聚类技术对检索结果进行分析,并通过动态交互的界面来可视化结果,有针对性地对搜索结果进行过滤;对中文新闻进行采用类似的聚类模型,提取出特征短语作为每个类的描述,最后整合到RSS 阅读器中实现了更为高效的分类和聚类相结合的新闻阅读系统。这些研究对于提高中文搜索引擎的效率与效果,促进个性化的新闻定制具有十分重要的现实意义。

著录项

  • 作者

    刘巍;

  • 作者单位

    上海交通大学;

  • 授予单位 上海交通大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 俞勇;
  • 年度 2006
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    搜索结果; 聚类; 新闻门户; RSS;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号