首页> 中文学位 >中文垂直搜索技术的研究与实现
【6h】

中文垂直搜索技术的研究与实现

代理获取

摘要

随着互联网的迅捷发展,中国网民人数日益增多,网络提供的服务也五花八门,网站数量急剧增加,网站信息资源日益膨胀。面对浩如烟海的信息资源,如何精准有效的检索到令人满意的结果,不必在众多选择中游移不定而被信息海洋淹没,成了人们最为关注的问题。垂直搜索引擎的出现正迎合了这一契机,它致力于为人们提供更快,更高,更专业的检索服务。
   本文对目前搜索引擎技术领域的热点问题进行了探索性的研究,内容主要包括:
   1)爬虫爬取网页的过程,爬取初始种子集选择,运行时打开线程数与网络资源开销的关系。
   2)研究中文分词的分词方法,及目前流行的ICTCLAS,JE分词,paoding分词等几种分词方案在垂直搜索引擎中被植入后的分词效果。
   3)研究了在线网页聚类算法在Nuteh中的应用,主要分析了开源的carrot2中lingo和STC聚类算法的运行情况比对。
   4)对搜索引擎个性化方面研究主要完成语音输入,检索同义词转换,以及异构文档的处理。
   垂直搜索是和某专题相关的目标集中的资源的搜索。本文在垂直搜索的关键技术研究的基础上,设计了采用Nutch框架的面向全国高校的校园采风垂直搜索引擎系统。通过对该系统的测试,实验结果表明该系统有良好的查准率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号