首页> 中文学位 >垂直搜索引擎技术研究与应用——承乘广缘网站搜索引擎的设计
【6h】

垂直搜索引擎技术研究与应用——承乘广缘网站搜索引擎的设计

代理获取

目录

第一章 绪论

第二章 背景知识和相关技术研究现状

第三章 搜商网垂直搜索引擎的SPIDER设计

第四章 搜商网文本分类器设计

第五章 搜商网索引数据库设计

第六章 搜商网垂直搜索引擎的系统设计

第七章 总结与展望

致谢

参考文献

攻读硕士学位期间所发表的论文

声明

展开▼

摘要

随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。此外,工作频率不断加快的现代商务人群对通用搜索页面中的大量非目标源信息感到不满,开始对专业领域的搜索精确性产生了强烈的需求,因此,而向专业领域的搜索引擎即垂直搜索引擎应运而生。承乘广缘网络科技有限公司针对这一需求,筹各创建面向商业用户的垂直搜索引擎一一搜商网。
   本文依托该项目研究设计了搜商网的搜索引擎。本文分析了当前Web信息检索的模型及算法,针对搜商网垂直搜索引擎中的一些关键问题展开研究,主要包括三个核心模块:搜商网的信息爬取、信息分类及信息索引。
   信息爬取模块针对如今Web上页面上噪声较多,且相关链接较为集中,成块出现等特点,对原有的Shark-Search算法进行了改进,具体内容包括避开广告等与主题无关的噪声,提高相关网页块中锚文本与主题无关链接的优先级,使相关链接优先爬取,并获得更多相关链接。
   信息分类模块提出了一种简单的阶梯式一对一支持向量机文本分类器。分类算法分析了支持向量机在文本分类中的优势,结合支持向量机理论二分类的特点,将多类依次使用多个分类器分开,这种方法拥有模型简单,分类准确及易于实现等优点。
   信息索引模块提出了一种基于中文分词索引的倒排序索引数据库。本文使用由正排索引结果建立倒排索引的方法建立索引数据库,并在索引库中使用改进的链表式存储结构,减少了更新数据库多花费的服务器开销。
   最后基于以上设计,本文给出了搜商网垂直搜索引擎的系统总体框架设计。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号