首页> 中文学位 >搜索引擎技术的研究与实现—元搜索引擎和文本聚类
【6h】

搜索引擎技术的研究与实现—元搜索引擎和文本聚类

代理获取

摘要

信息检索(Information Retrieval, IR)是从数据集中提取出相关文档和信息的过程,Web的出现改变了传统意义上信息检索的方式,信息检索的对象也逐渐从结构化向半结构化、无结构化的方向转变。随着互联网上信息数量的不断增长,传统的检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从搜索结果中快速、准确地定位自己想要的信息,集成文本聚类功能的搜索引擎应运而生。 本文针对目前信息检索领域存在的相关问题,重点研究了搜索结果聚类算法和关键短语发现技术。文中提出了一个有效改善检索质量和检索效率的解决方案,并通过聚类方法自动组织搜索引擎的搜索结果,实现了一个集元搜索功能和聚类功能于一体的信息检索平台。它涵盖了Web文档收集、半结构化文档分析、信息聚类处理等方面内容,有效地增强了数据检索的实时性和准确性、改善了用户的使用体验。 本文的创新点主要体现在以下几个方面: 1. 研究了基于潜在语义的模糊聚类算法。通过在聚类算法中使用奇异值分解技术来发现文档集合中蕴含的抽象概念,有效地避免了数据噪音的干扰,缩短了计算时间,提高了系统的准确性和实时性。 2. 研究了基于后缀数组的关键短语发现算法,并利用它确定文档的特征值,构建聚类的描述信息。 3. 设计并实现了一个集元搜索功能和聚类功能于一体的信息检索平台,有效地改善了搜索引擎的检索质量,提高了用户的满意度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号