首页> 中文学位 >Web检索中的查询扩展及结果聚类技术研究
【6h】

Web检索中的查询扩展及结果聚类技术研究

代理获取

目录

文摘

英文文摘

1 绪论

1.1 研究背景

1.2 研究动机

1.3 研究现状

1.4 论文主要研究内容

1.5 论文的组织结构

2 关键概念技术

2.1 信息检索及Web文本挖掘

2.1.1 信息检索及搜索引擎

2.1.2 文本分类与聚类

2.1.3 Web文本挖掘

2.1.4 检索结果聚类

2.2 查询扩展方法的分类

3 与课题相关的技术及算法

3.1 文本自动处理技术

3.2 文本分类与聚类技术

3.2.1 文本相似度度量

3.2.2 文本分类及聚类算法

3.3 语义关联树

3.4 后缀树相关知识简介

3.4.1 索回树(Trie)

3.4.2 后缀树概念的提出

3.4.3 后缀数组

3.5 向量空间模型

3.5.1 向量空间模型及相关概念

3.5.2 文本特征权重

3.5.3 基于向量空间模型的文本检索

3.5.4 潜在语义标引

3.5.5 奇异值分解

3.6 针对检索结果的聚类算法

3.6.1 搜索结果聚类算法的特点

3.6.2 后缀树聚类(STC)算法

3.6.3 SHOC和Lingo算法

4 基于语义关联树的分类查询扩展算法

4.1 引言

4.2 基于语义关联树的查询扩展

4.2.1 语义关联树元素的提取

4.2.2 语义关联树模型的构造

4.3 语义关联树构造算法及分类查询扩展算法的实现

4.3.1 分类语料库的建立

4.3.2 分类构造算法

4.3.3 查询扩展算法

4.4 实验过程

4.4.1 实验结果及分析

4.4.2 小结

5 CQIG-一种改进的Web检索结果聚类算法研究

5.1 引言

5.2 CQIG算法介绍

5.2.1 算法涉及的主要概念

5.2.2 CQIG算法的主要步骤

5.2.3 CQIG的聚类及聚类标签打分公式改进

5.3 CQIG算法实现及实验结果分析

5.3.1 基于Ambient数据集的聚类质量评测

5.3.2 基于Web搜索结果聚类推荐平台的实验结果对比分析

5.4 本章小结

6 结论与未来研究方向

6.1 结论

6.2 未来研究方向

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

近年来随着互联网技术的发展,Web信息量飞速增长,如何从大量信息中迅速有效地检索出所需的信息成为了人们关注的问题,搜索引擎也因此走入了人们的生活。如今,搜索引擎的功能日益强大,抓取的信息也日益增多,但用户却似乎越来越难检索到自己所需要的信息。归结因为主要有两点,一是由于关键词所能够反映的信息量是有限的,用户无法通过简单的几个查询词准确的表达自己的查询意图。二是由于目前典型的搜索引擎返回的是一个处理后的结果列表,内容非常杂乱和庞大,由于缺少反映搜索结果内部关联的信息,用户很难从迅速识别出自己需要的信息。针对以上两点主要问题,本文主要研究了用户查询扩展技术和搜索结果自动聚类技术。
   在查询扩展技术中引入语义计算是一个重要研究方向。现有的解决方法普遍存在引入无关词、缺少领域知识以及筛选函数不恰当的问题。本文提出了一种结合了领域知识选取与局部反馈的语义关联树的查询扩展模型,从语义的角度进行查询扩展,改进了扩展词筛选函数、增加了阈值限定,有效控制了噪音。
   在聚类算法上,STC方法是一种公认较好的用于Web搜索结果聚类的算法。SHOC、Lingo算法将向量空间模型(VSD Model)与后缀树文档表示模型结合起来,既考虑了词的位置信息,又考虑词的统计特性,在STC的基础上有了较好的发展。然而,现有的聚类算法普遍存在聚类标签可读性不强,信息量不足,区分性较差等问题,且聚类结果不能充分反映用户兴趣。
   本文提出了一种改进的Web检索结果聚类推荐算法CQIG,构建后缀数组找到完整短语,结合矩阵奇异值分解产生候选聚类标签,选取更为有效的特征改进标签评分公式和聚类得分公式。同时采用了基本类合并技术,产生了更具表述性、区分性和可读性的聚类结果并有效控制了重叠聚类。本文方法同时还加强了对于中文检索的处理效果。
   本文建立了Web搜索结果聚类推荐引擎,采用了carrot2平台作为基础框架,通过各种大型搜索引擎API获得源数据,通过网页清洗,分词,提取特征项,建立VSM,构造CQIG、STC及Lingo进行聚类,聚类后把聚类结果展现给用户。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号