首页> 中文学位 >数据库中关键词的查询扩展研究
【6h】

数据库中关键词的查询扩展研究

代理获取

目录

摘要

第一章 引言

1.1 选题背景和意义

1.2 研究现状

1.3 研究存在的问题

1.4 本文主要工作

1.5 本文结构

1.6 本章小结

第二章 相关研究

2.1 信息检索与语义检索

2.1.1 信息检索

2.1.2 语义检索

2.2 信息检索模型简介

2.2.1 布尔模型

2.2.2 概率模型

2.2.3 向量空间模型

2.3 语义检索技术简介

2.3.1 基于语义的查询扩展技术

2.3.2 LSA

2.3.3 PLSA

2.4 聚类

2.4.1 图聚类

2.5 本章小结

第三章 Index-LSA

3.1 引言

3.2 LSA在线处理过程

3.3 Index LSA

3.3.1 剪枝索引

3.3.2 剪枝索引算法

3.3.3 IndexLSA

3.3.4 IndexLSA示例

3.3.5 IndexLSA分析

3.4 实验

3.4.1 实验设置

3.4.2 评估方法

3.4.3 时间开销

3.4.4 查询效果

3.4.5 Scalability

3.5 小结

第四章 LINK-LSA

4.1 异构网络

4.2 SimTree

4.2.1 链接度对相似的影响

4.2.2 SimTree

4.2.3 构建SimTree

4.2.4 调整SimTree

4.2.5 合并相似度计算过程

4.2.6 SimTree总结

4.3 Link-LSA算法框架

4.4 Link-LSA算法分析

4.5 实验

4.5.1 数据环境及实验数据

4.5.2 离线处理时间比较

4.5.3 在线查询时间比较

4.5.4 查询准确度比较

4.6 Link-IndexLSA

4.7 本章小结

第五章 总结

5.1 工作总结

5.2 现有工作不足

5.3 未来展望

参考文献

致谢

硕士期间发表的论文

硕士期间参与的科研项目

声明

展开▼

摘要

数据库关键词的语义检索作为数据库关键词查找的一个重要研究方向,在近几年已经得到了广泛关注。与精确查询相比,语义检索能够发现潜在的检索结果,给用户返回更多的查询结果,用户也能够提供更加灵活的查询方式。潜在语义分析(LSA)是一种广泛使用的近似查询处理技术手段,这种方法采用奇异值分解(SVD)的方法分解词与文档的关联矩阵,通过低阶近似矩阵挖掘词与词之间的潜在关系,利用余弦相似度来衡量查询语句(或文档)与文档之间的相似度。LSA不仅满足了用户近似查询的需求,而且能够解决一义多词的问题,然而,LSA离线奇异值分解时间和在线查询处理的执行时间非常高,并随着文档集规模增加而显著增大,难以满足大规模数据集的需求。
  本文围绕LSA离线处理效率以及在线查询处理效率问题展开研究,并提出相应的解决措施,主要工作概括如下:
  1.分析了影响在线查询处理效率的主要因素,基于分析结果文档的稀疏特征提出了一种索引结构,用于存储SVD分解后词与文档在降维空间的紧密度。基于结构索引,提出一种快速在线查询处理算法(IndexLSA)。理论分析表明,对于相同的查询,IndexLSA与LSA能够返回相同的结果序列。
  2.通过设置阈值来减少索引规模,生成一种剪枝索引。基于剪枝索引,进而提出一种基于索引结构的在线查询处理剪枝算法。IndexLSA的在线查询时间受索引规模的影响,通过设置阈值,剪枝索引可以将与词之间联系不够紧密的文档从索引中“剪去”,从而大规模地减少候选集的规模,达到提高在线查询效率的目的。理论分析表明,剪枝索引虽然带来了部分误差,但是误差对结果的影响在可以预见的范围之内。真实数据集上的实验结果表明,IndexLSA不仅可以大幅度地减少LSA的在线查询时间,而且具有较好的查询效果。
  3.结合链接聚类算法,提出了Link-LSA算法,并且将其与剪枝索引结合,提出了Link-IndexLSA算法。Link-LSA考察异构空间中不同数据实体之间的链接关系,通过链接对文档实体进行相似度的衡量并将文档聚类成簇。Link-LSA使用簇进行LSA处理。真实数据集上的实验结果表明,Link-LSA不仅大幅度地减少了奇异值分解的时间,并且能够有效地提高LSA的召回率。Link-IndexLSA则在在线查询处理上对Link-LSA进行了改进。

著录项

  • 作者

    李珀瀚;

  • 作者单位

    复旦大学;

  • 授予单位 复旦大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 汪卫;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据库; 关键词检索; 潜在语义分析;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号