首页> 中文学位 >基于向量空间的中文科技文献信息检索系统研究
【6h】

基于向量空间的中文科技文献信息检索系统研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究的目的和意义

1.2相关的研究内容

1.2.1中文科技文献的自动分词

1.2.2中文科技文献检索系统

1.3本文的主要工作

1.4本文的组织结构

第2章科技文献的信息检索模型

2.1信息检索模型的定义

2.2基本概念

2.2.1关键词

2.2.2权值

2.2.3停用词

2.2.4关键词和权值的集合表示

2.3布尔检索模型

2.3.1布尔检索模型的理论基础

2.3.2布尔模型中文献的表示

2.3.3布尔模型中查询的表示

2.3.4布尔模型的匹配函数

2.3.5布尔模型的优缺点及其改进

2.4向量空间模型

2.4.1向量空间模型的文献空间

2.4.2标引词空间

2.4.3项的权值

2.4.4相似度计算

2.5概率模型

2.5.1事件空间

2.5.2相似度的计算

2.6本章小结

第3章信息检索系统中的向量空间分析

3.1空间的表示

3.1.1文献空间的表示

3.1.2位置空间的表示

3.1.3查询空间的表示

3.1.4文献关系矩阵的计算及其语义

3.2文献频率和逆文献频率的计算

3.2.1对关键词词频(tf)的规范化

3.2.2信息检索系统中逆文献频率(idf)的计算

3.3检索系统性能的评价

3.4对传统向量空间的适应

3.5本章小结

第4章关键词分析和自动分词

4.1关键词分析

4.2文献的结构分析

4.2.1文献的物理结构

4.2.2文献的逻辑结构

4.3汉语自动分词

4.3.1分词方法

4.3.2自动分词中的歧义处理

4.3.3分词词典

4.4科技文献信息检索系统中的自动分词

4.4.1词典的构建

4.4.2分词算法

4.5本章小结

第5章科技信息检索系统的构建

5.1文献中关键词的提取

5.2科技文献的向量表示和分析

5.2.1位置向量权值的计算

5.2.2位置向量的规范化处理

5.2.3文献向量的权值计算

5.2.4查询向量的表示

5.2.5文献—关键词矩阵的优化分析

5.2.6检索系统的评价

5.3本章小结

结论

参考文献

致谢

展开▼

摘要

在实际信息检索系统中,信息检索系统的查全率和查准率都不是很高,针对不同的文献集,信息检索系统的性能也不一样,很多系统尽量适应各种文献的检索,这样性能就更加低效,与其说使检索系统适应各种文献类型不如退而求其次,针对不同的文献类型设计不同的检索系统,本文对使用最多的科技文献的结构进行了分析,针对科技文献的特点,对中文科技文献信息检索系统的各个方面进行了改进。 在讨论科技文献的自动分词之前首先分析了用来标引文献的关键词,根据文献标引中使用的关键词的特点,改进了分词词典和停用词表,使其更加适用于中文科技文献的标引需要。针对文献的五个部分使用了不同的分词算法,对篇名、摘要和参考文献使用双向最大分词算法,可以从中识别出歧义词。对于正文由于词语的重复率比较高,不对正文出现的少量歧义进行处理,也不会对词频产生大的影响。正文就只采用正向最大分词方法。 信息检索系统选用向量空间模型作为检索模型。在基于向量空间的信息检索系统中加入了位置空间,位置空间中篇名、摘要、关键词、正文和参考文献分别作为一个位置来处理,从中提取的关键词单独计算权值,构成位置向量,然后用位置向量来构造文献向量。文献向量构成整个文献空间矩阵。为了减小文献矩阵的摄动和长文献对词频的影响,本文把文献矩阵规范成了概率阵,并用矩阵的条件数证明了概率阵的摄动明显减小。由于信息检索系统的评价方法一直用查全率和查准率,这两种方法都是二值的评价方法,本文提出了一种偏移距离的方法来评价检索系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号