首页> 中文学位 >基于Web的文本信息检索算法的研究
【6h】

基于Web的文本信息检索算法的研究

代理获取

目录

文摘

英文文摘

论文原创性声明及论文知识产权权属声明

第1章绪论

1.1选题的背景及意义

1.2研究现状

1.3 本文研究的主要内容和目标

1.4论文的组织

第2章信息检索模型及算法研究

2.1信息检索的定义

2.2 经典的信息检索模型

2.2.1布尔模型

2.2.2向量空间模型

2.2.3概率模型

2.3主要的信息检索算法

2.3.1基于内容的检索方法

2.3.2基于内容和链接分析的融合检索方法

2.3.3基于分类和内容的融合检索方法

2.3.4检索方法间的比较

第3章Web文本信息的预处理

3.1网页噪音概述

3.1.1网页去噪的意义

3.1.2网页噪音的概念及分类

3.1.3相关研究

3.2一种基于网页框架和规则的去噪方法

3.3网页索引数据库的建立

第4章基于分解的向量空间模型的检索算法

4.1新闻文本信息检索

4.2基于传统向量空间模型的信息检索

4.3传统向量空间模型的优缺点

4.4分解的向量空间模型

4.4.1分解的向量空间模型概述

4.4.2通用权重及相似度计算方法

4.4.3时间相似度计算方法

4.4.4地点相似度计算方法

4.5基于分解的向量空间模型的检索算法

第5章系统的设计实现及评测

5.1基于传统的向量空间模型的信息检索系统的实现

5.1.1系统的框架

5.1.2网页去噪模块

5.1.3链接分析模块

5.1.4分词模块

5.1.5索引模块

5.1.6检索模块

5.1.7用户接口模块

5.1.8开发环境及技术框架

5.2基于分解的向量空间模型的信息检索系统的实现

5.2.1系统的框架

5.2.2语义分析器

5.2.3时间转换器

5.2.4地点相似度分析器

5.2.5最终相似度计算器

5.3系统的评测

5.3.1实验语料

5.3.2实验结果及分析

结 论

致 谢

参考文献

展开▼

摘要

随着计算机及互联网络技术的迅速发展,网上文本的数量成指数级增长,如何帮助用户高效准确地从这些海量信息中获取有用的信息是当前迫切需要解决的问题。因此,Web文本信息检索成为目前备受关注的一个热门研究课题。文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。 首先,本文介绍了信息检索的发展概况和相关技术,以及信息检索的定义,研究了信息检索的三个基本模型(布尔模型,向量空间模型,概率模型)和信息检索的算法(基于内容的检索算法,基于内容和链接分析的融合的检索算法,基于分类和内容的融合检索算法)。并对能提高检索性能的Web文本预处理技术进行了深入剖析。 其次,本文研究了传统的向量空间模型,并针对传统的向量空间模型的查全及查准率不高等问题,提出了一种分解的向量空间模型。 最后,本文为了对改进的算法模型进行评测,搭建了一个基于传统的向量空间模型的信息检索系统和一个基于分解的向量空间模型的信息检索系统。对这两个系统进行评测,结果表明该改进的模型在查全率和查准率都有很大提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号