文摘
英文文摘
论文原创性声明及论文知识产权权属声明
第1章绪论
1.1选题的背景及意义
1.2研究现状
1.3 本文研究的主要内容和目标
1.4论文的组织
第2章信息检索模型及算法研究
2.1信息检索的定义
2.2 经典的信息检索模型
2.2.1布尔模型
2.2.2向量空间模型
2.2.3概率模型
2.3主要的信息检索算法
2.3.1基于内容的检索方法
2.3.2基于内容和链接分析的融合检索方法
2.3.3基于分类和内容的融合检索方法
2.3.4检索方法间的比较
第3章Web文本信息的预处理
3.1网页噪音概述
3.1.1网页去噪的意义
3.1.2网页噪音的概念及分类
3.1.3相关研究
3.2一种基于网页框架和规则的去噪方法
3.3网页索引数据库的建立
第4章基于分解的向量空间模型的检索算法
4.1新闻文本信息检索
4.2基于传统向量空间模型的信息检索
4.3传统向量空间模型的优缺点
4.4分解的向量空间模型
4.4.1分解的向量空间模型概述
4.4.2通用权重及相似度计算方法
4.4.3时间相似度计算方法
4.4.4地点相似度计算方法
4.5基于分解的向量空间模型的检索算法
第5章系统的设计实现及评测
5.1基于传统的向量空间模型的信息检索系统的实现
5.1.1系统的框架
5.1.2网页去噪模块
5.1.3链接分析模块
5.1.4分词模块
5.1.5索引模块
5.1.6检索模块
5.1.7用户接口模块
5.1.8开发环境及技术框架
5.2基于分解的向量空间模型的信息检索系统的实现
5.2.1系统的框架
5.2.2语义分析器
5.2.3时间转换器
5.2.4地点相似度分析器
5.2.5最终相似度计算器
5.3系统的评测
5.3.1实验语料
5.3.2实验结果及分析
结 论
致 谢
参考文献