声明
摘要
第一章 绪论
1.1 引言
1.2 研究意义
1.3 国内外研究进展状况
1.4 论文的主要内容
1.5 论文组织结构
第二章 关键技术及相关知识介绍
2.1 搜索引擎介绍
2.1.1 搜索引擎定义、目标及核心问题
2.1.2 搜索引擎框架
2.2 网络爬虫介绍
2.2.1 网络爬虫概述
2.2.2 网络爬虫的分类及优点
2.2.3 网络爬虫原理
2.3 文本预处理
2.3.1 词干提取
2.3.2 分词处理
2.3.3 去除停用词
2.4 语言模型方法
2.4.1 语言模型概述
2.4.2 查询似然检索模型
第三章 信息采集与文本预处理
3.1 信息采集
3.1.1 网络爬虫工具Crawler4j的介绍
3.1.2 文本采集
3.1.3 存储
3.1.4 文本转换
3.2 文本预处理
3.2.1 单词切分
3.2.2 词干提取
3.2.3 停用词表
3.3 小结
第四章 索引结构及索引构建
4.1 索引结构
4.1.1 蒙古文词汇表
4.1.2 倒排列表
4.1.3 文档统计表
4.2 索引构建
4.2.1 蒙古文词汇表的建立
4.2.2 倒排索引项的建立
4.2.3 文档统计
4.3 API应用接口
4.3.1 获取TF接口(getTF(w,d))的设计
4.3.2 获取IDF接口(getIDF(w))的设计
4.3.3 平滑接口(smoothing(w))的设计
4.4 小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢