首页> 中文学位 >蒙古文搜索引擎基本方法的实现
【6h】

蒙古文搜索引擎基本方法的实现

代理获取

目录

声明

摘要

第一章 绪论

1.1 引言

1.2 研究意义

1.3 国内外研究进展状况

1.4 论文的主要内容

1.5 论文组织结构

第二章 关键技术及相关知识介绍

2.1 搜索引擎介绍

2.1.1 搜索引擎定义、目标及核心问题

2.1.2 搜索引擎框架

2.2 网络爬虫介绍

2.2.1 网络爬虫概述

2.2.2 网络爬虫的分类及优点

2.2.3 网络爬虫原理

2.3 文本预处理

2.3.1 词干提取

2.3.2 分词处理

2.3.3 去除停用词

2.4 语言模型方法

2.4.1 语言模型概述

2.4.2 查询似然检索模型

第三章 信息采集与文本预处理

3.1 信息采集

3.1.1 网络爬虫工具Crawler4j的介绍

3.1.2 文本采集

3.1.3 存储

3.1.4 文本转换

3.2 文本预处理

3.2.1 单词切分

3.2.2 词干提取

3.2.3 停用词表

3.3 小结

第四章 索引结构及索引构建

4.1 索引结构

4.1.1 蒙古文词汇表

4.1.2 倒排列表

4.1.3 文档统计表

4.2 索引构建

4.2.1 蒙古文词汇表的建立

4.2.2 倒排索引项的建立

4.2.3 文档统计

4.3 API应用接口

4.3.1 获取TF接口(getTF(w,d))的设计

4.3.2 获取IDF接口(getIDF(w))的设计

4.3.3 平滑接口(smoothing(w))的设计

4.4 小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

随着计算机和网络技术的不断发展,如何从海量的数据资源中获取有价值的信息已成为急需解决的一个问题。搜索引擎作为互联网的入口,搜索引擎具有无可替代的作用,被依赖程度和对其提出的要求都越来越高。搜索引擎在西文和中文领域有着迅速的发展,但是在少数民族文字领域却发展缓慢。有大量的、极其珍贵的信息资源采用蒙古文进行记载。在蒙古文国际标准码(Unicode码)发布之后,蒙古文网站如雨后春笋般迅速地发展,蒙古文互联网数字信息资源急剧地增加,然而关于蒙古文搜索引擎的理论技术却才刚刚开始,远远满足不了使用蒙古文的人们的迫切需求。因此蒙古文急需高效的、完善的蒙古文搜索引擎解决方案。
  本文对蒙古文搜索引擎基本方法进行了研究,并通过剖析搜索引擎架构、研读信息检索理论技术、研究蒙古文语言特点完成了蒙古文搜索引擎基础方法的实现。文中主要研究了信息采集与预处理和索引结构与索引构建两大部分。信息采集与预处理实现了文本采集、存储、文本转换、预处理、分词(词干提取方法)及停用词处理。索引结构与索引构建主要研究使用JAVA和哈希表实现蒙古文索引结构类簇,包括蒙古文词汇表、索引结构、构建索引和应用接口(API)。本文研究的蒙古文搜索引擎基本方法为后续实现高效、完善的蒙古文搜索引擎提供了很好的技术支持和应用工具。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号