首页> 中文学位 >维、哈、柯多文种搜索引擎检索器的设计与实现
【6h】

维、哈、柯多文种搜索引擎检索器的设计与实现

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1课题背景

1.2搜索引擎的发展

1.3搜索引擎技术概况

1.3.1搜索引擎的分类

1.3.2当前搜索引擎的缺点

1.4国内外研究现状

1.5课题内容

1.6本文主要研究内容和章节安排

第2章搜索引擎系统分析

2.1搜索引擎模块结构

2.1.1信息搜集子系统

2.1.2索引子系统

2.1.3检索子系统

2.2搜索引擎工作流程

2.2.1网页搜集

2.2.2预处理

2.2.3查询服务处理

2.3搜索引擎与检索器

2.4搜索引擎关键技术

2.4.1大规模数据搜集技术

2.4.2大规模数据索引技术

2.4.3超文本链接的研究

2.4.4自动分类技术

2.4.5相关度算法

2.5本章小结

第3章 语言文字特点及维、哈、柯搜索引擎关键技术

3.1维、哈、柯语言文字特点

3.2维、哈、柯文搜索引擎关键技术

3.3本章小结

第4章 维、哈、柯多文种搜索引擎设计

4.1.维、哈、柯多文种搜索引擎总体结构设计

4.2数据库设计

4.3主要功能模块设计

4.3.1 数据采集模块(爬行器)设计

4.3.2文档处理模块(分析器)设计

4.3.3索引模块(索引器)设计

4.3.4 检索服务模块(检索器)设计

4.4本章小结

第5章 检索器关键技术的实现

5.1维、哈、柯文在线处理的实现

5.2查询词的检错与纠错算法实现

5.3查询词词干切分算法实现

5.4同化(弱化)处理算法实现

5.5本章小结

第6章 检索器与查询处理的实现

6.1多文种Web页面

6.2查询短语预处理

6.2.1过滤空格及停用词

6.2.2重构查询短语

6.3基于词根的索引及查询

6.4动态生成文档摘要

6.5结果显示

6.6本章小结

结论及展望

参考文献

攻读硕士学位期间发表的学术论文及研究成果

致谢

展开▼

摘要

随着Internet和WWW的迅速发展,Internet上的资源越来越丰富,基于Internet的各类信息检索服务随之诞生并获得了迅速的发展。在中国,出现了非常优秀的中文、英文搜索引擎,如Google、Baidu等,但是这些搜索引擎没有解决少数民族语言文字特征方面的关键问题(民文在线输入及显示,标准字符编码,查询关键词预处理,查询优化等),完全不能满足少数民族语种的网络信息检索需求。到目前为止,针对维吾尔文、哈萨克文、柯尔克孜文(以下简称维、哈、柯文)等少数民族语言的搜索引擎的研究还处在空白阶段,还没有一个比较成熟的搜索引擎。 新疆是个多民族、多语言、多文字、多元文化的地区。为了使新疆少数民族人民适应时代和经济的发展,已经有许多人或机构纷纷创建各种类型的自己语言的网站(主要是维、哈、柯文三种语言),传播本民族信息,促进本民族经济发展。为了能够在网上快速搜索以本民族语言发布的信息页而开发一个多文种搜索引擎是新疆少数民族面临的一个急待解决的重要问题。 本文以新疆维吾尔自治区高校科研计划重点资助项目《维、哈、柯、汉多文种信息多向搜索引擎开发》(项目编号:XJEDU2006113)及新疆维吾尔自治区高技术研究发展计划项目《维、哈、柯、汉多文种多向搜索引擎关键技术研究与开发》(项目编号:200612115)为背景,介绍了维、哈、柯多文中搜索引擎的设计思路,关键技术及实现方法。其中重点研究检索服务模块(检索器)的设计与实现相关技术。 检索器的设计方面,经过深入研究维、哈、柯文语言文字特点引起的多方面的不良因素,设计出了一种独特的检索器子模块结构并较好的解决了与其他模块的交互问题,因而实现了影响查询效率的大部分语言问题在此模块中得到彻底的解决。 实现技术方面,研究了维、哈、柯文在线处理技术,彻底解决了基于WEB的维、哈、柯文的输入及现实问题,也就是第三方输入法及字库的依赖性问题。对于高拼写错误率的维、哈、柯文检索词进行了拼写检错查错技术研究,并提出了一种基于《最短编辑距离》算法的优化算法。研究了维、哈、柯文词干提取算法、同化处理算法及查询短语优化算法(停用词过滤,重构查询短语等),并在此基础上实现了基于词干的查询扩充,因而明显提高了查询效率。动态网页摘要生成方面也进行了较深入的研究并实现了以可切换的多文中页面来展现最能体现用户查询的搜索结果。试验结果表明设计合理,方法可行,达到了预期研发目标。 研发这样一个少数民族语种的搜索引擎,是将分散的多文种信息资源的整合(组织与管理)和有效利用,实现这些应用领域的全国化、全球化的技术保障,对于发展少数民族地区教育和经济,提升社会的信息化水平有着非常重要的意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号