首页> 中文学位 >基于多级Hash分词的全文搜索引擎的研究
【6h】

基于多级Hash分词的全文搜索引擎的研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1课题背景和意义

1.2主要工作和贡献

1.3本论文的组织

第二章中文分词算法

2.1中文分词的研究进展

2.1.1主要的几种分词方法

2.1.2基于Hash的机械分词

2.2常用的三种分词词典

2.2.1整词二分的分词词典机制

2.2.2 TRIE索引树的分词词典机制

2.2.3基于逐字二分的词典机制

2.2.4三种分词词机制的实验结果

2.3多级Hash的词典机制

2.4本章小结

第三章基于Lucene的分词技术研究

3.1 Lucene概述

3.1.1全文检索

3.1.2 Lucene的特点

3.1.3 Lucene的结构

3.1.4 Lucene的工作流程

3.1.5 Lucene的与索引相关的类

3.1.6 Lucene的与查询相关的类

3.2 Lucene的分析器

3.2.1 Lucene分析器的结构

3.2.2 Lucene的分析器

3.2.3 Lucene的查询

3.3 Lucene的分析器的研究

3.3.1分析器的结构分析

3.3.2新的分析器的实现

3.4基于Hash的机械分词

3.4.1 Hash算法

3.4.2词典的格式

3.5多级Hash分词的实现

3.5.1分词模块

3.5.2索引模块

3.5.3搜索模块

3.6本章小结

第四章桌面搜索引擎系统的设计和实现

4.1系统总体结构

4.2开发环境介绍

4.2.1硬件环境

4.2.2软件资源

4.3桌面搜索引擎系统CoSou的实现

4.3.1索引建立模块

4.3.2查询模块

4.4实验设计与结果分析

4.4.1测试环境搭建

4.4.2分词的衡量因素

4.4.3实验过程

4.5本章小结

第五章总结和展望

5.1总结

5.2下一步工作

参考文献

致 谢

攻读学位期间发表的论文

展开▼

摘要

中文分词作为现代搜索引擎技术的重要基础,一直以来是人们研究的热点和难点。Lucene是一个成熟、开源的软件项目,是一个高性能的信息检索和查询工具,通过对Lucene源代码的分析和编程实验,让我们领略到了Lucene的精髓。由于其提供了一套简单却十分强大的核心API,使得我们可以快速得将它集成到我们自己应用程序中。但是,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。然而由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常低效的。本文在通过对Lucene分词的结构的分析,设计出了一种基于:Hash的Lucene的高效机械分词方法。 目前信息处理用的词典机制主要有整词二分、TRIE索引树、逐字二分等几种方法,其中TRIE索引树和逐字二分机制查询效率较高。这几种词典机制都是以排序的线性表来提高查询效率,数据结构比较复杂且查询速度较慢。本文主要工作是分析了几种常用词典构造方法的优缺点,针对分词中特定的查询条件,设计并实现了基于Hash的分词词典,同时分析了基于Hash的分词词典的性能。 本文在此研究基础上开发出了个人桌面搜索引擎系统,索引和搜索部分利用Lucene引擎架构,实现了比Lucene自带的中文分词更有效的中文分词。文章最后在系统设计和实现的基础上,对中文分词进行了速度和准确率的测试,并在此基础上提出了今后努力的方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号