基于多级Hash分词的全文搜索引擎的研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

中文分词作为现代搜索引擎技术的重要基础，一直以来是人们研究的热点和难点。Lucene是一个成熟、开源的软件项目，是一个高性能的信息检索和查询工具，通过对Lucene源代码的分析和编程实验，让我们领略到了Lucene的精髓。由于其提供了一套简单却十分强大的核心API，使得我们可以快速得将它集成到我们自己应用程序中。但是，Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。然而由于中英文之间在形式上存在着巨大的差异，这种切分方法的分词效果是非常低效的。本文在通过对Lucene分词的结构的分析，设计出了一种基于：Hash的Lucene的高效机械分词方法。目前信息处理用的词典机制主要有整词二分、TRIE索引树、逐字二分等几种方法，其中TRIE索引树和逐字二分机制查询效率较高。这几种词典机制都是以排序的线性表来提高查询效率，数据结构比较复杂且查询速度较慢。本文主要工作是分析了几种常用词典构造方法的优缺点，针对分词中特定的查询条件，设计并实现了基于Hash的分词词典，同时分析了基于Hash的分词词典的性能。本文在此研究基础上开发出了个人桌面搜索引擎系统，索引和搜索部分利用Lucene引擎架构，实现了比Lucene自带的中文分词更有效的中文分词。文章最后在系统设计和实现的基础上，对中文分词进行了速度和准确率的测试，并在此基础上提出了今后努力的方向。

著录项

作者
苏亮;
展开▼
作者单位

北京邮电大学;

展开▼
授予单位北京邮电大学;
学科计算机应用技术
授予学位硕士
导师姓名孙斌;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息处理; 全文搜索引擎; 中文分词;

相似文献

中文文献
外文文献
专利

1. 基于Lucene的中文分词全文搜索引擎设计与实现 [J] . 李炳练 . 电脑知识与技术 . 2015,第013期
2. 基于双字Hash机制的交通信息分词算法研究 [J] . 李澎林 ,张献力 ,李伟 . 浙江工业大学学报 . 2014,第006期
3. 基于Hash结构词典的逆向回溯中文分词技术研究 [J] . 梁桢 ,李禹生 . 计算机工程与设计 . 2010,第023期
4. 一种改进的基于Hash的中文分词算法研究 [J] . 蔡蕊 . 福建电脑 . 2010,第002期
5. 基于Hash算法的中文分词研究 [J] . 姚兴山 . 现代图书情报技术 . 2008,第003期
6. 一种基于Lucene的Hash改进中文分词算法的实现 [C] . 苏亮 ,孙斌 . 第十二届全国青年通信学术会议 . 2007
7. 基于Linux全文搜索引擎研究与应用—全文检索技术的应用 [A] . 彭伟成 . 2000

基于多级Hash分词的全文搜索引擎的研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅