首页> 中文学位 >基于词典与统计结合的中文分词方法研究及全文检索系统设计
【6h】

基于词典与统计结合的中文分词方法研究及全文检索系统设计

代理获取

目录

声明

摘要

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 全文检索技术的发展及应用

1.2.2 中文分词技术

1.2.3 总结分析

1.3 研究内容与方法

1.3.1 研究目标与内容

1.3.2 研究方法与技术路线

1.4 论文的组织结构

2.1 全文检索

2.1.1 全文检索简介

2.1.2 全文检索框架

2.2 全文索引模型

2.2.1 位图及署名文件模型

2.2.2 倒排表模型

2.2.3 后缀树模型

2.2.4 全文索引模型评价

2.3 检索模型

2.3.1 布尔检索模型

2.3.2 向量空间模型

2.3.3 概率模型

3.1 中文分词简介

3.1.1 中文分词难点

3.1.2 中文分词算法

3.2 基于词典的中文分词方法

3.2.1 词典分词

3.2.2 词典机制

3.3 基于统计的分词方法

3.3.1 互信息模型

3.3.2 N-gram模型

3.3.3 隐马尔科夫模型

3.3.4 条件随机场

3.4 基于词典与统计结合的中文分词方法

3.4.1 本文分词算法设计

3.4.2 实验结果及分析

3.5 分词算法比较与评价

4.资源库全文检索系统设计

4.1 全文检索框架Lucene

4.1.1 Lucene索引结构

4.1.2 Lucene检索过程

4.1.3 Lucene分析器

4.2 武当山资源库概述

4.3 全文检索系统设计

4.3.1 功能设计

4.3.2 文档录入与提取模块设计

4.3.3 索引模块设计

4.3.4 查询模块设计

4.3.5 结果分析

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

随着信息时代的飞速发展,信息量越来越多,如何从众多的信息中找出自己想要的信息变得越来越重要,如荆楚资源库中的武当山资源库,资源总量达到几百G,各种类型的文档总数有几千个,从众多的文档中找出特定的信息变得比较困难,信息检索技术就是用来解决这个问题。全文检索作为信息检索的一种,正在扮演者越来越重要的角色,很多大型搜索引擎都采用了全文检索技术。
  中文分词是中文信息处理的第一步,无论是自然语言处理还是全文检索,都离不开中文信息的提取,而信息提取必然涉及到分词。中文由于字与字之间没有空格作为词分隔符且中文语义语境都比较复杂,导致中文分词一直是一个难点,针对中文分词人们提出了各种各样的方法来分词,如词典分词、统计分词、理解分词等。
  本文分析了全文检索技术的原理并讨论了开源的全文检索框架Lucene,接着针对全文检索必须要使用文本切分提取信息,讨论了中文分词相关原理及技术,针对目前广泛采用的词典分词和统计分词做了详细的讨论,比较了各种分词方法的优点以及缺点,提出了一种基于词典与统计相结合的分词方法。
  本文所做的工作如下:
  1.分析了全文检索和中文分词的研究背景和研究现状,并对目前比较常用的全文检索和中文分词技术做了分析和描述;
  2.分析了常用的分词技术并在比较各种方法的优劣的基础上提出了一种基于词典与统计相结合的分词方法,该方法利用词典分词切分整体效果良好和统计分词具有歧义识别的优点,采用词典分词做粗分和HMM模型做歧义判断,以达到提高分词精度的目的。
  3.利用Lucene框架结合自定义分析器,进行资源库全文检索系统的设计。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号