基于词典与统计结合的中文分词方法研究及全文检索系统设计

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息时代的飞速发展，信息量越来越多，如何从众多的信息中找出自己想要的信息变得越来越重要，如荆楚资源库中的武当山资源库，资源总量达到几百G，各种类型的文档总数有几千个，从众多的文档中找出特定的信息变得比较困难，信息检索技术就是用来解决这个问题。全文检索作为信息检索的一种，正在扮演者越来越重要的角色，很多大型搜索引擎都采用了全文检索技术。
　　中文分词是中文信息处理的第一步，无论是自然语言处理还是全文检索，都离不开中文信息的提取，而信息提取必然涉及到分词。中文由于字与字之间没有空格作为词分隔符且中文语义语境都比较复杂，导致中文分词一直是一个难点，针对中文分词人们提出了各种各样的方法来分词，如词典分词、统计分词、理解分词等。
　　本文分析了全文检索技术的原理并讨论了开源的全文检索框架Lucene，接着针对全文检索必须要使用文本切分提取信息，讨论了中文分词相关原理及技术，针对目前广泛采用的词典分词和统计分词做了详细的讨论，比较了各种分词方法的优点以及缺点，提出了一种基于词典与统计相结合的分词方法。
　　本文所做的工作如下:
　　1.分析了全文检索和中文分词的研究背景和研究现状，并对目前比较常用的全文检索和中文分词技术做了分析和描述;
　　2.分析了常用的分词技术并在比较各种方法的优劣的基础上提出了一种基于词典与统计相结合的分词方法，该方法利用词典分词切分整体效果良好和统计分词具有歧义识别的优点，采用词典分词做粗分和HMM模型做歧义判断，以达到提高分词精度的目的。
　　3.利用Lucene框架结合自定义分析器，进行资源库全文检索系统的设计。

著录项

作者
周世宇;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用
授予学位硕士
导师姓名张文元;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类全文情报检索系统;
关键词
全文检索系统; 中文分词; 文本切分; 信息提取; 歧义判断; Lucene框架;

相似文献

中文文献
外文文献
专利

1. 词典与统计方法结合的中文分词模型研究及应用 [J] . 蒋建洪 ,赵嵩正 ,罗玫 . 计算机工程与设计 . 2012,第001期
2. 统计与词典相结合的领域自适应中文分词 [J] . 张梅山 ,邓知龙 ,车万翔 . 中文信息学报 . 2012,第002期
3. 词典与统计相结合的中文分词算法研究 [J] . 李宏波 . 武汉理工大学学报（信息与管理工程版） . 2010,第006期
4. 基于双词典机制的中文分词系统设计 [J] . 李玲 . 机械工程与自动化 . 2013,第001期
5. 基于结合词典的CNN-BiGRU-CRF网络中文分词研究 [J] . 郭振鹏 ,张起贵 . 电子设计工程 . 2021,第016期
6. 统计与词典相结合的领域自适应中文分词 [C] . Zhang Meishan ,张梅山 ,Deng Zhilong . 第十一届全国计算语言学学术会议 . 2011
7. 词典与统计相结合的中文分词的研究 [A] . 岳中原 . 2010

基于词典与统计结合的中文分词方法研究及全文检索系统设计

目录

摘要

著录项

相似文献

相关主题

期刊订阅