DRIS系统中的中文自动分词模块设计与实现

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

作为信息检索技术核心之一的中文自动分词技术就是利用计算机程序对中文文本进行词语的自动识别，其处理结果直接影响信息检索服务和搜索引擎的检索效果。本课题的主要目的就是在数字图书馆系统——基于域内资源整合系统(DRIS)理论的检索系统中，研究并设计具有中英文处理能力的中文自动分词模块。
　　论文介绍了基于DRIS的中文自动分词模块研究的背景、意义、内容以及中文自动分词技术研究的国内外现状，概述了中文自动分词算法的类型划分，探讨了四类基于中文词典的分词算法的原理及优缺点，归纳了中文自动分词系统的性能评价标准，分别从五个方面分析了目前中文自动分词技术研究所遇到的难点问题，研究了DRIS原理、功能、组织形式以及基于Lucene.Net的搜索引擎原理和结构。在描述四种常用的中文自动分词算法及介绍中文词典机制之后，论文展示和分析了这四种分词算法的分词结果，考虑到DRIS的实际需要，选择基于中文词典的正向最大匹配法(FMM)为DRIS系统中的中文自动分词模块所采用的中文自动分词算法。在理解语言分析器子包Lucene.Net.Analysis的主要功能和结构的基础上，论文设计并实现了中文自动分词程序模块Lucene.Net.Analysis.CJK2，描述了此模块的文件构成、中文词典的初始化过程以及对中英文混合源文本的处理过程，给出了此模块的部分程序和主要流程图，展示了集成此模块的DRIS对Web网页源文件进行索引而得到的标准Token结果。论文还分析了DRIS中有关索引合并的问题，并在提出了相应的解决方案之后，展望了后续研究工作。
　　采用FMM中文自动分词算法的DRIS具有较理想的中文分词效率，索引效率和检索服务质量都得到了提高。

著录项

作者
向晖;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科控制理论与控制工程
授予学位硕士
导师姓名汪秉文,郭一平;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
信息检索; 域内资源整合系统; 中文自动分词模块; 索引效率; DRIS系统;

相似文献

中文文献
外文文献
专利

1. 基于DRIS系统中的中文自动分词模块设计与实现 [J] . 张昭楠 ,马亚蕾 . 电子设计工程 . 2016,第014期
2. 自动答疑系统中文自动分词模块设计与实现 [J] . 阙玲丽 . 电子技术与软件工程 . 2018,第005期
3. 自动答疑系统中文自动分词模块设计与实现 [J] . 江耿豪 . 现代计算机（专业版） . 2010,第002期
4. 多种方法融合的中文自动分词系统的设计与实现 [J] . 郑炜冬 . 韩山师范学院学报 . 2009,第006期
5. 自动答疑系统中文分词模块的设计与实现 [J] . 马新意 ,王剑辉 . 信息技术与信息化 . 2019,第001期
6. 基于维特比算法单字估价值的中文自动分词 [C] . 李成城 ,李艳秋 . 第十二届全国少数民族语言文字信息处理学术研讨会 . 2009
7. 中文自动分词中的歧义消解算法研究 [A] . 尤慧丽 . 2011

DRIS系统中的中文自动分词模块设计与实现

摘要

著录项

相似文献

相关主题

期刊订阅