首页> 中文学位 >信息检索用汉语分词与未登录词识别技术研究
【6h】

信息检索用汉语分词与未登录词识别技术研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章绪论

1.1汉语分词在中文信息处理中的意义

1.2汉语分词的现实性与可能性

1.3论文的主要研究内容

第二章相关技术研究

2.1汉语分词的标准与原则

2.2汉语分词的基本算法

2.2.1最长匹配法

2.2.2最少分词法

2.2.3基于统计语言模型的分词方法

2.2.4基于隐马尔科夫模型的分词方法

2.2.5汉语分词算法比较

2.3汉语分词系统介绍

2.4汉语分词的关键问题

2.4.1歧义切分问题

2.4.2未登录词识别问题

第三章汉语自适应分词算法研究

3.1信息检索用汉语分词的特点

3.2汉语自适应分词算法提出

3.2.1算法术语描述

3.2.2算法原理概述

3.2.3算法原理细则

3.2.4歧义识别辅助未登录词识别

3.3汉语自适应逆向最长分词算法描述及实现

3.4汉语自适应分词算法中的未登录词识别技术研究

3.4.1未登录词识别的数量词识别规则

3.4.2未登录词识别的边界单字规则

3.4.3未登录词识别的虚字辅助规则

3.4.4未登录词识别中的单字非成词概率规则

3.4.5未登录词识别的记忆识别规则

3.5汉语自适应分词算法

3.5.1汉语自适应分词算法描述

3.5.2汉语自适应分词算法流程图描述

3.5.3算法中的未登录词识别模块流程图描述

3.6汉语自适应分词算法中的词表查询算法研究

3.6.1词表查询算法简介

3.6.2对传统词表查询算法的改进

第四章汉语自适应分词系统

4.1汉语自适应分词系统的总体设计

4.2汉语自适应分词系统核心模块设计

4.2.1语句预处理模块

4.2.2未登录词识别模块

4.2.3歧义处理模块

4.2.4词表管理模块

4.3汉语自适应分词算法动态链接库的设计

4.4汉语自适应分词系统的词表建设

4.5汉语自适应分词系统的开发环境简介

4.6汉语自适应分词系统的实现

4.7汉语自适应分词系统的可扩展性与可移植性

4.7.1汉语自适应分词系统的可扩展性

4.7.2汉语自适应分词系统支持多种访问接口

4.7.3移植汉语自适应分词系统到Linux平台下

第五章汉语自适应分词系统测评

5.1分词系统测评概述

5.2系统的效能测评

5.2.1系统的处理性能测评

5.2.2系统的CPU与RAM负荷测评

5.2.3系统的稳定性测评

5.3系统的分词准确率测评

5.4系统识别未登录词的性能测评

第六章总结与展望

6.1所做的主要工作

6.2本文的创新之处

6.3存在的问题

6.4进一步的工作

参考文献

致谢

展开▼

摘要

汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。 本文深入研究了未登录词识别技术,根据人在阅读时识别新词的思维过程,提出了一种新的未登录词识别算法,其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左方探测法、右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对正向、逆向双向分词算法的结果进行比较,能识别出绝大部分的交集歧义,使得未登录词识别与切分歧义识别一体化,有效地解决了识别未登录词时导致的新的切分歧义问题。接着,本文改进了词表组织结构,改善了词表查询算法,在提高分词效率的同时也使得词表的囊括度更大、更新维护更加灵活。 在此基础上,针对信息检索领域的特点以及对分词算法的要求,本文提出了汉语自适应分词算法,并设计开发出了汉语分词基础模块CarmmLib.d11以及汉语自适应分词系统Carmm。Carmm用户可以定制词表,定制分词结果以及可以对词表、未登录词表等词表进行管理维护等。Carmm还具备很好的扩展性和可移植性。 最后,本文对Carmm与中科院的分词系统ICTCLAS开源版进行了全面测评,包括系统效能测评(系统基本性能测评、负荷测评、稳定性测评)、系统分词准确率测评、系统未登录词识别的准确率和召回率测评。在整个测评过程中,carIIlITl的分词速率可以稳定在100KB/s左右。在人民日报语料库的开放测评中,Carmm系统的分词准确率约为91.2%。在网络时文的开放测评中,Carmm系统的分词准确率约为90.1%,接近于ICTCLAS开源版的91.3%;未登录词识别的准确率约为91.2%,略低于ICTCLAS开源版的93.9%;而未登录词识别的召回率约为94.7%,明显高于ICTCLAS开源版的89.0%。与此同时,Carmm系统在分词速率、处理大量未登录词的速率稳定性、面对高负荷系统环境的健壮性、系统易用性、系统抗干扰性等方面都优于ICTCLAS系统开源版。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号