首页> 中文学位 >基于最大匹配的书面汉语自动分词研究
【6h】

基于最大匹配的书面汉语自动分词研究

代理获取

目录

文摘

英文文摘

论文说明:插图索引、附表索引

湖南大学学位论文原创性声明及版权使用授权书

第1章绪论

1.1课题来源

1.2研究目的与意义

1.3研究内容

1.4本文主要工作

1.5本文组织结构

第2章相关研究综述

2.1自动分词

2.1.1基本概念

2.1.2分词算法研究现状

2.1.3歧义切分研究现状

2.1.4未登录词研究现状

2.1.5主要应用领域

2.2现有分词系统

2.3评价体系

2.3.1评价体系概述

2.3.2评价方法和数据集

2.3.3评价指标

2.4本章小结

第3章自动分词算法分析

3.1引言

3.2存在的问题

3.3自动分词算法研究

3.3.1分词方法分类

3.3.2词典机制研究

3.3.3 MM和MP分词算法描述

3.4本章小结

第4章基于二字词检测位图表的MM自动分词算法

4.1引言

4.2中文词汇的统计分析

4.3基于二字词检测位图表的词典机制

4.3.1词典的组织与索引

4.3.2 词典的数据结构

4.3.3词典中二字词的优化策略

4.3.4二字词检测位图表映射机制

4.4基于二字词检测位图表的MM自动分词算法

4.4.1 MM分词模型

4.4.2算法描述

4.4.3实验结果及分析

4.5交集型歧义的自动检测与切分

4.5.1基本定义

4.5.2歧义检测

4.5.3歧义切分

4.5.4实验结果及分析

4.6基于Web查询日志挖掘的未登录词识别算法

4.6.1基本定义

4.6.2相关工作

4.6.3算法描述

4.6.4实验结果及分析

4.7本章小结

第5章分词系统实现及评价

5.1设计原则

5.2系统框架

5.3系统实现及结果分析

5.3.1实验数据

5.3.2实验结果

5.3.3分词结果示例

5.4性能评价

5.5本章小结

结论

参考文献

致谢

附录A攻读硕士期间发表的论文

附录B攻读硕士期间参加的科研项目

展开▼

摘要

书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻译、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。本文在深入分析现有自动分词算法的基础上,着重研究了基于字符串匹配的汉语自动分词算法,引入最大匹配法预处理分词,同时运用统计方法进行歧义切分和未登录词识别。 根据汉语中二字词较多的特点,给出一种改进的自动分词词典机制,该机制在词典数据结构中增加二字词检测位图表。在此基础上,对最大匹配分词算法进行改进,实现了一种基于二字词检测位图表的最大匹配分词算法,本算法利用二字词检测位图表快速判断二字词,减少词典匹配次数,以提高自动分词速度。针对伪歧义型高频最大交集型歧义字段在大型语料库中表现出较强的稳定性和一定的覆盖能力,歧义处理着重于研究该类歧义字段的自动获取,将它们的正确切分形式记录到歧义库中,其歧义消解通过直接查表实现,这在本质上是一种基于记忆的策略。未登录词识别技术研究着眼于Web资源中未登录词的获取,并提出一种基于Web查询日志的未登录词识别算法,本算法分析Web查询日志的搜索关键字频度表识别未登录词。 基于上述研究结果,设计并实现了一个面向实际应用的书面汉语自动分词系统。实验结果表明:在相同条件下,基于二字词检测位图表的最大匹配分词算法较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测,评测结果表明,基于二字词检测位图表的最大匹配分词算法的查准率提高了3.57%,F-1测度提高了0.01,较原算法具有更好的性能。系统还具有较好的稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号