首页> 中文学位 >基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究
【6h】

基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景与意义

1.1.1研究背景

1.1.2研究意义

1.2国内外研究现状

1.2.1汉语自动分词研究现状

1.2.2汉语自动分词的难点

1.3本文研究的目的和内容

1.3.1本文的研究目的

1.3.2本文的研究内容

第二章汉语自动分词

2.1汉语自动分词基本算法

2.1.1基于字符串匹配的分词方法

2.1.2基于理解的分词方法

2.1.3基于统计的分词方法

2.2语言模型

2.2.1隐马尔科夫模型(HMM)

2.2.2 N最短路径模型

2.3汉语自动分词的难点

2.3.1歧义切分字段

2.3.2未登录词识别

第三章歧义字段

3.1歧义字段概述

3.2歧义字段产生的根源

3.2.1中文的书写格式

3.2.2分词词典的构建不完善

3.2.3地名的存在增加了歧义字段

3.2.4新词汇的出现产生的歧义现象

3.3 POI中的歧义字段

3.4识别歧义字段的方法

3.4.1识别交集型歧义字段的方法

3.4.2识别组合型歧义字段的方法

第四章词典的设计

4.1分词词典的建立

4.2词典的内容

4.3词典的常用组织结构

第五章系统的设计与实现

5.1系统的设计思路

5.2系统的主要模块和流程

5.2.1系统流程图

5.2.2系统的主要模块和功能

5.3系统的实现

5.3.1系统开发工具的选择

5.3.2全切分模块的实现

5.3.3歧义词处理模块的实现

5.3.4未登录词识别模块的实现

5.4程序应用举例

5.5程序测试结果

第六章结论与展望

6.1主要结论

6.2系统展望

参考文献

致谢

展开▼

摘要

汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理领域的一项基础性课题。本文从理论上分析和比较了目前各种汉语自动分词方法,对各种分词方法的技术特点进行了阐述。 本文主要目标是设计并实现一个中文POI自动分词系统,在分析了自动分词面临的主要困难的基础上,设计并实现了一个基于多步处理策略的中文POI自动分词系统。 论文首先介绍了汉语自动分词系统通常采用的分词算法和自动分词面临的难点,分析了歧义字段产生的根源以及歧义字段的识别方法。 其次搜集、整理和建立了研究所用的自然语言资源。主要包括语料库的搜集,分词词典的建立。 论文设计并实现了一个基于多步处理策略的中文POI分词系统。系统包括初切分、歧义字段处理、未登录词识别等功能模块。初切分是找出待切分语句各种可能路径,利用N最短路径的方法;歧义字段处理根据POI自身的特点,利用自定义方法和隐马尔科夫模型相结合的方式处理交集型歧义;未登录词识别的功能是利用规则的方法,对未登录词中的地名等进行分析和处理。 最后通过实验验证了系统的性能。同时对全文的工作进行了总结,提出进一步的研究工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号