首页> 中文学位 >基于避免交集型歧义的最大匹配算法改进的研究与实现
【6h】

基于避免交集型歧义的最大匹配算法改进的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 选题背景和意义

1.2 中文分词算法的研究现状

1.3 本文工作

1.4 论文章节安排

第二章 中文分词算法概述

2.1 常用的几种分词词典机制

2.2 中文分词算法

2.3 歧义字段

2.4 本章小结

第三章 中文分词改进算法研究

3.1 问题的提出

3.2 分词词典的设计改进

3.3 基于避免交集型歧义的最大匹配算法改进

3.4 本章小结

第四章 基于避免交集型歧义的最大匹配改进算法的实验

4.1 中文分词实验系统介绍

4.2 中文分词实验系统的框架

4.3 中文分词实验系统的设计

4.4 本章小结

第五章 算法性能分析

5.1 实验评价标准

5.2 实验数据

5.3 实验结果与分析

5.4 本章小结

第六章 结束语

6.1 工作总结

6.2 工作展望

致谢

参考文献

展开▼

摘要

在当今信息化世界中,中文信息处理技术已经在各个领域中得到了广泛的应用。本文主要对中文分词算法中的基于分词词典机制的最大匹配算法进行研究讨论。由于中文语法语义复杂导致大量歧义字段的出现,文章中提出的最大匹配改进算法是针对分析原有的最大匹配算法的弊端以及避免交集型歧义字段在切分中出现错误而改进的,该算法在保证一定切分速率的基础上提高了中文切分的准确率。
  本文描述的中文分词算法是基于避免交集型歧义字段的最大匹配算法的改进算法。文中首先介绍了目前的中文分词算法,其中就常用的分词算法、分词词典机制以及歧义字段相关理论三部分来详细讲解目前中文分词算法的基本理论;其次根据已有分词词典机制描述了基于Hash表的反向词典机制;在提出的反向分词词典机制的基础上改进了最大匹配算法,提出了基于避免交集型歧义的最大匹配算法的改进算法。
  最后论文中实现了简单的中文分词系统,此系统用来进行基于避免交集型歧义字段的最大匹配改进算法实验,并且用此系统把四种算法进行了实验比较。实验结果证明基于避免交集型歧义字段的最大匹配改进算法具有较好的性能和实用性。但是由于本实验没有涉及对于未识别词的识别问题,所以实验结果并没有达到目前标准的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号