首页> 中文学位 >基于词典的中文分词算法改进与实现
【6h】

基于词典的中文分词算法改进与实现

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景

1.2 中文分词算法研究现状

1.3 论文的主要研究内容

1.4 论文结构安排

第2章 中文分词算法研究

2.1 基于字典直接匹配的分词方法

2.1.1 最大匹配算法

2.1.2 最少词切分算法

2.1.3 双向最大匹配法

2.1.4 N-最短路径算法

2.2 统计模型分词算法

2.2.1 基于N-Gram的中文分词方法

2.2.2 N-最短路径的统计模型

2.3 小结

第3章 基于字典和统计规则的中文分词算法

3.1 双字查询哈希字典机制

3.2 基于字典和统计规则的分词算法

3.2.1 算法描述

3.2.2 预处理过程

3.2.3 匹配分词过程

3.2.4 统计分析模块

3.2.5 规则修正模块

3.2 小结

第4章.中文分词系统的实现及测试

4.1 分词系统设计

4.1.1 系统需求分析

4.1.2 系统整体框架

4.1.3 系统详细设计

4.2 分词系统实现

4.2.1 字典加载实现

4.2.2 核心模块实现

4.3 系统语料测试结果

4.4 小结

结论

参考文献

致谢

展开▼

摘要

中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程。作为自然语言处理基础性任务,中文分词已经被广泛应用在相关领域中。因此,研究中文分词算法具有重要的理论和现实意义。为了满足上层应用对分词实用性要求,本文将机械分词和基于统计的分词法有机结合,提出了基于词典和统计规则的中文分词算法。该算法首先使用切分速度快的机械分词法对预处理后的文本进行初步切分,采用改进的双向最大匹配检测法检测出歧义字段,并运用基于二元统计模型的全切分消解歧义。其次,采用基于角色的命名实体识别方法识别出未登录词。最后,引入规则库对分词结果进一步修正。本文的研究工作主要有:
  采用二次索引的词典结构,提升词典查找速度,使用Java对象序列化技术实现词典文件的加载(反序列化)和词典对象的序列化。
  在未登录词识别方面,将隐马尔科夫模型中解决编码问题的前向Viterbi算法用以角色标注,采用角色模式集上的模式串匹配出中文专有名词。使用一个小型校正规则库进行分词碎片的修正。
  在歧义检测方面,提出了改进的双向最大匹配检测算法,不仅能检测到链长为奇数的歧义字段,而且能检测出所有同时满足链长为偶数且交段长度为1的歧义字段。在歧义字段上,采用全切分法消解歧义。
  目前中文分词软件包大都以C++语言开发,而作为主流开发语言之一的Java,其中文分词组件相对较少。因此,在分词算法的研究基础上,设计并实现了支持Java语言的中文自动分词系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号