首页> 中文学位 >中文自动分词中的歧义消解算法研究
【6h】

中文自动分词中的歧义消解算法研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 课题的研究背景

1.1.1 中文分词的研究背景

1.1.2 中文分词的研究意义

1.2 课题研究现状

1.2.1 分词技术研究现状

1.2.2 歧义切分研究现状

1.3 论文研究内容

1.4 全文的组织

第二章 中文自动分词相关技术

2.1 中文分词定义

2.2 中文分词算法概述

2.2.1 基于词典的分词算法

2.2.2 基于统计的分词算法

2.2.3 基于理解的分词算法

2.3 中文分词的主要难点

2.3.1 中文词的概念

2.3.2 不同应用对词的切分规范不同

2.3.3 分词歧义问题

2.3.4 命名实体识别问题

2.3.5 分词与理解的先后

2.4 歧义字段处理相关技术

2.4.1 歧义字段的分类

2.4.2 歧义字段的侦测

2.5 自动分词的评价指标

2.6 本章小结

第三章 语料库的建立与词典的生成

3.1 语料库的建立

3.1.1 语料库的物理结构

3.1.2 物理数据库的建立

3.2 词典的生成

3.2.1 词典机制

3.2.2 词典的设计

3.2.3 实验与分析

3.3 本章小结

第四章 交集型歧义字段及其消歧处理

4.1 引言

4.2 交集型歧义字段定义

4.3 条件随机场模型的描述

4.3.1 序列标记

4.3.2 参数估计

4.4 交集型歧义字段的消歧处理

4.4.1 基于词概率模型的歧义消解方法

4.4.2 基于最大熵模型的歧义消解方法

4.4.3 基于条件随机场的歧义消解方法

4.5 实验与分析

4.5.1 实验概述

4.5.2 实验数据

4.5.3 实验结果与分析

4.6 本章小结

第五章 组合型歧义字段及其消歧处理

5.1 引言

5.2 组合型歧义字段的定义及表示

5.2.1 组合型歧义字段的定义

5.2.2 组合型歧义字段的表示

5.3 C-支持向量机模型的描述

5.4 上下文搭配信息规则库的建立

5.5 歧义切分算法的实现

5.6 实验与分析

5.6.1 实验概述

5.6.2 实验数据

5.6.3 实验结果与分析

5.7 本章小结

第六章 结论与展望

6.1 概述

6.2 工作总结

6.3 研究展望

参考文献

致谢

附录 :读研期间发表和录用论文目录

展开▼

摘要

信息网络技术的飞速发展使信息的发布和共享超越了时空限制,中文信息处理技术逐渐成为热点研究课题。中文自动分词是中文信息处理的基础,词典算法的设计直接关系着分词系统的切分速度,歧义字段又是影响分词系统切分精度的重要因素。
   本课题针对中文分词系统的两个重要指标:切分速度和切分精度两个方面进行了深入的研究。在切分速度方面,给出了一种优化的TRIE索引树词典机制,设计并实现了中文分词词典;在切分精度方面,给出了两种消除歧义字段的算法,为解决中文自动分词问题提供了一种新的途径。
   论文首先对中文分词相关技术作了简单介绍,分析了各种自动分词方法的优缺点,介绍了交集型歧义和组合型歧义的定义及识别方法。然后对语料库以及分词中的词典机制进行了分析和研究,在语料库的建立环节采用关系数据库来管理语料库。在词典生成环节采用基于优化的TRIE索引树的词典机制,设计并实现了中文分词词典,有效地减少了词典空间,同时在查询速度上也有了较大幅度的提升。
   论文主体部分对分词中的歧义消除算法作了研究。在分析了常见消歧算法的优缺点后,给出了两种消除歧义的核心算法。一种是基于条件随机场模型消除交集型歧义的算法,该算法将交集型歧义切分由二值分类问题转化为序列标注问题,不仅能够处理任意链长的歧义字串,而且能够利用上下文信息,在不同的上下文环境中对真歧义作出正确的切分。另一种是基于C-支持向量机和规则相结合来消除组合型歧义的算法。该算法的主要思想是利用C-支持向量机分类模型结合上下文规则库中的规则来对组合型歧义字段进行歧义消解,拓广了SVM的应用范围。
   论文最后以大量的不同类型的语料作为测试集,做了封闭式和开放式的实验。实验结果表明,两种消歧算法消除歧义字段的正确率比较理想,验证了算法的可行性。同时,对全文的工作进行了总结,并提出进一步的研究工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号