首页> 中文学位 >综合字典和统计分析的中文分词系统的研究与实现
【6h】

综合字典和统计分析的中文分词系统的研究与实现

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1引言

1.2中文分词发展现状及特点

1.2.1中文分词技术的发展

1.2.2中文分词系统的评价标准

1.3论文的结构

第2章中文分词基本算法研究

2.1中文分词的基本算法

2.1.1机械分词算法

2.1.2基于统计的分词算法

2.1.3基于理解的分词算法

2.1.4词性标注与角色标注

2.2中文分词技术面临的问题

2.2.1歧义词的处理

2.2.2未登录词的处理

第3章基于字典与统计的分词算法的设计

3.1本系统要解决的问题

3.2系统特点概述

3.2.1专用性

3.2.2精确性

3.2.3分词效率

3.3分词词典的设计

3.3.1基于哈希的分词词典机制

3.4统计策略的设计

3.4.1统计原理的选择与实现

3.4.2训练文本的选择

3.5机械分词的应用

3.6歧义和未登录词问题的解决

第4章基于字典与统计的分词算法流程及系统设计

4.1算法流程描述

4.2算法具体设计

4.2.1分词词典的加载

4.2.2待分字符串的预处理

4.2.3词频信息统计

4.2.4逆向最大匹配

第5章实验结果分析

5.1系统评价指标介绍

5.2系统初始化后的性能测试

5.2.1系统综合性能测试一

5.2.2歧义和未登录词处理能力测试一

5.3系统统计学习后的性能测试

5.3.1系统综合性能测试二

5.3.2歧义和未登录词处理能力测试二

5.4分词算法的比较

5.4.1机械分词算法的比较

5.4.2统计策略的比较

5.5分词系统测试实例展示

第6章系统的总结与展望

6.1论文总结

6.2中文分词系统的展望

参考文献

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词系统是应用机械统计相结合的方法。在目前主流的词典和统计相结合的分词系统中,统计策略和词典设计的关系往往是相互独立的,词典主要是作为机械分词的标准,而基于统计的方法主要是为了解决歧义问题以及未登录词的识别问题。
   本文所阐述的中文分词系统,将基于分词核心词典的机械分词和基于统计的方法组成了一个有机的整体。系统将统计得出的结果作为分词核心词典的输入,对于待切分文本来说,对于未登录词和词典词条,本文算法的本质均是先基于统计的方法扩充核心词典,然后采用基于字符串匹配的分词方法切词。
   总体上讲,本系统具有以下三方面的特点。专用性:适合计算机学科专业领域的分词,这主要取决于训练文本的选择;分词效率高:算法核心是基于字符串匹配的方法:分词精度较好:利用简单统计量模型与机械分词的有机结合解决了部分歧义词和未登录词问题。
   解决方案中涉及到的关键技术主要包括以下三个部分:
   第一、分词词典的设计。在整体结构上,词典分成两级结构,临时词典和核心词典。临时词典是通过统计方法将新词条向分词核心词典中输送的中间容器。核心词典是分词系统中切分的唯一依据,为了提高查询速度,结合中文二字词比例较大的特点,核心词典采用双层哈希结构。
   第二、统计策略的制定。歧义词和新词的识别主要依靠基于统计的方法,本文选择了基于互信息原理的方法进行词频统计。该统计模型,原理简单,实现方便,有较强的实用价值。
   第三、机械分词方法的应用。为了简化系统结构,提高算法效率,核心分词模块中,根据汉语的后重心特点以及“长词优先”准侧,我们选择逆向最大匹配算法。
   总体上讲,系统在初始化后即能够满足一定程度的应用,准确率等分词精度指标保持在97%以上:选择合适的训练语料,经过一定强度的统计学习后,分词精度参数可以提高将近一个百分点左右;分词效率指标不会发生明显变化。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号