首页> 中文学位 >中文未登录名词短语的识别方法研究
【6h】

中文未登录名词短语的识别方法研究

代理获取

目录

文摘

英文文摘

1绪论

1.1问题的提出及研究意义

1.1.1问题的提出

1.1.2研究的意义

1.2国内外研究现状

1.2.1中文自动分词的研究现状

1.2.2中文姓名识别的研究现状

1.3本文研究的目的和研究内容

1.3.1本文研究的目的

1.3.2本文研究的主要内容

1.4本文所使用的技术

1.4.1 Microsoft.Net[6]

1.4.2 C#开发语言

2自然语言处理

2.1引言

2.2自然语言处理概述

2.2.1自然语言处理系统的发展

2.2.2中文自然语言处理

2.3中文自动分词

2.3.1中文自动分词在中文自然语言处理中的作用

2.3.2中文自动分词的现实性与可能性

2.3.3中文自动分词面临的难题

2.4本章小结

3未登录词识别

3.1引言

3.2未登录词概述

3.2.1未登录词定义

3.2.2未登录词识别的现实意义

3.3中文未登录名词短语

3.3.1中文未登录名词短语识别的解决方案[5]

3.3.2中文姓名识别的特殊性

3.4本章小结

4中文未登录姓名识别算法研究

4.1引言

4.2中文姓名识别算法的研究与发展

4.3基于词性探测的中文姓名识别

4.3.1统计语言模型

4.3.2分词和词性标注一体化模型

4.3.3基于词性探测的中文姓名识别算法

4.3.4算法执行要点

4.3.6实验结果分析

4.4基于支持向量机理论的中文姓名识别

4.4.1机器学习方法

4.4.2支持向量机理论

4.4.3基于支持向量机理论识别中文姓名

4.4.4算法实现

4.4.5实验结果分析

4.5本章小结

5实验室成员正在开发的中文分词系统

5.1概述

5.2系统核心功能模块及流程图

6结论与展望

6.1主要结论

6.2后续研究工作的展望

致 谢

参考文献

附录作者在攻读硕士学位期间的其它工作

独创性声明及学位论文版权使用授权书

展开▼

摘要

自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种计算模型,这种计算模型能够模拟人类语言认知的过程。但是当前计算机的智能水平还远远不能与人类相提并论,困扰其发展的原因有很多,对未登录词的识别是自然语言处理领域亟待解决的几个难题之一。本论文在剖析现有未登录名词短语识别算法基础之上,对中文未登录名词短语,特别是名词短语中的姓名进行研究,提出了一种新的基于词性探测的中文姓名识别算法。同时,结合“支持向量机”这一新的机器学习方法,从不同的角度对中文姓名的识别问题进行了研究。论文提出的算法通过编程实现后,将作为一个重要的功能模块应用于由本实验室自主开发的“中文自动分词系统”中,以提高该系统识别新词的能力。 论文首先对自然语言处理作了简单介绍,提出了中文自然语言处理的特殊性,即汉语的词与词之间不象西方文字那样存在自然分隔标志,因此必须对待处理的中文文本进行自动分词。随着中文自动分词算法研究的深入,制约其发展的几个问题便越来越受到研究者的关注。其中一大难题就是对中文未登录名词短语的识别。 论文主体部分介绍了名词短语中姓名的识别方法,并阐述了将其作为研究中文未登录名词短语识别问题切入点的意义及作用。在分析常见中文姓名识别方法的基础上,指出了现有识别算法的不足,进而提出了基于词性探测的未登录中文姓名识别算法。该算法结合统计语言模型和中文构词规则等信息,能有效识别中文姓名。此外,论文还引入了支持向量机学习方法,从统计学分类的角度探讨中文姓名与非中文姓名在若干特征上的差异,验证应用支持向量机理论识别中文姓名的可行性。 论文最后根据中文姓名识别系统的评价参数对实验数据进行了分析。同时,对全文的工作进行了总结,并提出进一步的研究工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号