中文未登录名词短语的识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种计算模型，这种计算模型能够模拟人类语言认知的过程。但是当前计算机的智能水平还远远不能与人类相提并论，困扰其发展的原因有很多，对未登录词的识别是自然语言处理领域亟待解决的几个难题之一。本论文在剖析现有未登录名词短语识别算法基础之上，对中文未登录名词短语，特别是名词短语中的姓名进行研究，提出了一种新的基于词性探测的中文姓名识别算法。同时，结合“支持向量机”这一新的机器学习方法，从不同的角度对中文姓名的识别问题进行了研究。论文提出的算法通过编程实现后，将作为一个重要的功能模块应用于由本实验室自主开发的“中文自动分词系统”中，以提高该系统识别新词的能力。论文首先对自然语言处理作了简单介绍，提出了中文自然语言处理的特殊性，即汉语的词与词之间不象西方文字那样存在自然分隔标志，因此必须对待处理的中文文本进行自动分词。随着中文自动分词算法研究的深入，制约其发展的几个问题便越来越受到研究者的关注。其中一大难题就是对中文未登录名词短语的识别。论文主体部分介绍了名词短语中姓名的识别方法，并阐述了将其作为研究中文未登录名词短语识别问题切入点的意义及作用。在分析常见中文姓名识别方法的基础上，指出了现有识别算法的不足，进而提出了基于词性探测的未登录中文姓名识别算法。该算法结合统计语言模型和中文构词规则等信息，能有效识别中文姓名。此外，论文还引入了支持向量机学习方法，从统计学分类的角度探讨中文姓名与非中文姓名在若干特征上的差异，验证应用支持向量机理论识别中文姓名的可行性。论文最后根据中文姓名识别系统的评价参数对实验数据进行了分析。同时，对全文的工作进行了总结，并提出进一步的研究工作。

著录项

作者
王源媛;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名何中市;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;文字处理软件;
关键词
自然语言处理; 词语切分; 未登录词; 统计语言模型; 支持向量机; 统计学分类; 短语识别;

相似文献

中文文献
外文文献
专利

1. 基于马尔科夫逻辑网的中文专利最大名词短语识别 [J] . 蔡东风 ,赵奇猛 ,饶齐 . 中文信息学报 . 2016,第004期
2. 中文指代消解名词短语的识别 [J] . 韦丽红 . 计算机光盘软件与应用 . 2013,第021期
3. 最大熵与转换规则相结合识别中文名词短语 [J] . 卢朝华 ,蒙皓兵 . 计算机光盘软件与应用 . 2011,第003期
4. 基于混合统计模型的中文基本名词短语识别 [J] . 谭魏璇 ,孔芳 ,倪吉 . 计算机应用与软件 . 2011,第008期
5. 基于最大熵模型的中文名词短语识别 [J] . 张惠春 . 电脑知识与技术 . 2009,第008期
6. 识别中文文本中的未登录专有名词的类别 [C] . 张云涛 ,上海交通大学 ,龚玲 . 2007年中国智能自动化会议 . 2007
7. 基于语义相似度的汉语未登录动词语义框架识别 [A] . 罗思明 . 2008

中文未登录名词短语的识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅