首页> 中文学位 >中文自动分词及人名识别技术研究
【6h】

中文自动分词及人名识别技术研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章绪论

第二章中文自动分词的理论基础

第三章基于动态四字双向词典的中文分词

第四章基于知网的贝叶斯中文人名识别

第五章结束语

参考文献

附录

致谢

展开▼

摘要

在Internet日益普及的今天,语言文字作为信息的载体越来越多的出现在人们的视野中,因此自然语言理解成为了一个热门的研究领域。中文自动分词作为自然语言理解的第一步,分词技术的优劣将直接影响到中文信息的后续处理。它是自然语言理解的一个前沿课题,在基础研究和应用研究领域都起着举足轻重的作用。
   中文人名是未登录词的最主要组成部分,它的存在成为影响分词精度的主要因素之一。中文人名识别是中文自动分词中的一项关键技术,但目前在处理结果上还不尽如人意,还需进一步提高其识别质量。
   文本将针对中文自动分词模型和中文人名识别问题进行研究,主要工作集中在:
   (1)提出一种动态四字双向词典机制。该机制针对四字以内词出现频率高的特点,为每一个四字以内的词添加了相应的前后缀信息,达到减少词汇平均访问词典数的目的,提高词的查询效率。
   (2)提出了基于知网的贝叶斯中文人名识别算法。在对文章初分词的基础上,进行朴素贝叶斯人名识别,完成对人名的粗略识别和定位,最后利用语义相关度知识对人名修正。该方法无需规则的大量的使用,同时在人名仅一次出现的情况下能够进行准确的识别,有效的提高了中文人名自动识别的质量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号