首页> 中文学位 >中文文本姓名识别的研究
【6h】

中文文本姓名识别的研究

代理获取

目录

文摘

英文文摘

声明

第一章绪 论

1.1引言

1.2中文分词研究现状

1.3本文的主要研究内容

1.4本文组织结构

第二章中文分词概述

2.1分词系统的主要目标

2.2自动分词中存在的主要问题

2.2.1分词规范的难点

2.2.2歧义字段的切分

2.2.3未登录词辨识

2.3分词方法的基本策略

2.3.1基于词典的机器分词

2.3.2基于统计的分词方法

2.3.3基于规则的分词算法

2.3.4基于理解的分词方法

2.4现有几种中文分词系统

2.5汉语自动分词的评测指标

第三章歧义消解和未登录词识别方法

3.1歧义字段的分类

3.2基于规则的分词消歧

3.3基于统计方法的分词消歧

3.3.1基于词频的消歧方法

3.3.2基于互信息歧义切分方法

3.4中文姓名的识别

3.4.1中文姓名识别的难点

3.4.2中文姓名本身规律

3.4.3名字用字分类和特点

第四章基于互信息的中文姓名识别算法

4.1本文拟解决的问题

4.2姓名识别算法描述

4.2.1正向逆向最大匹配算法

4.2.2待分析字符串的预处理

4.2.3基于词典的分词算法的改进

4.2.4算法设计

第五章总结与展望

参考文献

致 谢

在学期间公开发表论文及著作情况

展开▼

摘要

中文分词是中文信息处理中的一个基础部分,中文信息处理要从三个层面上对中文进行处理:字、词、句。在汉语中,词是最小的语言单位,只有处理好词层面的问题,才能更好地处理句层面的问题,词层面的研究是句层面的基础。词层面的问题最重要的就是中文分词问题,对于英文,由于英文中词与词之间是用空格隔开,检索起来很方便,相对来讲,中文的词与词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种技术也就是中文分词。 随着中文信息处理的发展,中文分词也得到了很大的发展。出现了众多的算法。根据它们的特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。因为每种方法都有各自的优点和劣势,所以目前单一使用一种方法并不能达到让人满意的效果,而将其中的两三种方法结合起来,优势互补,相对来讲会得到更好的分词结果。 对于中文分词,未登录词识别错误尤其是专有名词识别错误是导致自动分词错误的主要原因之一。对所有切分错误进行统计,姓名错误占了将近百分之九十。冈此改进姓名的识别准确率能极大的提高分词系统的性能。本文将基于字符串匹配和基于统计两种方法结合起来,先是基于字典的处理,通过改进分词词典,提高分词处理速度。通过基于字典的正反向最大匹配算法对待分词的文本进行处理,再对处理结果进行比较,如果分词结果不同则表明可能存在歧义,就采用基于统计方法进行歧义字段切分,提高了对未登录词语,尤其是人名的识别。解决了一定条件下的人名自动识别问题。

著录项

  • 作者

    郭庆贺;

  • 作者单位

    东北师范大学;

  • 授予单位 东北师范大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 孙铁利;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.43;
  • 关键词

    中文文本; 姓名识别; 中文信息处理; 中文分词;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号