首页> 中文学位 >中文姓名自动识别系统的设计与实现
【6h】

中文姓名自动识别系统的设计与实现

代理获取

目录

文摘

英文文摘

声明

1 绪论

1.1研究背景

1.2研究意义

1.3中文人名识别的困难

1.4本文的主要工作

1.5本文结构

2 国内外研究现状

2.1词语切分方法概述

2.2人名识别方法概述

2.3各种方法比较

3 建立中文人名识别资源

3.1人名样本库

3.2姓氏库

3.3人名语料库

4 基于局部二元统计的人名识别模型

4.1相关定义

4.2姓氏的优先级

4.3人名识别模型

4.4人名识别思想描述

5 系统设计与实现

5.1系统结构

5.2系统资源定义

5.3识别过程描述

5.4实验及分析

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

中文命名实体或未登录词识别是中文信息处理的基础研究课题,是文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息抽取、机器翻译等多种自然语言处理技术的重要基础。因此,研究中文命名实体识别对提高词法分析、句法分析、语义分析乃至中文信息处理的质量有很重要的意义。 本文针对现代汉语文本,主要研究人名的自动识别问题,我们在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏按其在真实文本中成为真姓氏的概率对姓氏进行优先级划分,并重点研究了前300个姓氏作普通单字时其上下文用字规律及姓氏的词性规律,将局部二元统计语言模型作为基本框架,设计并实现了一个中文人名自动识别系统。具体地,本文的主要内容如下: 本文首先分析了中文人名识别的困难,并对现有的人名识别方法进行了简单介绍和比较;然后建立了人名样本库、姓氏库、人名语料库等在人名识别前所需的语言学资源,并对这些资源进行统计分析的基础上,建立了各种人名用字表、姓氏概率表、分词词典、人名上下文信息表、姓氏用作普通单字时的上下文信息表、姓氏前缀、后缀表等人名识别过程中所需的数据资源。然后对姓氏按优先级进行分类,并通过3σ法则建立优先级阈值库;利用局部二元统计语言模型对人名识别问题进行建模,并给出各个优先级的姓氏的识别规则。最后,我们设计并实现了一个基于局部二元统计模型的中文人名自动识别系统。 实验结果表明,本文提出的人名识别模型能够获得较为满意的结果。对98年1月《人民日报》26日~31日的语料进行的开放测试,在调整阈值参数c的情况下,获得了平均召回率和准确率分别为79.06%、81.16%,部分解决了人名的识别问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号