中文姓名自动识别系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

中文命名实体或未登录词识别是中文信息处理的基础研究课题，是文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息抽取、机器翻译等多种自然语言处理技术的重要基础。因此，研究中文命名实体识别对提高词法分析、句法分析、语义分析乃至中文信息处理的质量有很重要的意义。本文针对现代汉语文本，主要研究人名的自动识别问题，我们在对大规模姓名样本库、姓名语料库进行统计的基础上，将姓氏按其在真实文本中成为真姓氏的概率对姓氏进行优先级划分，并重点研究了前300个姓氏作普通单字时其上下文用字规律及姓氏的词性规律，将局部二元统计语言模型作为基本框架，设计并实现了一个中文人名自动识别系统。具体地，本文的主要内容如下：本文首先分析了中文人名识别的困难，并对现有的人名识别方法进行了简单介绍和比较；然后建立了人名样本库、姓氏库、人名语料库等在人名识别前所需的语言学资源，并对这些资源进行统计分析的基础上，建立了各种人名用字表、姓氏概率表、分词词典、人名上下文信息表、姓氏用作普通单字时的上下文信息表、姓氏前缀、后缀表等人名识别过程中所需的数据资源。然后对姓氏按优先级进行分类，并通过3σ法则建立优先级阈值库；利用局部二元统计语言模型对人名识别问题进行建模，并给出各个优先级的姓氏的识别规则。最后，我们设计并实现了一个基于局部二元统计模型的中文人名自动识别系统。实验结果表明，本文提出的人名识别模型能够获得较为满意的结果。对98年1月《人民日报》26日～31日的语料进行的开放测试，在调整阈值参数c的情况下，获得了平均召回率和准确率分别为79.06％、81.16％，部分解决了人名的识别问题。

著录项

作者
余祖波;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名高庆狮;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
中文姓名; 自动识别; 中文信息处理; 自动抽取; 文本聚类; 文本挖掘; 词法分析; 句法分析;

相似文献

中文文献
外文文献
专利

1. 中文姓名自动识别系统的设计与实现 [J] . 余祖波 ,高庆狮 ,方淼 . 计算机工程与应用 . 2006,第010期
2. 中文政治隐喻自动识别系统的设计与实现 [J] . 朱毅 ,郭乐诗 . 电子技术与软件工程 . 2020,第009期
3. 自动标引中中文姓名的切分 [J] . 靳从 ,唐振民 ,杨静宇 . 计算机工程 . 2003,第022期
4. 基于结合性自动识别中文姓名 [J] . 张跃 ,姚天顺 . 小型微型计算机系统 . 1997,第010期
5. 中文姓名的自动辨识 [J] . 孙茂松 ,高海燕 . 中文信息学报 . 1995,第002期
6. 基于姓氏优先级的中文姓名自动识别 [C] . 余祖波 ,高庆狮 ,北京科技大学智能语言研究所 . 2005中国计算机大会 . 2005
7. 基于统计和规则的中文姓名识别系统的研制 [A] . 王省 . 2000

中文姓名自动识别系统的设计与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅