中文文本姓名识别的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文分词是中文信息处理中的一个基础部分，中文信息处理要从三个层面上对中文进行处理：字、词、句。在汉语中，词是最小的语言单位，只有处理好词层面的问题，才能更好地处理句层面的问题，词层面的研究是句层面的基础。词层面的问题最重要的就是中文分词问题，对于英文，由于英文中词与词之间是用空格隔开，检索起来很方便，相对来讲，中文的词与词之间是没有分隔符的，因此若想建立基于词的索引，就需要专门的技术，这种技术也就是中文分词。随着中文信息处理的发展，中文分词也得到了很大的发展。出现了众多的算法。根据它们的特点，可以将现有的分词算法分为四大类：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。因为每种方法都有各自的优点和劣势，所以目前单一使用一种方法并不能达到让人满意的效果，而将其中的两三种方法结合起来，优势互补，相对来讲会得到更好的分词结果。对于中文分词，未登录词识别错误尤其是专有名词识别错误是导致自动分词错误的主要原因之一。对所有切分错误进行统计，姓名错误占了将近百分之九十。冈此改进姓名的识别准确率能极大的提高分词系统的性能。本文将基于字符串匹配和基于统计两种方法结合起来，先是基于字典的处理，通过改进分词词典，提高分词处理速度。通过基于字典的正反向最大匹配算法对待分词的文本进行处理，再对处理结果进行比较，如果分词结果不同则表明可能存在歧义，就采用基于统计方法进行歧义字段切分，提高了对未登录词语，尤其是人名的识别。解决了一定条件下的人名自动识别问题。

著录项

作者
郭庆贺;
展开▼
作者单位

东北师范大学;

展开▼
授予单位东北师范大学;
学科计算机软件与理论
授予学位硕士
导师姓名孙铁利;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
中文文本; 姓名识别; 中文信息处理; 中文分词;

相似文献

中文文献
外文文献
专利

1. 中文文本挖掘中姓名特征提取技术的研究 [J] . 胥桂仙 ,杨丹丹 ,高旭 . 中央民族大学学报（自然科学版） . 2003 ,第004期
2. 电磁泄漏还原图像中的中文文本识别技术研究 [J] . 吕志强 ,张磊 ,夏宇琦 . 信息安全学报 . 2021 ,第003期
3. 电磁泄漏还原图像中的中文文本识别技术研究 [J] . 吕志强 ,张磊 ,夏宇琦 . 信息安全学报 . 2021 ,第003期
4. 中文文本命名实体识别在弹幕中的研究探讨 [J] . 陈伟 . 读与写：中旬 . 2021 ,第10期
5. 中文文本蕴含类型及语块识别方法研究 [J] . 于东 ,金天华 ,谢婉莹 . 软件学报 . 2020 ,第012期
6. 中文姓名识别的现状及未来发展趋势的预测 [C] . WANG Xiaolei ,王晓磊 ,GAO Xing . 第19届全国计算机新科技与计算机教育学术大会 . 2008
7. 基于指纹与姓名语音的多模态生物特征融合身份识别技术的研究 [A] . 何树洋 . 2012

中文文本姓名识别的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅