首页> 中文期刊>自动化学报 >统计与规则相结合的维吾尔语人名识别方法

统计与规则相结合的维吾尔语人名识别方法

     

摘要

命名实体识别(Named entity recognition,NER)是自然语言处理(Natural language processing,NLP)中重要的任务,其中人名实体是主要的识别对象之一.本文从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,获得更小的语言单元,并把切分的新单元作为特征加入到条件随机场(Conditional random field,CRF)中,明显缓解了数据稀疏的影响,取得了比以单词为基本单元的人名识别方法更好的性能.同时还从维吾尔语中汉族人名的特点出发,提出了基于规则的维吾尔语中汉族人名的识别方法,最终利用统计和规则相结合的方法进一步提高了识别的准确率.实验结果表明,该方法人名识别的准确率、召回率和F1值分别达到了87.47%、89.12%和88.29%.%Named entity recognition (NER) is an important subtask of natural language processing,where person name is one of the major objects.From agglutinative characteristics of the Uyghur language,we split a Uygur word into different level units such as syllable,suffix,stem,etc.,so as to significantly reduce the data sparse problem.Since the Han people name is the major remaining errors for the CRF (Conditional random field)-based approach,we also propose a rule-based post-processing approach for Han people name recognition in Uyghur language.Experimental results show that this cascade approach achieves satisfactory performance,and that the recognition accuracy,recall rate and F1 score are 87.47%、89.12 % and 88.29 %,respectively.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号