首页> 中文学位 >基于场景的姓名识别
【6h】

基于场景的姓名识别

代理获取

摘要

汉语自动词法分析是组块分词、信息检索、对话问答、信息抽取等中文信息处理任务的基础。由于汉语的词与词之间没有明确的分隔符,汉语词法分析首先面临着自动分词的问题,而专名(人名、地名、机构名、时间表达、数字表达等)识别则是汉语自动分词的难点之一。专名能否正确识别直接影响分词的效果。姓名识别是专名识别的一个领域,本文绕开先分词再识别的传统方法,提出一种基于场景的中文姓名识别方法。
   文章首先分析了中文姓名的结构特征以及姓名在真实文本中出现的复杂情况,同时,结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息和姓名自身信息对中文名实体的影响,提出“场景”概念。接着提出了一种用于在姓名检测中的“回溯正向最长匹配算法”,以此为基础推导出中文名字右边界划分模型。在得到所有场景资源后,将它们作为姓名识别的依据。同时引入了证据理论,利用证据理论在信息融合、决策分析等领域的成功应用,得到姓名融合算法。
   同时在保证中文姓名识别准确率的情况下,还尝试识别外来译名。
   通过对互联网上随即抽取的大规模真实语料的开放测试,该方法取得了91%以上的召回率和满意的准确率。实验表明:基于场景的姓名识别算法行之有效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号