首页> 中文学位 >领域本体在中文命名实体识别中的应用研究
【6h】

领域本体在中文命名实体识别中的应用研究

代理获取

摘要

命名实体识别(Named Entity Recognition,简称NER),作为自然语言处理任务中一项基础性工作,已经被广泛地应用在一些语言处理领域中,如信息检索、信息抽取和机器翻译等。国外最早的是基于英文命名实体识别的研究,随着命名实体识别技术的发展,中文命名实体识别逐渐引起了更多研究者的广泛重视。由于汉语自身的特点,使得中文命名实体识别成为一个比英文更加困难的任务。本文首先对当前命名实体识别的方法进行了总结和回顾,在众多识别方法的研究中,发现条件随机场CRFs模型(Conditional Random Fields,简称CRFs)取得了比其他模型更好的中文识别效果。
   为了提高中文命名实体识别的整体性能,本文采用基于统计和规则相结合的方法对命名实体进行了识别,重点考察了领域本体在中文命名实体识别中的具体支持方式和作用。首先将面向对象开发方法运用于构建本体的七步法中,建立了笔记本电脑领域本体;然后根据条件随机场CRFs模型着重研究了如何选择有效的特征来提高命名实体识别的效率,在此基础上,本文除选用常用的词上下文、词性特征外,还将本体作为其语义特征选择。最后,从领域本体实例化中抽取出规则用于识别用户所关心的常规命名实体,以对统计方法识别的结果进行补充,提高了命名实体识别的整体性能。
   为了验证领域本体被引入到条件随机场CRFs模型中的可行性,本文对其进行了对比实验,设计了两种不同的特征模板,通过对比分析显示,引入了本体的特征模板的命名实体识别的准确率、召回率和综合性能F值明显地高于常用的特征模板的,从而更进一步充分地说明了领域本体在中文命名实体识别中的作用;另外统计与规则相结合的命名实体识别效果优于基于CRFs模型的识别效果。为此,本文还完成了一个领域实体识别系统的原型,主要是为了可视化地展示进行命名实体识别的具体步骤。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号