首页> 中文学位 >基于DBpedia Spotlight的高效命名实体识别方法研究
【6h】

基于DBpedia Spotlight的高效命名实体识别方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题的背景

1.2 研究目标和主要内容

1.3 论文组织结构

第2章 相关工作综述

2.1 命名实体识别的现状

2.2 基准系统DBpedia Spotlight

2.3 命名实体识别系统的评价

第3章 基于DBpedia Spotlight的改进方法设计与实现

3.1 模型编辑扩展框架

3.2 基于点互信息率的特征选择

3.3 基于主题模型的二次消歧

第4章 中文命名实体识别系统的设计与实现

4.1 中文命名实体识别任务

4.2 中文命名实体识别系统离线部分设计和实现

4.3 中文命名实体识别系统在线部分设计和实现

第5章 命名实体识别系统的评测

5.1 评测环境

5.2 基于DBpedia Spotlight的改进方法的实验结果及分析

5.3 中文命名实体识别系统的演示

5.4 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

近些年,随着关联数据的发展,大量不同领域的知识库以RDF的形式发布出来,规模愈来愈大,内容愈来愈丰富。命名实体识别作为信息提取领域的子任务,能够构建知识库与自然语言文本之间的桥梁,利用知识库中的语义为关键字提取,机器翻译,主题检测与跟踪等任务提供支撑。因此,如何有效地提高命名实体识别的性能成为许多研究工作的焦点。
  本文基于开源命名实体识别系统DBpedia Spotlight提出了一套命名实体识别优化方案。该方案包括三个部分,首先针对系统使用的一元语言模型设计并实现编辑扩展的框架,增强了系统的灵活性,同时基于该框架提出了使用训练集和候选集对模型进行扩展的方法,通过人工生成候选集验证了方法的有效性;其次,通过考虑上下文单词与实体的相关性,提出了点互信息率的概念,并使用其作为阈值对系统的上下文模型进行特征选择,舍弃掉上下文中与实体相关度较低的单词,在大幅度降低模型空间的同时提高了系统标注的准确率和召回率;最后,考虑到文本内部通常会有一个中心主题,本文使用维基百科文章之间的链接为实体和文本构建主题向量,通过计算候选集中实体与文本主题之间的相似度,对系统的标注结果进行二次消歧,进一步地提高了系统标注的准确率。
  另外,中文作为世界上使用人口最多的语言,设计和实现一个中文命名实体识别系统是非常必要的。本文以DBpedia Spotlight为基础,分析并克服中文语言为命名实体识别任务带来的挑战,使用中文维基百科数据构建一元语言模型,设计并实现了中文命名实体识别系统,为用户提供REST服务访问和Web界面访问,填补了中文命名实体识别工作的空白。
  综上,本文基于DBpedia Spotlight提出了一套命名实体识别优化方案。实验结果与分析表明,该方案能够有效地提高系统的灵活性,降低系统占用的空间,改善系统的标注效果。同时本文克服了中文语言带来的挑战,设计并实现了中文命名实体识别系统,对中文命名实体识别任务的研究具有一定进步意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号