基于DBpedia Spotlight的高效命名实体识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近些年，随着关联数据的发展，大量不同领域的知识库以RDF的形式发布出来，规模愈来愈大，内容愈来愈丰富。命名实体识别作为信息提取领域的子任务，能够构建知识库与自然语言文本之间的桥梁，利用知识库中的语义为关键字提取，机器翻译，主题检测与跟踪等任务提供支撑。因此，如何有效地提高命名实体识别的性能成为许多研究工作的焦点。
　　本文基于开源命名实体识别系统DBpedia Spotlight提出了一套命名实体识别优化方案。该方案包括三个部分，首先针对系统使用的一元语言模型设计并实现编辑扩展的框架，增强了系统的灵活性，同时基于该框架提出了使用训练集和候选集对模型进行扩展的方法，通过人工生成候选集验证了方法的有效性；其次，通过考虑上下文单词与实体的相关性，提出了点互信息率的概念，并使用其作为阈值对系统的上下文模型进行特征选择，舍弃掉上下文中与实体相关度较低的单词，在大幅度降低模型空间的同时提高了系统标注的准确率和召回率；最后，考虑到文本内部通常会有一个中心主题，本文使用维基百科文章之间的链接为实体和文本构建主题向量，通过计算候选集中实体与文本主题之间的相似度，对系统的标注结果进行二次消歧，进一步地提高了系统标注的准确率。
　　另外，中文作为世界上使用人口最多的语言，设计和实现一个中文命名实体识别系统是非常必要的。本文以DBpedia Spotlight为基础，分析并克服中文语言为命名实体识别任务带来的挑战，使用中文维基百科数据构建一元语言模型，设计并实现了中文命名实体识别系统，为用户提供REST服务访问和Web界面访问，填补了中文命名实体识别工作的空白。
　　综上，本文基于DBpedia Spotlight提出了一套命名实体识别优化方案。实验结果与分析表明，该方案能够有效地提高系统的灵活性，降低系统占用的空间，改善系统的标注效果。同时本文克服了中文语言带来的挑战，设计并实现了中文命名实体识别系统，对中文命名实体识别任务的研究具有一定进步意义。

著录项

作者
付宇新;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科计算机科学与技术
授予学位硕士
导师姓名冯志勇;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
命名实体识别; 关联数据; DBpedia技术; 信息提取;

相似文献

中文文献
外文文献
专利

1. DBpedia Spotlight上的命名实体识别优化 [J] . 付宇新 ,王鑫 ,冯志勇 . 计算机科学与探索 . 2017,第007期
2. 基于DBpedia的领域本体进化方法研究 [J] . 刘紫玉 ,杨雨佳 ,张晓明 . 情报杂志 . 2017,第006期
3. 基于局部对抗训练的命名实体识别方法研究 [J] . 李静 ,程芃森 ,许丽丹 . 四川大学学报（自然科学版） . 2021,第002期
4. 基于不同模型的中文命名实体识别方法研究 [J] . 宫义山 ,段亚奇 . 信息通信 . 2021,第001期
5. 一种基于BiLSTM-CRF的命名实体识别方法研究 [J] . 赵理金 . 电脑与信息技术 . 2021,第002期
6. 一种基于门控空洞卷积的高效中文命名实体识别方法 [C] . Xiaoyue Wang ,王笑月 ,Ru Li . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于动态网络的医疗命名实体识别方法研究 [A] . 王彩雨 . 2021

基于DBpedia Spotlight的高效命名实体识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅