基于图方法的命名实体消歧研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着web2.0的普及，越来越多的普通互联网用户作为互联网文本的创建者参与进来。随着互联网的迅速膨胀，产生了丰富的文本数据。通过自然语言处理技术对互联网中的文本进行分析可以发现有价值的信息。然而互联网文本数据产生自普通的互联网用户，质量良莠不齐。由于自然语言的多样性和歧义性，不同的用户对同一实体往往具有多种表达，相同的实体字符串在不同的上下文中可能表示不同的实体。为了使计算机能够正确地对自然语言文本进行分析，对文本中的名实体进行消歧显得尤为重要。本文采用基于图方法的名实体消歧来解决这一问题，本文的研究内容如下：
　　首先是对知识库的预处理，本文采用的图方法需要利用知识库中的实体关系对候选实体进行拓展，知识库中实体三元组的质量将直接影响到最终的消歧效果。预处理阶段十分重要。预处理分为从三元组表示形式和数据集筛选两个角度进行考虑。在三元组表示形式方面，主要对三元组的实体表示进行缩减，并对异常编码的处理。在数据集角度上，针对不同的数据集的特点进行分析，对数据集中三元组进行过滤。通过预处理，从而去除对消歧无用的信息，减少噪声数据，为后续的消歧任务做准备。
　　实体消歧的主要步骤是生成候选实体和名实体消歧。首先我们要对文本中的实体指称生成候选。我们从基于字符串相似度的方法和基于知识库的方法两个角度对实体指称生成候选，字符串相似度方法主要从候选实体的拓充和筛选两个方面进行介绍，基于知识库的方法主要有基于规则的方法和基于先验概率的方法。通过对不同候选生成方法的效果进行对比。最终对几种方法进行组合，产生了不错的效果。本文采用的方法在保证了目标实体的召回率的同时，有效地减少了候选实体的数目，可以减少消歧阶段的计算复杂度和噪声实体。
　　候选实体生成之后接下来要做的就是名实体消歧。首先利用知识库中的实体关系对候选实体进行拓展，使候选实体之间形成互相连通的实体网络图。在此网络图上采用链接分析算法，为候选实体评分从而实现消歧。对实体拓展的策略涉及拓展采用的实体关系，拓展的实体路径长度、上下文粒度的选择以及对实体指称进行消歧是采用同时决策还是依次进行决策。本文通过实验对以上策略进行对比，并选择最佳的策略。最终和基线系统进行对比，取得了不错的消歧效果。

著录项

作者
杨光;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘秉权;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP391.41;
关键词
互联网用户; 命名实体消歧; 图方法; 字符串相似度; 预处理;

相似文献

中文文献
外文文献
专利

1. 基于图方法的命名实体消歧 [J] . 杨光 ,刘秉权 ,刘铭 . 智能计算机与应用 . 2015,第005期
2. 基于图方法的命名实体消歧 [J] . 杨光 ,刘秉权 ,刘铭 . 智能计算机与应用 . 2015,第005期
3. 基于上下文信息的中文命名实体消歧方法研究 [J] . 王旭阳 ,姜喜秋 . 计算机应用研究 . 2018,第004期
4. 基于中文维基百科的命名实体消歧方法 [J] . 杜婧君 ,陆蓓 ,谌志群 . 杭州电子科技大学学报 . 2012,第006期
5. 面向领域的命名实体消歧方法改进研究 [J] . 曾维新 ,赵翔 ,冯滔 . 计算机工程与应用 . 2018,第017期
6. 基于义类的无导词义消歧方法的研究 [C] . 全昌勤 ,何婷婷 ,姬东鸿 . 第二届全国学生计算语言学研讨会 . 2004
7. 基于中文维基百科的命名实体消歧方法研究 [A] . 杜婧君 . 2012

基于图方法的命名实体消歧研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅