首页> 中文学位 >多源知识库实体对齐与属性补全
【6h】

多源知识库实体对齐与属性补全

代理获取

目录

第一个书签之前

展开▼

摘要

知识库是众多自然语言处理任务的基础数据资源。但是人工构建知识库难度大、速度慢、规模小、易出错、更新滞后、成本高,高效利用网络百科海量词条数据自动抽取准确、全面的知识数据以自动构建知识库具有较高的研究价值和应用前景。 单一百科社区实体信息覆盖不全。不同百科社区信息虽然可以互补,但存在分类体系不同、数据异构、分类不严谨、实体歧义、数据质量参差不齐等问题,导致知识自动抽取效率低、准确性差。针对上述问题,本文主要研究以下内容: (1)分析网络百科组织形式和分类体系,设计百科网页爬虫下载百科词条网页。 (2)分析百科词条页面语义标签,抽取语义信息。 (3)设计融合实体名称、摘要关键词集合、属性-值序列及类别等多种特征的实体相似度计算方法,综合利用不同百科社区的知识资源自动对齐同义实体。 (4)构建常见实体类别属性集,解决许多实体其类型虽然相同,但信息框包含的属性却不相同的问题。 (5)制定密度、长度、重量、时间、面积、价格等属性的归一化规则,解决相同属性名其属性值表现形式不同等问题。 (6)将词条名称和属性名称组合作为问题,将百科网页正文中包含词条名称和属性名称的句子作为候选句子,对候选句子排序,选择和问题相似度值最高的候选句子利用条件随机场算法进行属性值抽取。 实验表明在融合词条名称、词条摘要、属性-属性值序列及词条类别等多种特征的实体对齐和基于候选句子排序的实体属性-值补全两个方面本文都取得了较好的实验效果。

著录项

  • 作者

    乔晶晶;

  • 作者单位

    太原理工大学;

  • 授予单位 太原理工大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 段利国;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    知识库; 实体;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号