首页> 中文学位 >基于链接开放数据的实体连接
【6h】

基于链接开放数据的实体连接

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

插图索引

表格索引

第一章绪论

1 .1 语义网

1 .2 知识库和链接开放数据

1 .3 实体连接

1 .4 本文的贡献及结构

第二章国内外研究现状

2 .1 现有算法总结

2 .2 现有系统实现概述

第三章预备知识介绍

3 . 1 主题模型与LDA

3 .2 分词、词性标注与命名实体识别

3 .3 分布式计算

第四章实体连接算法与设计

4 .1 算法流程

4 .2 知识库结构

4 .3 知识库离线处理

4 .4 领域相关知识抽取

4 .5 领域主题模型训练

4 .6 文本词空间表示抽取

4 .7 实体提及抽取

4 .8 候选选择算法

第五章领域的清理和扩充

5 .1 内链接扩充

5 .2 开放分类扩充

5 .3 跨领域清理

5 .4 扩充清理结果

第六章同义词扩展算法

6 .1 相关定义

6 .2 大规模文本集合处理

6 .3 扩展算法

第七章实验结果

7 .1 实验环境和准备

7 .2 实验数据标注

7 .3 实验结果

第八章系统实现及展示

8 .1 系统编程接口设计

8 .2 系统界面设计

总结与展望

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

实体连接是数据挖掘领域中一个非常热门的课题,这个任务的目的是将给定文本中提到的实体,也就是一些概念如人物时间地理等,连接到给定的目标知识库中。它和传统的命名实体识别不同,后者只是为了识别出特定类型的实体,并不存在目标知识库,所以并不能提供识别实体的具体信息。一个优秀的实体连接系统或算法可以给文本自动标注,文本结构化等任务提供非常方便的自动化帮助。
  本文提出了一个基于领域的主题模型的实体连接算法,以Zhishi.me作为目标知识库。本文通过抽取特定的领域,并利用主题模型去捕捉领域相关的文本的语义特征。在此基础上,为了克服领域不全和同义词不全的问题,本文分别提出了基于知识库结构化信息的领域扩充算法和基于共现图的同义词查找算法,提升了领域模型的广度和同义词匹配的准确度。进一步,将这些算法在手工标注的新闻和微博数据集上做了较全面的实验,得出的实验结果效果比较好,可以说明本文方法的有效性。
  另外,本文还实现了一个演示系统,用户可以向Web服务器提交请求,并得到对应的实体连接结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号