首页> 中文学位 >基于弱监督学习的实体关系抽取方法研究
【6h】

基于弱监督学习的实体关系抽取方法研究

代理获取

目录

声明

致谢

摘要

图目录

表目录

1 引言

1.1 课题背景及意义

1.2 研究思路

1.3 创新点

2 弱监督学习实体关系抽取方法综述

2.1 半监督学习

2.2 远程监督学习

2.3 无监督学习

2.4 结论与展望

3 弱监督方法下的实体关系抽取

3.1 Rel-LDA和Rel-TNG模型

3.2 Type-LDA和Type-TNG

3.3 困惑度

3.4 实验与评价

3.4.1 数据集

3.4.2 实体关系抽取

3.4.3 先验知识

3.5 结论

4 大规模实体关系抽取的提速方法

4.1 不适用的几种方法

4.1.1 Alias方法

4.1.2 稀疏性方法

4.2 近似分布式推断

4.3 实验与评价

4.3.1 同步AD方法

4.3.2 异步AD方法

4.4 结论

5 结论与展望

参考文献

附录

作者简介

展开▼

摘要

大数据相关产业与技术的发展使得科技信息服务业面临前所未有的机遇和挑战,需要对现有的应用进行研究与改进,这些应用都广泛而深入的依赖知识图谱,如:搜索引擎、个人智能助手、机器翻译和问答系统等。
  作为从无结构文本中构建知识图谱(或称知识库)的关键性步骤,上述应用从实体关系抽取中受益良多。而作为弱监督学习实体关系抽取的两种重要方法,Rel-LDA和Type-LDA,近年来颇受重视。但是,这两个模型继承了LDA模型的“词袋假设”,存在诸多限制。为打破这一限制,本文结合TNG模型的在多元语法特征方面的长处,提出了Rel-TNG和Type-TNG两个模型,并详细给出了两个模型的吉布斯采样算法。在此基础上,本文基于GENIA和EPI语料进行了试验。试验结果表明,虽然本文提出的模型和Rel-LDA、Type-LDA两个模型在表现方面的差异没有统计显著性,但是,当引入先验数据,Rel-TNG和Type-TNG的表现明显优于前者
  主题模型实体关系抽取大规模应用的主要障碍是高昂的计算成本,在资源有限的情况下,这表现为模型训练速度缓慢。究其根本原因,相关的成本产生于:不同CPU上变量的同步以保持一致性;多种候选关系时的采样过程等。幸运的是,已有的一些研究可以大大降低计算成本。本文针对Rel-TNG和Type-TNG模型的大规模应用进行了具体分析,得出结论:1)Alias方法和稀疏性方法不适用于实体关系抽取主题模型;2)同步AD方法和异步AD方法作为近似方法,在模型的训练质量上与原始的采样方法存在可忽略的区别,而在训练速度上有显著提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号