首页> 中文学位 >基于领域规则和深度学习的文本信息提取
【6h】

基于领域规则和深度学习的文本信息提取

代理获取

目录

声明

插图索引

表格索引

符号对照表

缩略语对照表

第一章 绪论

1.2 深度学习简介

1.3 论文的主要工作及安排

第二章 文本信息提取概述

2.2 事件提取简介

2.3 指代消解简介

2.4 BioNLP简介

2.5 本章小结

第三章 基于SVM和生物文本规则融合的事件提取

3.3 基于SVM和生物文本规则融合的事件提取

3.4 实验结果和分析

3.5 本章小结

第四章 基于句法分析树和生物领域特性的蛋白质指代消解

4.2 Protein Coreference任务介绍

4.3 句法分析简介

4.4 基于句法分析树和生物领域特性的蛋白质指代消解

4.5 实验结果和分析

4.6 本章小结

第五章 基于LSTM的蛋白质指代消解

5.2 循环神经网络简介

5.3 基于LSTM的蛋白质指代消解

5.4 实验结果和分析

5.5 本章小结

第六章 总结与展望

6.2 展望

参考文献

致谢

作者简介

展开▼

摘要

在当前互联网时代,各种信息和资料的数量每天都在剧烈增长,文本数据作为其中一个重要部分,也是日益增多,怎样从庞大的文本数据里快速获取知识,是一个研究热点。生物文本信息提取是文本挖掘技术在生物医学领域的重要应用,通过生物实体识别、生物关系提取、生物事件提取、生物实体指代消解等一系列的基础工作构建出生物网络,帮助生物医学相关工作者进行各种学习和研究。
  本研究主要内容包括:⑴提出了一种基于SVM和生物文本规则融合的事件提取方法。在复杂生物事件中,不同类型的事件具有不同的句法、语义特性,因此很难只用一种单独的模型来对所有类型的事件进行识别提取,此方法在一个多分类SVM的基础上,针对不同类型事件提出了不同的句法、语义规则进行后处理,并用实验证明了各种特征和各种规则的有效性,取得了很好的事件提取结果,在BioNLP SeeDev任务上获得了最好的成绩。⑵提出了一种基于句法分析树和生物领域特性的蛋白质指代消解方法。针对不同类型指代关系的特点,本方法用三种不同方案分别对关系代词、人称代词和限定性名词短语类型的指代关系进行消解处理,其中关系代词和人称代词类型使用了句法分析规则,限定性名词短语类型使用了生物领域特性规则,并在BioNLP蛋白质指代消解数据集上进行了实验,结果相比于当前最好成绩有所提升。⑶提出了一种基于LSTM的蛋白质指代消解方法。本方法在词向量的训练过程中,直接生成了照应语和候选先行语提及的整体表示特征――提及向量,然后对包含照应语和候选先行语的一个词序列,使用提及向量、词向量和其他少量特征,通过LSTM学习到序列的整体表示特征,并且输出类似于概率的输出值,以此对候选先行语进行排序,为照应语挑选最优的先行语。本方法在只需要很简单的特征输入情况下,自动化的从数据集中学习到所有指代类型的全局判别特征,相比于基于规则的方法避免了繁琐的手工规则挖掘过程。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号