首页> 中文学位 >基于组合核函数的蛋白质交互关系抽取
【6h】

基于组合核函数的蛋白质交互关系抽取

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究意义

1.3 研究现状

1.4 本文工作

1.5 本文结构

2 蛋白质交互关系抽取的相关理论

2.1 关系抽取

2.1.1 信息抽取

2.1.2 关系抽取

2.1.3 命名实体识别

2.1.4 蛋白质交互关系抽取

2.2 机器学习

2.3 支持向量机

2.3.1 支持向量机的基本原理

2.3.2 广义分类面与支持向量机

2.3.3 核函数

2.4 语料及测评指标

2.5 工具包

2.5.1 SVMlightTK 1.2

2.5.2 Stanford Parser

2.5.3 MeSH

2.5.4 WordNet

3 基于树核的蛋白质交互关系抽取

3.1 预处理

3.2 特征向量的抽取

3.2.1 词特征

3.2.2 距离特征

3.2.3 语法链接特征

3.3 卷积树核

3.4 卷积树核中句法树的剪裁及动态扩展

3.4.1 卷积树核中句法树的剪裁

3.4.2 卷积树核中句法树的动态扩展

3.5 特征核与树核组合

3.6 实验及结果

3.6.1 基于特征向量的PPI抽取

3.6.2 四种基本句法树的有效性验证实验

3.6.3 三种SPT拓展树的有效性验证实验

3.6.4 特征核与树核组合的有效性验证实验

4 基于语义核函数的蛋白质关系抽取

4.1 蛋白质对语义相似度

4.1.1 蛋白质名称匹配

4.1.2 蛋白质对语义相似度的计算方法

4.2 上下文语义相似度

4.2.1 预处理

4.2.2 上下文语义相似度的计算方法

4.3 语义核函数

4.4 实验及结果分析

5 基于多核组合的蛋白质关系抽取

5.1 多核的结合方式

5.2 实验与结果分析

5.2.1 组合核有效性验证实验

5.2.2 与其他先进方法比较

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。从语言学角度来分析,通常一个句子中包含拼写信息、词法信息、词信息、句法信息、语义信息和语法信息等。判断目标蛋白质对是否存在关系和这对蛋白质所在实例所蕴含的各种语言学信息紧密相关,如何使用尽可能多的语言学信息来提升PPI抽取的精度是我们的研究重点。因此本文提出一种将多种核函数融合的方法进行蛋白质交互关系抽取。
  首先将基于特征的平面核和基于结构的卷积树核组合。卷积树核是通过计算两棵树之间的公共子树个数来计算相似度。一棵完整的句法解析树中包含了较多噪声,需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响,分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验,最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树,该树取得了明显优于其它解析树的效果。最后基于组合核在AIMeD上进行10倍交叉实验,精确率、召回率和F值分别达到了82.40%、51.30%和63.23%。
  然后使用语义核进行蛋白质关系抽取。语义核包含两部分内容:1)蛋白质对语义相似度(Protein Pair Similarity);2)上下文语义相似度(Context Semantic Similarity)。蛋白质对语义相似度计算是将蛋白质名称映射到MeSH主题词表中,通过计算两个蛋白质在MeSH中的位置和共用的信息多少来衡量其语义相似度。上下文语义相似度计算是使用WordNet计算两个句子间的相似程度。实验证明语义核对PPI抽取有较好的效果。
  最后将特征核、树核、语义核组合,由于包含了丰富的词信息、精准句法信息和全面的语义信息,使用其在AIMeD语料上抽取蛋白质交互关系,F值达到了69.46%,优于其他先进的蛋白质交互关系抽取系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号