基于组合核函数的蛋白质交互关系抽取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分，具有很高的应用价值和实际意义。从语言学角度来分析，通常一个句子中包含拼写信息、词法信息、词信息、句法信息、语义信息和语法信息等。判断目标蛋白质对是否存在关系和这对蛋白质所在实例所蕴含的各种语言学信息紧密相关，如何使用尽可能多的语言学信息来提升PPI抽取的精度是我们的研究重点。因此本文提出一种将多种核函数融合的方法进行蛋白质交互关系抽取。
　　首先将基于特征的平面核和基于结构的卷积树核组合。卷积树核是通过计算两棵树之间的公共子树个数来计算相似度。一棵完整的句法解析树中包含了较多噪声，需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响，分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验，最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树，该树取得了明显优于其它解析树的效果。最后基于组合核在AIMeD上进行10倍交叉实验，精确率、召回率和F值分别达到了82.40％、51.30％和63.23％。
　　然后使用语义核进行蛋白质关系抽取。语义核包含两部分内容:1）蛋白质对语义相似度（Protein Pair Similarity）;2）上下文语义相似度（Context Semantic Similarity）。蛋白质对语义相似度计算是将蛋白质名称映射到MeSH主题词表中，通过计算两个蛋白质在MeSH中的位置和共用的信息多少来衡量其语义相似度。上下文语义相似度计算是使用WordNet计算两个句子间的相似程度。实验证明语义核对PPI抽取有较好的效果。
　　最后将特征核、树核、语义核组合，由于包含了丰富的词信息、精准句法信息和全面的语义信息，使用其在AIMeD语料上抽取蛋白质交互关系，F值达到了69.46％，优于其他先进的蛋白质交互关系抽取系统。

著录项

作者
刘洋;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机技术
授予学位硕士
导师姓名李丽双;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;生物信息论;
关键词
蛋白质交互关系; 信息抽取; 语义相似度; 组合核函数;

相似文献

中文文献
外文文献
专利

1. 基于组合核的蛋白质交互关系抽取 [J] . 李丽双 ,刘洋 ,黄德根 . 中文信息学报 . 2013,第001期
2. 基于凸组合核函数的中文领域实体关系抽取 [J] . 陈鹏 ,郭剑毅 ,余正涛 . 中文信息学报 . 2013,第005期
3. 基于迁移学习的蛋白质交互关系抽取 [J] . 李丽双 ,郭瑞 ,黄德根 . 中文信息学报 . 2016,第002期
4. 基于TSVM与主动学习融合的蛋白质交互作用关系抽取 [J] . 刘健苗 ,王浩畅 ,赵铁军 . 高技术通讯 . 2009,第005期
5. 基于树核函数的实体语义关系抽取方法研究 [J] . 庄成龙 ,钱龙华 ,周国栋 . 中文信息学报 . 2009,第001期
6. 一种基于核函数的技术关键词连接关系抽取方法 [C] . 王裴岩 ,张桂平 ,白宇 . 第六届全国信息检索学术会议 . 2010
7. 基于核函数与SVD的蛋白质关系抽取 [A] . 张霄 . 2009

基于组合核函数的蛋白质交互关系抽取

目录

摘要

著录项

相似文献

相关主题

期刊订阅