首页> 中文学位 >基于上下文语义相似性约束的蛋白质交互关系识别
【6h】

基于上下文语义相似性约束的蛋白质交互关系识别

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

缩略词

第一章 绪 论

1.1 研究背景及意义

1.2 研究现状

1.3 本文的工作

1.4 本文的结构

第二章 相关工作

2.1 生物医学领域文本挖掘

2.2 蛋白质交互关系识别概述

2.3 蛋白质交互关系识别的主要方法

2.4 本章总结

第三章 关系描述的获取和表示

3.1 蛋白质交互关系识别过程

3.2 本章总结

第四章 基于词性加权和单词相似性的蛋白质交互识别

4.1 基于词性加权的蛋白质关系向量表示

4.2 支持向量机分类器

4.3 实验设置与结果分析

4.4 基于单词相似性的蛋白质关系向量表示

4.5 实验设置与结果分析

4.6 本章总结

第五章 基于关系相似性的PPI识别

5.1 关系相似性

5.2 基于关系相似性的PPI识别

5.3 实验设置与结果分析

5.4 本章总结

第六章基于Minimum Cuts的PPI识别

6.1Minimum Cuts算法描述

6.2Minimum Cuts能应用于PPI识别?

6.3构建Minimum Cuts

6.4 实验设置与结果分析

6.5 本章总结

第七章 总结与展望

7.1 工作总结

7.2 前景展望

参考文献

致谢

在学期间的研究成果及发表的学术论文

展开▼

摘要

蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要的意义,因此生物医学专家试图以手工收集信息的方法从文献中识别PPI信息,然后以统一的格式保存于关系数据库中。然而,随着生物医学文献大量地增加,以手工收集信息的方式已经难以满足实际需求。因此,研究如何从文献中识别PPI信息是一项亟待解决问题。
  目前常用的基于机器学习的方法大多是以单个句子为研究对象,这种方法依赖人工标注,且忽略了蛋白质交互的上下文信息。为了避免出现这些问题,本文以大规模语料库为研究依据,根据蛋白质丰富的上下文信息进行PPI识别。本文从文本数据库中收集了蛋白质对的上下文信息,从以下三个方面进行了研究。
  第一,研究上下文特征,从词性和单词相似性这两个角度对向量进行加权。得到的结果与不进行加权的结果相比,有交互蛋白质对F值提升了2.51%,无交互蛋白质对F值提升了1.85%。
  第二,根据蛋白质对关系描述文本之间的相似性,从关系相似性角度构建分类器进行PPI识别,重点比较了四种权重计算方法。
  第三,为了将上下文特征与文本之间的相似性这两种类型的信息进行有效地结合,采用了Minimum Cuts算法,利用上下文之间的相似性约束判断。在实验中,我们选择了不同比例的训练数据构建分类器。实验结果表明,当训练数据为80%时,与只有上下文特征信息的SVM的结果相比,识别结果有了3%-4%的提升。并且,Minimum Cuts以20%的训练数据得到了SVM以80%训练数据得到的识别结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号