首页> 中文学位 >基于组合学习和主动学习的蛋白质关系抽取
【6h】

基于组合学习和主动学习的蛋白质关系抽取

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究现状

1.2.1 基于词共现的方法

1.2.2 基于模式匹配的方法

1.2.3 基于机器学习的方法

1.3 本文工作

1.4 本文结构

2 蛋白质关系抽取相关知识

2.1 信息抽取

2.2 句法分析

2.2.1 依存句法分析

2.2.2 深层句法分析

2.3 特征选择

2.4 组合学习

2.5 主动学习

2.6 评测指标和实验语料

2.6.1 评测指标

2.6.2 实验语料

3 基于组合学习的蛋白质关系抽取

3.1 语料预处理

3.2 特征向量构建

3.2.1 上下文特征

3.2.2 句法结构特征

3.3 特征选择

3.4 分类器组合

3.5 实验结果与分析

3.5.1 不同维数的特征在AIMed语料上的性能比较

3.5.2 组合学习在AIMed语料上的性能比较

3.5.3 不同方法在AIMed语料上的性能比较

3.6 本章小结

4 基于主动学习的蛋白质关系抽取

4.1 主动学习

4.1.1 基于不确定性的样本选择

4.1.2 基于版本空间缩减的样本选择

4.1.3 基于泛化误差缩减的样本选择

4.2 线性加权融合

4.2.1 基于特征向量的方法

4.2.2 图核

4.2.3 融合方法

4.3 实验结果与分析

4.3.1 AIMed语料上的性能比较

4.3.2 不同方法在5个语料上的性能比较

4.4 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

生命科学技术的不断发展,导致了生物医学领域文献的数量呈爆炸式增长。因此,研究人员迫切需要自动化工具,从海量的文献中,提取出感兴趣的信息。随着互联网的日益完善,信息抽取技术迅速发展起来,并且在生物医学领域产生了很大影响。蛋白质关系(Protein-Protein Interaction,PPI)抽取,作为信息抽取在生物医学领域的一个重要的应用,旨在从分子层面挖掘潜在的知识,以供研究者使用。围绕PPI抽取问题,本文从以下方面展开研究。
  为解决特征挖掘不足、单个分类器决策能力有限的问题,本文提出了组合学习的方法。该方法重点探索了特征设计以及多个分类器的集成问题。在特征选择方面,从句子上下文以及多种句法结构中提取了丰富的特征,并采用信息增益的特征选择方法来筛选出最优特征,然后构建特征向量;在分类器集成方面,选择三个分类准确率较高、决策机制不同的分类器,分别为支持向量机、最大熵和朴素贝叶斯,应用Q-statistic方法验证了不同分类器之间的差异性。采用线性加权的方法,将各个分类器的决策结果集成,保证单独抽取性能表现好的分类器,在融合中能够分配到更高的权重。组合学习方法在典型的AIMed语料上获得了71%的F值和92.9%的AUC值。
  组合学习方法,只适用在有标注语料充足的情况。然而,在实际应用中,有标注的语料数量相对稀少。因此,为了解决这个问题,本文在组合学习方法的基础上,提出了主动学习的方法。该方法采用基于不确定样本的选择方法,不断从大量未标注语料中挑选出最具信息的样本进行标注,对分类器无用的样本则不进行标注,并将标注后的样本重新加入到训练集中进行自主的学习。主动学习的方法不仅具有良好的PPI抽取效果,而且可以减轻人工标注的工作量。主动学习方法在5个语料上进行的实验取得了不错的效果:在除了LLL之外的4个语料上均获得了较高的AUC值(尤其是在AIMed和BioInfer这样的大语料上),表现出了较强的泛化能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号