基于组合学习和主动学习的蛋白质关系抽取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

生命科学技术的不断发展，导致了生物医学领域文献的数量呈爆炸式增长。因此，研究人员迫切需要自动化工具，从海量的文献中，提取出感兴趣的信息。随着互联网的日益完善，信息抽取技术迅速发展起来，并且在生物医学领域产生了很大影响。蛋白质关系(Protein-Protein Interaction，PPI)抽取，作为信息抽取在生物医学领域的一个重要的应用，旨在从分子层面挖掘潜在的知识，以供研究者使用。围绕PPI抽取问题，本文从以下方面展开研究。
　　为解决特征挖掘不足、单个分类器决策能力有限的问题，本文提出了组合学习的方法。该方法重点探索了特征设计以及多个分类器的集成问题。在特征选择方面，从句子上下文以及多种句法结构中提取了丰富的特征，并采用信息增益的特征选择方法来筛选出最优特征，然后构建特征向量;在分类器集成方面，选择三个分类准确率较高、决策机制不同的分类器，分别为支持向量机、最大熵和朴素贝叶斯，应用Q-statistic方法验证了不同分类器之间的差异性。采用线性加权的方法，将各个分类器的决策结果集成，保证单独抽取性能表现好的分类器，在融合中能够分配到更高的权重。组合学习方法在典型的AIMed语料上获得了71％的F值和92.9％的AUC值。
　　组合学习方法，只适用在有标注语料充足的情况。然而，在实际应用中，有标注的语料数量相对稀少。因此，为了解决这个问题，本文在组合学习方法的基础上，提出了主动学习的方法。该方法采用基于不确定样本的选择方法，不断从大量未标注语料中挑选出最具信息的样本进行标注，对分类器无用的样本则不进行标注，并将标注后的样本重新加入到训练集中进行自主的学习。主动学习的方法不仅具有良好的PPI抽取效果，而且可以减轻人工标注的工作量。主动学习方法在5个语料上进行的实验取得了不错的效果:在除了LLL之外的4个语料上均获得了较高的AUC值（尤其是在AIMed和BioInfer这样的大语料上），表现出了较强的泛化能力。

著录项

作者
刘敏捷;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机系统结构
授予学位硕士
导师姓名王健;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类蛋白质;自动推理、机器学习;
关键词
蛋白质关系抽取; 特征选择; 组合学习; 主动学习; 决策机制;

相似文献

中文文献
外文文献
专利

1. 基于TSVM与主动学习融合的蛋白质交互作用关系抽取 [J] . 刘健苗 ,王浩畅 ,赵铁军 . 高技术通讯 . 2009,第005期
2. 基于标签传播和主动学习的人物社会关系抽取 [J] . 刘锦文 ,许静 ,张利萍 . 计算机工程 . 2017,第002期
3. 基于监督学习和半监督学习的蛋白质关系抽取 [J] . 王艳华 ,杨志豪 ,李彦鹏 . 江西师范大学学报（自然科学版） . 2013,第004期
4. 基于组合核的蛋白质交互关系抽取 [J] . 李丽双 ,刘洋 ,黄德根 . 中文信息学报 . 2013,第001期
5. 基于最短依存路径和集成学习的化学物蛋白质关系抽取 [J] . 程威 ,邵一帆 ,钱龙华 . 中文信息学报 . 2021,第004期
6. 基于增量学习和主动学习的垃圾邮件识别新方法 [C] . WANG You-wei ,王友卫 ,ZHU Jian-ming . 第五届全国计算机取证技术研讨会 . 2015
7. 基于半监督和主动学习的蛋白质关系抽取研究 [A] . 崔宝今 . 2008

基于组合学习和主动学习的蛋白质关系抽取

目录

摘要

著录项

相似文献

相关主题

期刊订阅