首页> 中文学位 >基于判别式模型的蛋白质互作用文本挖掘技术研究
【6h】

基于判别式模型的蛋白质互作用文本挖掘技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究的动机和意义

1.2 国内外研究现状

1.3 论文的主要工作

1.4 论文的章节安排

第二章 机器学习理论与挖掘模型

2.1 引言

2.2 机器学习模型

2.3 机器学习方法

2.4 评测指标

2.5 蛋白质互作用文本挖掘的通用模型

2.6 小结

第三章 基于条件随机域的蛋白质命名实体识别

3.1 引言

3.2 问题定义

3.3 蛋白质命名实体特点

3.4 蛋白质命名实体识别模型

3.5 特征选择

3.6 后期处理

3.7 实验

3.8 小结

第四章 基于模型融合的蛋白质互作用信息抽取研究

4.1 引言

4.2 相关工作

4.3 问题定义

4.4 分类模型融合的方法

4.5 序列比对算法

4.6 基于融合模型的蛋白质互作用信息抽取

4.7 实验

4.8 小结

第五章 浅层句法分析在蛋白质互作用信息抽取中的应用

5.1 引言

5.2 浅层句法分析的概念

5.3 相关工作

5.4 融合浅层句法分析的信息抽取模型

5.5 生物文本浅层句法分析

5.6 机器学习

5.7 实验

5.8 小结

第六章 基于半监督学习的蛋白质互作用信息抽取

6.1 引言

6.2 半监督学习

6.3 融合词特征和模式学习的联合训练

6.4 基于k-最近邻的实例自动标注

6.5 小结

第七章 全文总结和未来工作展望

7.1 全文总结

7.2 未来工作

致谢

参考文献

攻博期间取得的研究成果

展开▼

摘要

蛋白质互作用描述了蛋白质间的相互作用关系,对于生物医学具有重要的理论和应用价值。随着生物医学的发展,人工从文献中获取蛋白质互作用信息已不能适应生物文献数量迅速增长的需要。文本挖掘技术能自动地从文本中发现知识,因而在蛋白质互作用信息提取任务中得到了广泛的应用。传统的方法在蛋白质命名实体识别和互作用抽取性能上难以满足实际需要,此外对标注语料的依赖制约了算法的性能。为了解决这些问题,以机器学习中的判别式模型为理论基础,论文研究工作包括蛋白质命名实体识别和蛋白质互作用信息抽取两个任务。
  本文主要原创性工作包括以下四个方面:
  1.提出了一种基于条件随机域模型,并结合特征选择和后处理的蛋白质命名实体识别方法。该方法在提取蛋白质命名实体特征的基础上,对传统的词特征方法进行扩展。增加的模块包括:基于信息增益的特征选择,及后处理阶段采用的基于词性分析的边界规则和单词过滤方法。实验表明,与传统方法相比,该方法能够更好地适应于具有复杂定义模式的命名实体识别任务。
  2.提出了一种基于模型融合的蛋白质互作用信息抽取模型。基于级连法的思想,将模式匹配的结果作为特征融合到词特征方法中,使得模型兼具模式学习和词特征方法的优点。在模式学习中,对单模式评价的方法进行改进,并提出基于性能增益的模式评价的方法,能够有效地去除性能低下的模式和冗余模式。实验表明,与单个方法相比,该方法能够显著提高分类性能,且具有更为均衡的准确率和召回率。
  3.提出了一种融合浅层句法分析的蛋白质互作用信息抽取方法。生物文本中复杂的语法结构导致信息抽取性能低下。本方法在信息抽取前,对输入句子集合进行语块划分、同位语分析、并列结构分析、从句分析的处理,从而将待分类的蛋白质对的实例划分到不同的语法单位中。语法单位的划分能够限定蛋白质对的搜索范围,提高分类的准确性。实验表明,与传统基于机器学习的方法相比,该方法能显著提升F1值10%以上。
  4.将基于词特征的方法和自动模式学习方法进行联合训练,并提出一种基于k-最近邻算法(kNN)的实例自动标注方法。在已标注样本缺乏情况下,应用联合训练框架,词特征方法和模式学习方法能够互相学习,互为补充。基于 kNN,通过将不同样本中的蛋白质对文本的序列比对分值定义为距离值,使未标注样本得以自动标注。实验表明,在初始标注样本数较少的情况下,上述两种方法均能有效利用未标注样本,显著提高信息抽取性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号