基于判别式模型的蛋白质互作用文本挖掘技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

蛋白质互作用描述了蛋白质间的相互作用关系，对于生物医学具有重要的理论和应用价值。随着生物医学的发展，人工从文献中获取蛋白质互作用信息已不能适应生物文献数量迅速增长的需要。文本挖掘技术能自动地从文本中发现知识，因而在蛋白质互作用信息提取任务中得到了广泛的应用。传统的方法在蛋白质命名实体识别和互作用抽取性能上难以满足实际需要，此外对标注语料的依赖制约了算法的性能。为了解决这些问题，以机器学习中的判别式模型为理论基础，论文研究工作包括蛋白质命名实体识别和蛋白质互作用信息抽取两个任务。
　　本文主要原创性工作包括以下四个方面：
　　1.提出了一种基于条件随机域模型，并结合特征选择和后处理的蛋白质命名实体识别方法。该方法在提取蛋白质命名实体特征的基础上，对传统的词特征方法进行扩展。增加的模块包括：基于信息增益的特征选择，及后处理阶段采用的基于词性分析的边界规则和单词过滤方法。实验表明，与传统方法相比，该方法能够更好地适应于具有复杂定义模式的命名实体识别任务。
　　2.提出了一种基于模型融合的蛋白质互作用信息抽取模型。基于级连法的思想，将模式匹配的结果作为特征融合到词特征方法中，使得模型兼具模式学习和词特征方法的优点。在模式学习中，对单模式评价的方法进行改进，并提出基于性能增益的模式评价的方法，能够有效地去除性能低下的模式和冗余模式。实验表明，与单个方法相比，该方法能够显著提高分类性能，且具有更为均衡的准确率和召回率。
　　3.提出了一种融合浅层句法分析的蛋白质互作用信息抽取方法。生物文本中复杂的语法结构导致信息抽取性能低下。本方法在信息抽取前，对输入句子集合进行语块划分、同位语分析、并列结构分析、从句分析的处理，从而将待分类的蛋白质对的实例划分到不同的语法单位中。语法单位的划分能够限定蛋白质对的搜索范围，提高分类的准确性。实验表明，与传统基于机器学习的方法相比，该方法能显著提升F1值10％以上。
　　4.将基于词特征的方法和自动模式学习方法进行联合训练，并提出一种基于k-最近邻算法(kNN)的实例自动标注方法。在已标注样本缺乏情况下，应用联合训练框架，词特征方法和模式学习方法能够互相学习，互为补充。基于 kNN，通过将不同样本中的蛋白质对文本的序列比对分值定义为距离值，使未标注样本得以自动标注。实验表明，在初始标注样本数较少的情况下，上述两种方法均能有效利用未标注样本，显著提高信息抽取性能。

著录项

作者
钱伟中;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位博士
导师姓名秦志光;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类蛋白质代谢;
关键词
判别式模型; 蛋白质互作用; 信息抽取; 机器学习; 文本挖掘;

相似文献

中文文献
外文文献
专利

1. 蛋白质相互作用的文本挖掘研究进展 [J] . 张智 ,张正国 . 中国生物医学工程学报 . 2008,第005期
2. 利用噬菌体展示技术研究功能基因组和蛋白质-蛋白质相互作用——与酵母双杂交方法比较 [J] . 张佳娣 ,石屹峰 . 中国医药生物技术 . 2010,第003期
3. 基于半监督学习的蛋白质相互作用预测模型 [J] . 安计勇 ,闫子骥 . 计算机技术与发展 . 2021,第007期
4. 基于结构域的芥子油苷合成相关蛋白质相互作用模型构建和预测1） [J] . 孙晓芳 ,刘亚秋 ,初砚硕 . 东北林业大学学报 . 2015,第009期
5. 基于宽进严出策略的可靠蛋白质互作预测框架模型 [J] . 杨雷 ,唐降龙 . 智能计算机与应用 . 2014,第004期
6. 基于蛋白质固定相单层均质可控制备方法的蛋白质-药物相互作用快速分析模型的建立 [C] . 李倩 ,赵新锋 ,边六交 . 第21届全国色谱学术报告会 . -1
7. 基于判别式模型的生物医学文本挖掘相关问题研究 [A] . 孙承杰 . 2008

基于判别式模型的蛋白质互作用文本挖掘技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅