首页> 中文学位 >生物医学文本中细菌命名实体识别算法研究
【6h】

生物医学文本中细菌命名实体识别算法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题研究背景

1.2 课题研究意义

1.3 论文的组织结构

第二章 细菌命名实体识别研究现状

2.1 相关概念及研究范围

2.2 命名实体识别的研究方法

2.2.1 基于词典的命名实体识别方法

2.2.2 基于规则的命名实体识别方法

2.2.3 基于机器学习的命名实体识别方法

2.2.4 基于集成方法的命名实体识别方法

2.2.5 基于深度学习的命名实体识别方法

2.3 细菌命名实体识别面临的挑战

2.4 本章小结

第三章 基于条件随机场和词典的细菌命名实体识别

3.1 实验数据集构建

3.1.1 数据来源

3.1.2 数据预处理

3.1.3 数据标注方式

3.2 基于条件随机场和词典的细菌命名实体识别模型

3.2.1 构建词典

3.2.2 特征提取

3.2.3 特征模板

3.2.4 特征选择

3.3 基于支持向量机的细菌命名实体识别模型

3.3.1 特征提取

3.3.2 模型训练

3.4 基于条件随机场的细菌命名实体识别Spark计算平台

3.4.1 实验环境

3.4.2 Spark计算框架

3.4.3 系统设计与开发

3.5 实验结果与对比分析

3.5.1 评价指标

3.5.2 基于CRF和基于SVM的细菌命名实体识别系统结果对比

3.5.3 Spark版和单机版结果对比

3.6 本章小结

第四章 基于条件随机场和双向长短期记忆网络结合的细菌命名实体识别

4.1 实验数据

4.2.1 循环神经网络

4.2.2 卷积神经网络

4.3 模型训练与优化相关工作

4.3.1 词向量

4.3.2 Early Stopping技术

4.3.3 Dropout技术

4.4 实验结果与对比分析

4.4.1 参数选择对比实验

4.4.2 网络模型对比实验

4.5 本章小结

第五章 总结与展望

5.2 下一步研究工作

参考文献

附录

攻读硕士期间发表的论文和参加的科研项目

致谢

展开▼

摘要

微生物尤其是细菌之间的相互作用决定了微生态群落组织和功能,从而影响了人类的健康和环境生态系统的功能。通过实验方法获得细菌相互作用代价较高,随着高通量测序数据的日益积累,通过计算推断的方法获得细菌交互成为研究的热点,但缺乏标准的交互数据集使得计算方法的评估和验证成为问题。另一方面,生物医学文献中隐含着大量的经过实验验证细菌相互作用,但是如何从这些海量文献中快速准确地挖掘出这些潜在的相互作用关系是一个新的问题。细菌命名实体与以往生物医学实体相比具有自身的独特属性,如种类繁杂、新实体不断出现、一词多义、大量实体嵌套现象等,这些性质导致了细菌命名实体识别任务的复杂性。本文研究了基于条件随机场(CRF)和细菌词典的细菌命名实体识别方法及基于深度学习的的细菌命名实体识别方法,取得了较好的识别效果,主要研究工作和贡献如下:
  (1)基于条件随机场和细菌词典的细菌命名实体识别方法。本文参考经典的Genia Corpus V3.02语料,标注了一千余篇可用于细菌命名实体识别的语料库,通过UMLS构建细菌词典,根据细菌命名特有方式,人工设计了42种特征,并使用CRF算法学习模型,结合单独最优组合法挑选出最优特征集,和其他领域基于CRF的命名实体识别任务达到的性能作比较,并用生物领域常用分类算法SVM训练模型进行对比。还针对其在处理大规模数据的低效性,在速度改进上提出了基于Spark分布式平台的细菌命名实体识别系统。
  (2)基于深度学习的细菌命名实体识别方法。有监督机器学习方法中使用的特征需人工选取并进行特征选择,需要领域先验知识,与所解决的问题紧密相关,普适性不强,且模型的性能很大程度上依赖于数据的表示,需要耗费大量的时间精力不断地设计更好的特征。针对上述问题,本文提出一种基于条件随机场和双向长短期记忆网络(BI-LSTM-CRF)的细菌命名实体识别系统,经训练、验证和评估,F1值达到了86.718%。实验结果表明,基于BI-LSTM-CRF的细菌命名实体识别系统不仅无需人工抽取特征,编程工作量少,且预测效果优于笔者先前的工作中的基于CRF和词典的细菌命名实体识别。
  本文提出的细菌命名实体识别系统,具有较好的速度和性能,可以快速有效地从大型生物医学文献中自动识别出细菌命名实体。本文的工作为从医学文献提取细菌交互关系奠定了可行的基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号