首页> 中文学位 >生物医学领域的命名实体识别和标准化
【6h】

生物医学领域的命名实体识别和标准化

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 生物医学领域相关任务

1.2.2 生物医学领域相关资源

1.2.3 生物医学命名实体识别

1.2.4 基因名标准化

1.3 本文主要的研究内容

1.4 本文的组织结构

2 相关模型和算法介绍

2.1 单个分类模型

2.1.1 CRF分类模型

2.1.2 SVM分类模型

2.1.3 ME分类模型

2.2 组合分类器方法

2.3 多代理策略

2.4 Jaro-Winkler Distance算法

2.5 匈牙利算法

2.6 本章小结

3 基于组合分类器和多代理策略的两阶段生物医学命名实体识别方法

3.1 实验语料

3.2 当前存在的一些方法

3.3 识别阶段

3.3.1 标注方法

3.3.2 特征选取

3.3.3 模型构建

3.3.4 两层-叠加方法

3.4 分类阶段

3.4.1 语料存在的数据不平衡

3.4.2 单个代理的构建

3.4.3 代理之间的通信

3.5 本章小结

4 整合多种有效方法的多阶段基因标准化系统

4.1 实验语料

4.2 本文系统

4.2.1 预处理

4.2.2 词典查询

4.2.3 歧义消解

4.2.4 过滤

4.3 本章小结

5 实验结果及分析讨论

5.1 基于组合分类器和多代理策略的两阶段生物医学命名实体识别

5.1.1 命名实体识别阶段的结果

5.1.2 命名实体分类阶段的结果

5.1.3 错误传播的实验结果

5.1.4 结果比较

5.1.5 讨论和错误分析

5.2 整合多种有效方法的多阶段基因标准化系统

5.2.1 实验设置

5.2.2 实验结果比较与分析

5.2.3 错误分析

5.3 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

生物医学领域的命名实体识别和标准化是当前自然语言处理研究领域广泛关注的问题,是生物医学文本挖掘的基础步骤。只有正确地识别出生物医学命名实体并进行标准化,才能有效地完成蛋白质-蛋白质交互关系抽取、文本分类、假设发现等更加复杂的工作。本研究分为两个部分:
  ⑴针对JNLPBA2004任务,提出了基于组合分类器和多代理策略的两阶段生物医学命名实体识别方法。该方法将JNLPBA2004任务分为命名实体识别和命名实体分类两个子任务。命名实体识别子任务就是将命名实体和非命名实体区别开来,而不对命名实体进行分类。在第一阶段,针对命名实体识别子任务,使用基于不同训练方法的四个工具包(CRF++、YamCha、Maximum Entropy和Mallet)构建了六个单个分类器,然后使用两层-叠加方法将六个单个分类器的识别结果进行组合。命名实体分类子任务就是确定识别出的命名实体的类型。在第二阶段,针对实体分类子任务,使用多代理框架对已识别出的实体进行分类。实验结果表明,本文提出的方法在生物医学命名实体识别上取得了优越的性能,在JNLPBA2004的测试语料上取得了76.06%的F评测值。
  ⑵针对BioCreativeⅡ GN任务,提出了整合多种有效方法的多阶段基因标准化系统。该系统包含四个主要步骤:预处理、词典查询、歧义消解和过滤。预处理就是识别出文本中的生物医学命名实体,本文使用了前述工作中所使用的方法来进行基因名识别,该方法在BioCreativeⅡ GM测试集上取得了88.42%的F评测值;词典查询,即将经过预处理识别得到的基因与BioCreativeⅡ GN任务提供的词典进行匹配,确定该基因对应的标识符。在这一步中,精确匹配和模糊匹配方法被结合来进行基因名和EntrezGene词典的对应。在歧义消解步骤中,采用基于匈牙利算法的语义相似度计算方法;在最后的过滤步骤中,构建基于维基百科的后过滤器进行过滤。实验结果显示,整合多种有效方法的多阶段基因标准化系统在BioCreativeⅡ GN任务上获得了90.1%的F评测值,优于当前的大多数先进系统。本文所提出的生物医学命名实体识别和标准化方法具有较高的性能,也可以应用于生物医学文本挖掘的其它领域。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号