生物医学领域的命名实体识别和标准化

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

生物医学领域的命名实体识别和标准化是当前自然语言处理研究领域广泛关注的问题，是生物医学文本挖掘的基础步骤。只有正确地识别出生物医学命名实体并进行标准化，才能有效地完成蛋白质-蛋白质交互关系抽取、文本分类、假设发现等更加复杂的工作。本研究分为两个部分：
　　⑴针对JNLPBA2004任务，提出了基于组合分类器和多代理策略的两阶段生物医学命名实体识别方法。该方法将JNLPBA2004任务分为命名实体识别和命名实体分类两个子任务。命名实体识别子任务就是将命名实体和非命名实体区别开来，而不对命名实体进行分类。在第一阶段，针对命名实体识别子任务，使用基于不同训练方法的四个工具包（CRF++、YamCha、Maximum Entropy和Mallet）构建了六个单个分类器，然后使用两层-叠加方法将六个单个分类器的识别结果进行组合。命名实体分类子任务就是确定识别出的命名实体的类型。在第二阶段，针对实体分类子任务，使用多代理框架对已识别出的实体进行分类。实验结果表明，本文提出的方法在生物医学命名实体识别上取得了优越的性能，在JNLPBA2004的测试语料上取得了76.06％的F评测值。
　　⑵针对BioCreativeⅡ GN任务，提出了整合多种有效方法的多阶段基因标准化系统。该系统包含四个主要步骤:预处理、词典查询、歧义消解和过滤。预处理就是识别出文本中的生物医学命名实体，本文使用了前述工作中所使用的方法来进行基因名识别，该方法在BioCreativeⅡ GM测试集上取得了88.42％的F评测值;词典查询，即将经过预处理识别得到的基因与BioCreativeⅡ GN任务提供的词典进行匹配，确定该基因对应的标识符。在这一步中，精确匹配和模糊匹配方法被结合来进行基因名和EntrezGene词典的对应。在歧义消解步骤中，采用基于匈牙利算法的语义相似度计算方法;在最后的过滤步骤中，构建基于维基百科的后过滤器进行过滤。实验结果显示，整合多种有效方法的多阶段基因标准化系统在BioCreativeⅡ GN任务上获得了90.1％的F评测值，优于当前的大多数先进系统。本文所提出的生物医学命名实体识别和标准化方法具有较高的性能，也可以应用于生物医学文本挖掘的其它领域。

著录项

作者
范文婷;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名李丽双;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
生物医学; 基因识别; 数据挖掘; 程序语言;

相似文献

中文文献
外文文献
专利

1. 生物医学命名实体识别研究现状及中文生物医学命名实体识别难点与意义综述 [J] . 潘璀然 ,施维 ,薛均 . 医学信息学杂志 . 2018,第003期
2. 牙科医学领域的国际/欧洲标准化 [J] . 国华 . 标准科学 . 2008,第003期
3. 牙科医学领域的国际标准化 [J] . 燕秋 . 标准科学 . 2001,第003期
4. 生物活性玻璃/壳聚糖复合材料在生物医学领域的应用 [J] . 邹俊东 ,刘定坤 ,杨楠 . 国际口腔医学杂志 . 2020,第001期
5. 量子生物学在生物医学领域的研究与应用 [J] . 武明花 ,刘珈 ,陈攀 . 生命科学仪器 . 2020,第001期
6. 生物可降解纤维及其在生物医学领域中的应用 [C] . 夏磊 . 第7届功能性纺织品及纳米技术研讨会 . 2007
7. 面向生物医学领域的命名实体识别技术研究 [A] . 陈鹏 . 2020

生物医学领域的命名实体识别和标准化

目录

摘要

著录项

相似文献

相关主题

期刊订阅