词典和机器学习相结合的生物命名实体识别

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

生物命名实体识别(Biomedical name entity recognition，Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类，这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置，如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之地，可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物实体之间的联系，首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。
　　现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计机器学习三种方法。基于词典的方法简单实用，但是性能却限制于词典的规模与质量。基于规则的方法取决于规则的完备性和合理性，缺乏一定的适应性。基于统计机器学习的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练，生成目标模型，最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言文本时可以不做或只做较少的改动，已成为现阶段研究的主流方法。
　　为了弥补单纯基于词典的方法的缺陷，并结合统计机器学习方法的优势，本文提出了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和条件随机域(Conditional random fields，CRFs)训练获得“实体词性”(Part OfSpeech-Entity，POS-Entity)标注模型，对未知语料进行标注获得“实体词性”特征。同时根据生物命名实体的特点提取词形等特征，结合上述“实体词性”特征基于CRFs训练获得生物命名实体识别模型。为进一步提高识别性能，在“实体词性”标注阶段采取将生物实体分成不同组别，分别进行“实体词性”标注的分组策略。
　　基于JNLPBA2004语料集进行实验，实验结果表明本文提出的基于词典和机器学习相结合的方法取得了较好的结果，在“实体标记”阶段应用分组策略后综合分类率72.83％。对实验结果进行错误分析，针对典型错误进行后续处理后综合分类率达到73.39％。

著录项

作者
王琦;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机软件与理论
授予学位硕士
导师姓名黄德根;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;模式识别与装置;
关键词
生物命名; 实体识别; 分组策略; 特征选取; 实体词典; 条件随机域; 机器学习;

相似文献

中文文献
外文文献
专利

1. 基于实体词典与机器学习的基因命名实体识别 [J] . 夏光辉 ,李军莲 ,阮学平 . 医学信息学杂志 . 2015,第012期
2. CRF与词典相结合的疾病命名实体识别 [J] . 龙光宇 ,徐云 . 微型机与应用 . 2017,第021期
3. 利用机器学习对生物医药文献命名实体识别和关系抽取研究 [J] . 王熙 ,吕佳高 . 机器人技术与应用 . 2020,第002期
4. 几种基于机器学习的生物命名实体识别模型比较 [J] . 邱莎 . 电脑知识与技术：学术交流 . 2007,第003期
5. 几种基于机器学习的生物命名实体识别模型比较 [J] . 邱莎 . 电脑知识与技术 . 2007,第005期
6. 基于实体词典与机器学习的基因命名实体识别研究 [C] . 夏光辉 ,李军莲 . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2014年学术年会 . 2015
7. 基于词典与机器学习的基因命名实体识别机制研究 [A] . 夏光辉 . 2013

词典和机器学习相结合的生物命名实体识别

目录

摘要

著录项

相似文献

相关主题

期刊订阅