首页> 中文学位 >词典和机器学习相结合的生物命名实体识别
【6h】

词典和机器学习相结合的生物命名实体识别

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1研究背景及意义

1.2生物命名实体识别研究的特点及难点

1.3研究现状

1.4本文的工作

2相关统计模型

2.1条件随机域(CRFs)模型

2.1.1无向图结构

2.1.2势函数表示

2.1.3参数估计

2.1.4概率计算

2.2改进的条件随机域模型(Mecab)

2.2.1 词图信息

2.2.2改进的CRFs

2.2.3特征选取

3基于条件随机域(CRFs)的生物命名实体识别

3.1生物命名实体的类型与标注方法

3.1.1生物命名实体的定义

3.1.2生物命名实体的类型

3.1.3生物命名实体的标注方法

3.2基于CRFs的生物命名实体识别特征选取

3.3基于CRFs的生物命名实体识别模型构建

4基于词典和机器学习相结合的生物命名实体识别

4.1系统流程

4.2 词典的构建

4.2.1 普通词典

4.2.2实体词典

4.3分组策略

4.4后续处理

5实验结果与分析

5.1 实验语料

5.2测评参数

5.3实验设计与实验结果分析

5.3.1各特征对生物命名实体识别的影响

5.3.2基于CRFs统计机器学习方法的生物命名实体识别

5.3.3不同标记集的识别结果

5.3.4基于词典和机器学习相结合的生物命名实体识别

5.3.5后续处理对识别效果的影响

5.3.6与相关文献的实验结果的比较

5.3.7实验展望

结 论

参考文献

附录

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

生物命名实体识别(Biomedical name entity recognition,Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置,如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之地,可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物实体之间的联系,首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。
   现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计机器学习三种方法。基于词典的方法简单实用,但是性能却限制于词典的规模与质量。基于规则的方法取决于规则的完备性和合理性,缺乏一定的适应性。基于统计机器学习的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言文本时可以不做或只做较少的改动,已成为现阶段研究的主流方法。
   为了弥补单纯基于词典的方法的缺陷,并结合统计机器学习方法的优势,本文提出了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和条件随机域(Conditional random fields,CRFs)训练获得“实体词性”(Part OfSpeech-Entity,POS-Entity)标注模型,对未知语料进行标注获得“实体词性”特征。同时根据生物命名实体的特点提取词形等特征,结合上述“实体词性”特征基于CRFs训练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性”标注阶段采取将生物实体分成不同组别,分别进行“实体词性”标注的分组策略。
   基于JNLPBA2004语料集进行实验,实验结果表明本文提出的基于词典和机器学习相结合的方法取得了较好的结果,在“实体标记”阶段应用分组策略后综合分类率72.83%。对实验结果进行错误分析,针对典型错误进行后续处理后综合分类率达到73.39%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号