首页> 中文学位 >基于半监督方法的生物医学事件抽取的研究
【6h】

基于半监督方法的生物医学事件抽取的研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究现状

1.3 本文的工作

1.4 本文的结构

2 生物医学事件抽取相关知识

2.1 信息抽取与机器学习

2.1.1 信息抽取

2.1.2 机器学习

2.2 生物医学事件抽取

2.3 支持向量机

2.3.1 线性可分支持向量机

2.3.2 线性支持向量机

2.3.3 核技巧

2.4 句法分析

2.5 评测方法和实验语料

2.5.1 评测指标

2.5.2 语料

3 生物医学事件触发词识别

3.1 语料预处理

3.2 提取上下文特征

3.3 提取语义特征

3.4 提取未标注语料特征

3.5 实验及结果分析

4 生物医学事件元素检测

4.1 标注数据与未标注数据的结合

4.2 半监督方法在事件元素检测中的应用

4.2.1 特征设计

4.2.2 强类别区分度特征的选择

4.2.3 未标注语料中信息的获取

4.2.4 稀疏特征权值的融合

4.2.5 标注语料中特征的提取

4.2.6 特征集合

4.3 蛋白质元素检测和嵌套元素检测

4.4 事件后处理

4.5 生物医学事件抽取实验结果及分析

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

在生物医学文献与日俱增的今天,自动地抽取文本信息成为医学专家的迫切需要。面对海量的无结构化信息,如何能变成便于组织管理的有结构化的信息成了人们研究的热点。信息抽取技术在这些年有了很大的发展和提高,从最初的命名实体识别一直到关系抽取,最后到更高层次的事件抽取。生物医学的事件指的是发生于分子层面的,蛋白质之间所发生的变化及关系,从事件中可以找出这种变化或关系的类型和主体。
  本文旨在针对生物医学文献的事件抽取进行研究,在前人研究的基础上进行深入探索。在对事件的处理上,采用了较经典的处理流程:预处理,触发词识别,事件元素检测,后处理。其中本文把研究的重点放在了触发词识别和事件元素检测上。在触发词的识别上,本文借鉴了命名实体识别的方法,先建立了一个候选词词典,通过从训练集和未标注数据中得到的各种有效特征,建立一个分类模型,来判断一个候选词是否为触发词。在事件元素的识别上,本文对事件的简单元素与事件的嵌套元素分别进行处理。事件的简单元素从蛋白质-触发词对中检测;事件的嵌套元素从触发词-触发词对中检测。在分类模型的建立上,由于标注语料大小有限,监督模型数据稀疏问题严重,本文采用了半监督学习的方法进行生物医学事件元素检测模型的建立。这种半监督方法是将一些在标注语料中稀疏,且具有较强分类能力的特征进行处理。利用与一些特殊特征在未标注语料中的共现信息,根据一定的算法计算并融合出新特征。
  本文在BioNLP2011语料集上,利用训练集与PubMed中未标注数据,抽取有效特征,建立事件抽取模型。对所构建模型进行验证,这种半监督方法取得了不错的抽取效果,尤其在简单事件的抽取上效果显著。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号