首页> 中文学位 >基于互联网信息的医疗知识库提取技术研究
【6h】

基于互联网信息的医疗知识库提取技术研究

代理获取

目录

第1章 绪 论

1.1 课题背景及研究的目的和意义

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本文的组织结构

第2章 基于互联网信息的命名实体识别框架

2.1 引言

2.2 互联网资源的获取

2.3 迭代式命名实体识别框架

2.4 本章小结

第3章 基于融合模型的医学文本自动标注方法

3.1 引言

3.2 条件随机场模型

3.3 词典资源特征化设计

3.4 本章小结

第4章 命名实体识别增量学习模型

4.1 引言

4.2 平均感知器模型

4.3 模型特征选择

4.4 实验结果与分析

4.5 本章小结

第5章 命名实体识别模型压缩

5.1 引言

5.2 模型压缩策略

5.3 实验结果与分析

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

医学是与人类最为息息相关的科学之一。为了提高医学诊疗的能力与水平,医学信息化成为当今热点。医学信息系统的构建,必须要有医学知识库的支撑。而知识库构建的关键,在于知识获取。医学知识一般蕴含在自然语言文本之中,这些内容人类可以方便地理解,但机器却不行。只有经过信息提取,才能将医学知识其转换为结构化数据,被机器所利用。信息提取的首要步骤在于命名实体识别,然而公开医学语料的缺乏使得这项工作困难重重。已有的工作大都依赖于少量人工标注的文本,不具备很好的推广性。本文认为,使用自动方法构建较大规模的语料是一种更合理的选择。互联网是大量数据的聚集地,存在着许多医学网站。这些网站中存储着包含医学知识的医学文本,可以当作无标注语料来使用。同时,医学网站大都维护着用于搜索的医学词汇索引,这可以作为一种词典资源使用。本文使用这些资源,对命名实体识别展开了以下研究:
  (1)提出了一种迭代式框架来自扩展地使用互联网资源。本文考虑到自动方法能力的有限性和词典资源的非完整性,认为迭代式学习有利于提高模型的效能。在框架中,首先使用初始设置进行标注,在一轮训练后,将模型中找到的新词补充到词典当中,然后使用新词典再次标注训练,如此迭代数遍,从而提高最终模型的识别精度。
  (2)提出了一种融合通用模型和领域词典的自动标注方法。互联网资源虽然数量众多,但缺乏标注,只有对其进行标注后才可使用。如果使用通用模型对其进行标注,由于领域不同,效果会出现很明显的下降。为此,本文在通用模型中融入了词典资源,有效提高了领域文本标注的准确性。同时,模型具有只读特性,适合在迭代框架中使用。
  (3)进行了增量式命名实体识别模型的研究。本文考虑到互联网较大的文本规模和迭代式的框架,如果采取传统方法构建模型,那么就必须每轮重新训练,时间代价过于高昂。因此,本文使用了平均感知器这样一种在线算法来进行增量训练。在模型中,本文引入了词法特征、词缀特征、词表示特征等多种特征。本文对不同参数形式的特征进行了实验,说明了这些特征的有效性。
  (4)开展了命名实体模型压缩的研究。本文针对模型特征数量过多的问题,提出了一种启发式的方法对模型进行压缩。本文考虑到感知器模型的特点,使用更新次数对特征进行屏蔽,从而缩减模型的规模。实验表明,本文方法可以有效减少模型大小,同时保持精度基本不变。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号