首页> 中文学位 >基于文本分类和匹配的医学概念自动编码
【6h】

基于文本分类和匹配的医学概念自动编码

代理获取

目录

第1章 绪 论

1.1 课题来源

1.2 课题研究的背景与意义

1.3 国内外相关技术研究现状分析

1.4 本文主要研究内容

1.5 论文的组织与结构

第2章 医学概念自动编码相关技术概述

2.1 引言

2.2 预训练语言模型

2.3 文本分类相关技术

2.4 文本匹配相关技术

2.5 本章小结

第3章 基于文本分类的自动编码方法

3.1 引言

3.2 层级词表知识表示方法

3.3 结合序列生成和层级词表的自动编码方法

3.4 实验结果与分析

3.5 本章小结

第4章 基于文本匹配的自动编码方法

4.1 引言

4.2 采样技术

4.3 基于阅读理解的自动编码方法

4.4 实验结果与分析

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其他成果

声明

致谢

展开▼

摘要

医学概念编码是给临床医疗文本中的医学相关概念分配标准医学术语对应的编码。由于编码量大以及人工编码成本高效率低等原因,实现医学概念自动编码具有重要的研究意义和应用价值,因此本文开展了基于深度学习的医学概念自动编码方法的研究。目前基于深度学习的医学概念自动编码方法主要分为以下两类:一类是基于文本分类的医学概念自动编码方法,受分类标签空间影响,这类方法对于标准术语词典所含标准医学术语个数敏感;另一类是基于文本匹配的医学概念自动编码方法,这类方法由于使用采样技术,对于标准术语词典所含标准医学术语个数不敏感。  在临床医疗文本包含多个医学概念应用场景下,基于文本分类的自动编码方法将医学概念自动编码建模为多标签分类问题,传统方法对于标签间相关性表达能力不足。为了解决这一问题,本文提出了结合序列生成和层级词表的医学概念自动编码方法,该方法将文本分类建模为序列生成问题,并通过知识表示算法TransE引入标准术语词典中标准医学术语编码之间的层级关系。该方法在中文数据集上F1值达到0.7972。  基于文本匹配的自动编码方法将包含医学概念的临床医疗文本与标准医学术语进行匹配,针对现有文本匹配模型训练参数多、训练难度大等问题,本文提出了一种改进的匹配模型,并与现有模型进行了实验对比。基于文本匹配的自动编码方法将包含医学概念的临床医疗文本与标准医学术语单独匹配,忽略了术语与术语之间的相互影响。针对这一问题,本文提出了基于阅读理解的医学概念自动编码方法。该方法分为召回和选择两个阶段。在召回阶段,该方法为包含医学概念的临床医疗文本采样若干标准医学术语作为候选,针对NCBI数据集设计了一种融合不同粒度编辑距离计算相似度的采样方式。在选择阶段,该方法将自动编码转化为选择题类型的机器阅读理解问题:包含医学概念的临床医疗文本为文章,候选标准医学术语为选项,使用选项交互模块和文章选项交互模块建模术语与术语之间关系,文本与术语之间关系,并利用门控机制融合二者信息。该方法在中文数据集上F1值达到0.8192,在NCBI数据集上准确率达到0.8990。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号