基于文本分类和匹配的医学概念自动编码

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

医学概念编码是给临床医疗文本中的医学相关概念分配标准医学术语对应的编码。由于编码量大以及人工编码成本高效率低等原因，实现医学概念自动编码具有重要的研究意义和应用价值，因此本文开展了基于深度学习的医学概念自动编码方法的研究。目前基于深度学习的医学概念自动编码方法主要分为以下两类：一类是基于文本分类的医学概念自动编码方法，受分类标签空间影响，这类方法对于标准术语词典所含标准医学术语个数敏感；另一类是基于文本匹配的医学概念自动编码方法，这类方法由于使用采样技术，对于标准术语词典所含标准医学术语个数不敏感。　　在临床医疗文本包含多个医学概念应用场景下，基于文本分类的自动编码方法将医学概念自动编码建模为多标签分类问题，传统方法对于标签间相关性表达能力不足。为了解决这一问题，本文提出了结合序列生成和层级词表的医学概念自动编码方法，该方法将文本分类建模为序列生成问题，并通过知识表示算法TransE引入标准术语词典中标准医学术语编码之间的层级关系。该方法在中文数据集上F1值达到0.7972。　　基于文本匹配的自动编码方法将包含医学概念的临床医疗文本与标准医学术语进行匹配，针对现有文本匹配模型训练参数多、训练难度大等问题，本文提出了一种改进的匹配模型，并与现有模型进行了实验对比。基于文本匹配的自动编码方法将包含医学概念的临床医疗文本与标准医学术语单独匹配，忽略了术语与术语之间的相互影响。针对这一问题，本文提出了基于阅读理解的医学概念自动编码方法。该方法分为召回和选择两个阶段。在召回阶段，该方法为包含医学概念的临床医疗文本采样若干标准医学术语作为候选，针对NCBI数据集设计了一种融合不同粒度编辑距离计算相似度的采样方式。在选择阶段，该方法将自动编码转化为选择题类型的机器阅读理解问题：包含医学概念的临床医疗文本为文章，候选标准医学术语为选项，使用选项交互模块和文章选项交互模块建模术语与术语之间关系，文本与术语之间关系，并利用门控机制融合二者信息。该方法在中文数据集上F1值达到0.8192，在NCBI数据集上准确率达到0.8990。

著录项

作者
黄源航;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名汤步洲;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
医学概念,自动编码,深度学习,文本分类,文本匹配;

相似文献

中文文献
外文文献
专利

1. 基于栈式降噪自动编码器的中文短文本分类 [J] . 邱爽 ,姜明洋 ,张智丰 . 内蒙古民族大学学报（自然科学版） . 2017,第005期
2. 基于改进的TFIDF和压缩自动编码器文本分类研究 [J] . 靖慧 ,杨振宇 ,于敏 . 齐鲁工业大学学报：自然科学版 . 2017,第003期
3. 基于改进的TFIDF和压缩自动编码器文本分类研究 [J] . 靖慧 ,杨振宇 ,于敏 . 山东轻工业学院学报（自然科学版） . 2017,第003期
4. 基于Adaboost框架下自动编码器提升方法的文本分类 [J] . 刘广秀 ,宋单单 . 电子世界 . 2016,第011期
5. 基于特征词匹配的政策文本分类算法研究与实现 [J] . 王丽鹏 ,张鹏云 ,和志强 . 河北省科学院学报 . 2017,第003期
6. 基于词共现概念的文本分类研究 [C] . 倪茂树 ,林鸿飞 . 第七届中文信息处理国际会议 . 2007
7. 基于自动编码器的跨领域文本分类研究 [A] . 杨帅 . 2019

基于文本分类和匹配的医学概念自动编码

目录

摘要

著录项

相似文献

相关主题

期刊订阅