基于互联网信息的医疗知识库提取技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

医学是与人类最为息息相关的科学之一。为了提高医学诊疗的能力与水平，医学信息化成为当今热点。医学信息系统的构建，必须要有医学知识库的支撑。而知识库构建的关键，在于知识获取。医学知识一般蕴含在自然语言文本之中，这些内容人类可以方便地理解，但机器却不行。只有经过信息提取，才能将医学知识其转换为结构化数据，被机器所利用。信息提取的首要步骤在于命名实体识别，然而公开医学语料的缺乏使得这项工作困难重重。已有的工作大都依赖于少量人工标注的文本，不具备很好的推广性。本文认为，使用自动方法构建较大规模的语料是一种更合理的选择。互联网是大量数据的聚集地，存在着许多医学网站。这些网站中存储着包含医学知识的医学文本，可以当作无标注语料来使用。同时，医学网站大都维护着用于搜索的医学词汇索引，这可以作为一种词典资源使用。本文使用这些资源，对命名实体识别展开了以下研究：
　　(1)提出了一种迭代式框架来自扩展地使用互联网资源。本文考虑到自动方法能力的有限性和词典资源的非完整性，认为迭代式学习有利于提高模型的效能。在框架中，首先使用初始设置进行标注，在一轮训练后，将模型中找到的新词补充到词典当中，然后使用新词典再次标注训练，如此迭代数遍，从而提高最终模型的识别精度。
　　(2)提出了一种融合通用模型和领域词典的自动标注方法。互联网资源虽然数量众多，但缺乏标注，只有对其进行标注后才可使用。如果使用通用模型对其进行标注，由于领域不同，效果会出现很明显的下降。为此，本文在通用模型中融入了词典资源，有效提高了领域文本标注的准确性。同时，模型具有只读特性，适合在迭代框架中使用。
　　(3)进行了增量式命名实体识别模型的研究。本文考虑到互联网较大的文本规模和迭代式的框架，如果采取传统方法构建模型，那么就必须每轮重新训练，时间代价过于高昂。因此，本文使用了平均感知器这样一种在线算法来进行增量训练。在模型中，本文引入了词法特征、词缀特征、词表示特征等多种特征。本文对不同参数形式的特征进行了实验，说明了这些特征的有效性。
　　(4)开展了命名实体模型压缩的研究。本文针对模型特征数量过多的问题，提出了一种启发式的方法对模型进行压缩。本文考虑到感知器模型的特点，使用更新次数对特征进行屏蔽，从而缩减模型的规模。实验表明，本文方法可以有效减少模型大小，同时保持精度基本不变。

著录项

作者
田家源;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名杨东华;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
医疗知识库; 提取技术; 互联网信息;

相似文献

中文文献
外文文献
专利

1. 以中医药本体知识库为基础的开放存取资源的知识元数据提取与存储技术研究 [J] . 夏书剑 ,秦延斌 . 现代计算机（专业版） . 2012,第002期
2. 基于个人知识共享平台的互联网信息素质教育技术研究 [J] . 牛文迪 ,彭博 ,张欣欣 . 科技创新导报 . 2020,第015期
3. 基于个人知识共享平台的互联网信息素质教育技术研究 [J] . 牛文迪 ,彭博 ,张欣欣 . 科技创新导报 . 2020,第017期
4. 基于互联网信息检索的“天地图”数据变化发现技术研究 [J] . 王凯 . 测绘技术装备 . 2014,第004期
5. 基于影像解译专家知识库地物分类提取系统的设计与实现 [J] . 路志越 . 科技与企业 . 2015,第021期
6. 基于医疗知识库的辅助诊疗系统 [C] . Ma Yu ,马钰 ,Wang Hongzhi . 第32届中国数据库学术会议 . 2015
7. 基于语义的互联网信息分析技术研究 [A] . 张臻 . 2012

基于互联网信息的医疗知识库提取技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅