面向医学领域的语料库构建及实体关系抽取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

医疗服务信息化的高速发展产生了海量规模的医疗文本，从文本中抽取结构化知识是生物医学信息挖掘的重要内容，也是实现医疗智慧化的重要一步。神经网络技术的日趋成熟，使得以命名实体识别和关系抽取为代表的信息抽取技术在文本结构化中取得较好的表现。然而，这些方法大部分属于有监督学习，其性能表现依赖于大规模的有标签语料库。　　针对实体语料库构建需要花费大量人力、物力的难点，特别是垂直领域下具有专业背景知识的标注人员稀缺问题。本文设计开发了一种基于神经网络的多角色命名实体预标注系统，其将基于神经网络的命名实体模型嵌入至标注系统中，为标注者提供预标注实体，能够在降低标注时间和漏标率的同时提高标注的准确性。此外，多角色协同标注较大程度地提高了专业人员的使用效率。实验表明该标注系统能够大幅度缩短标注时间，并且在标注质量上提升了12.7%。　　基于上述标注系统，提出了一套中文医学命名实体语料库构建流程，包含了标注体系建立、标注规范的制定与完善、多轮标注者不一致性标注培训等。为验证所提流程的有效性，以两个在线中文医学百科网站为数据来源，构建了拥有七个实体类别共计1.5万个实体的医学语料库。　　除命名实体识别外，针对医学文本中关系分布密度大、多对关系共享头实体的特点，本文提出一种基于两阶段识别的实体关系联合抽取模型TSR，采用参数共享以及联合解码机制，分阶段抽取头实体和关系-尾实体，并使用联合Loss同时优化两阶段子模型。实验证明该模型在电子病历公开评测集I2B2上，联合抽取效果取得当前最优表现。　　本文的研究覆盖医学领域信息抽取的全过程，从语料库构建到实体关系自动联合抽取，这将产生三个方面的积极影响。首先，开源的医学实体语料库可被当作金标准，有助于后续实体识别算法的研究；其次，提供一个构建医学领域语料库的范式，特别是标注规范，有助于更多医学领域以及其他垂直领域的语料库建立；最后，该研究有助于其他人工智能技术在医学领域的落地应用。

著录项

作者
马敏博;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机技术
授予学位硕士
导师姓名滕飞;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
医学语料库,文本挖掘,实体关系,信息抽取,监督学习;
入库时间 2022-08-17 11:23:30

相似文献

中文文献
外文文献
专利

1. 面向企业知识图谱构建的中文实体关系抽取 [J] . 孙晨 ,付英男 ,程文亮 . 华东师范大学学报（自然科学版） . 2018,第003期
2. 文献信息视阈下面向外贸的英语语料库构建研究 [J] . 王梅笑 . 内蒙古煤炭经济 . 2021,第013期
3. 面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究 [J] . 才让加 . 中文信息学报 . 2011,第006期
4. 面向多领域资源的汉英双语语料库构建的研究 [J] . 李晓光 ,王鹏 ,张威 . 计算机应用 . 2008,第001期
5. 面向事件的多语平行语料库构建研究 [J] . 张姝 ,赵铁军 ,杨沐昀 . 计算机应用研究 . 2005,第011期
6. 基于DOI构建面向医学领域科技评价的文献数据集的方法研究 [C] . 单连慧 ,李勇 ,安新颖 . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2011年学术年会 . 2012
7. 面向生物医学领域的实体关系抽取研究 [A] . 顾静航 . 2017

面向医学领域的语料库构建及实体关系抽取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅