面向中文电子病历的词性标注技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据时代的到来，“智慧医疗”已经成为全球医疗服务产业的发展趋势。作为医疗信息化的载体，电子病历蕴含大量的医疗健康知识。电子病历中的知识可以为医疗诊断、用户健康管理及医疗协调等领域提供服务。挖掘电子病历中的知识离不开自然语言处理及信息抽取技术。词性标注是自然处理技术的基础，对其进行研究有助于后续句法分析及信息抽取任务的展开。
　　由于标注语料的匮乏，目前面向中文电子病历的分词和词性标注研究还处于空白阶段。与开放领域语料不同，中文电子病历含有大量的专业术语、缩略词和模式。因此，开放领域的词性标注模型并不能直接用于中文电子病历的标注。
　　为了更好地进行词性标注模型的研究，本文首先构建了中文电子病历分词和词性标注语料。本文提出了从数据预处理到语料标注的整体方案，获得了较高的标注一致性，为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料的词法统计差异，系统地分析了通用标注模型在电子病历中的错误分布。为进行适用于中文电子病历分析的自然语言处理技术研究奠定了基础。
　　基于对中文电子病历标注语料的分析，本文首次提出适合中文电子病历的词性标注模型。首先对电子病历进行初步标注，选择使用基于字的分词和词性标注联合模型，以达到避免错误传递及使用词性标注信息提高分词精度的目的；然后，利用中文电子病历含有一些常用语言模式的特点，通过使用基于转移的错误驱动方法学习到的规则，对初步标注结果进行修正，从而提高标注精度。针对跨领域标注问题，本文通过调整基于字模型里中文电子病历独有特征的权重有效地提高了标注效果。实验结果表明：本文中构建的模型，在人工标注的测试语料上，分词和词性标注F1值分别达到94.75％及93.82%。

著录项

作者
赵芳芳;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名关毅;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;医院自动化管理;
关键词
中文电子病历; 语料构建; 词性标注; 联合模型;
入库时间 2022-08-17 10:36:59

相似文献

中文文献
外文文献
专利

1. 面向中文电子病历的多粒度医疗实体识别 [J] . 周晓进 ,徐陈铭 ,阮彤 . 计算机科学 . 2021,第004期
2. 面向中文电子病历的句法分析融合模型 [J] . 蒋志鹏 ,关毅 . 自动化学报 . 2019,第002期
3. 面向电子病历中文医学信息的可视组织方法 [J] . 徐天明 ,樊银亭 ,马翠霞 . 计算机系统应用 . 2015,第011期
4. 面向中文电子病历的词法语料标注研究 [J] . 蒋志鹏 ,赵芳芳 ,关毅 . 高技术通讯 . 2014,第006期
5. 远距离词性标注在电子病历上的研究 [J] . 徐万民 ,李燕辉 . 无线互联科技 . 2017,第005期
6. 精细化的中文词性标注评测集的研制 [C] . TANG Qiantong ,唐乾桐 ,CHANG Baobao . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 面向中文电子病历的医疗实体及关系识别技术研究 [A] . 周侗 . 2020

面向中文电子病历的词性标注技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅