首页> 中文学位 >面向中文电子病历的词性标注技术研究
【6h】

面向中文电子病历的词性标注技术研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1课题背景及研究目的和意义

1.2国内外研究现状

1.3本文的主要研究内容

1.4本文的组织结构

第2章 任务描述及联合模型简介

2.1中文电子病历语料分析

2.2中文电子病历词性标注任务描述

2.3联合模型相关知识简介

2.4评价方法

2.5本章小结

第3章 面向中文电子病历分词和词性标注语料构建

3.1语料预处理

3.2语料标注

3.3实验与分析

3.4本章小结

第4章 基于有监督方法的中文电子病历词性标注模型

4.1多模型混合的分词和词性标注联合模型

4.2中文电子病历词性标注管道模型

4.3实验结果

4.4本章小结

第5章 面向中文电子病历的分词和词性标注联合模型

5.1结合规则的分词和词性标注联合模型

5.2调节特征权重

5.3实验结果及分析

5.4本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其他研究成果

致谢

声明

展开▼

摘要

随着大数据时代的到来,“智慧医疗”已经成为全球医疗服务产业的发展趋势。作为医疗信息化的载体,电子病历蕴含大量的医疗健康知识。电子病历中的知识可以为医疗诊断、用户健康管理及医疗协调等领域提供服务。挖掘电子病历中的知识离不开自然语言处理及信息抽取技术。词性标注是自然处理技术的基础,对其进行研究有助于后续句法分析及信息抽取任务的展开。
  由于标注语料的匮乏,目前面向中文电子病历的分词和词性标注研究还处于空白阶段。与开放领域语料不同,中文电子病历含有大量的专业术语、缩略词和模式。因此,开放领域的词性标注模型并不能直接用于中文电子病历的标注。
  为了更好地进行词性标注模型的研究,本文首先构建了中文电子病历分词和词性标注语料。本文提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料的词法统计差异,系统地分析了通用标注模型在电子病历中的错误分布。为进行适用于中文电子病历分析的自然语言处理技术研究奠定了基础。
  基于对中文电子病历标注语料的分析,本文首次提出适合中文电子病历的词性标注模型。首先对电子病历进行初步标注,选择使用基于字的分词和词性标注联合模型,以达到避免错误传递及使用词性标注信息提高分词精度的目的;然后,利用中文电子病历含有一些常用语言模式的特点,通过使用基于转移的错误驱动方法学习到的规则,对初步标注结果进行修正,从而提高标注精度。针对跨领域标注问题,本文通过调整基于字模型里中文电子病历独有特征的权重有效地提高了标注效果。实验结果表明:本文中构建的模型,在人工标注的测试语料上,分词和词性标注F1值分别达到94.75%及93.82%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号