首页> 中文期刊> 《北京生物医学工程》 >基于多特征融合的中文电子病历命名实体识别

基于多特征融合的中文电子病历命名实体识别

         

摘要

Objective For the unstructured components ( medical diagnosis and patients' condition) of a tertiary hospital electronic medical records,we establish the conditional random field model with multi-feature integration,automatically identify diseases and symptoms in electronic medical record( EMR) which is described by natural language,in order to realize the structured storage of EMR,and it is beneficial for EMR information mining and statistical analysis. Methods The manually labeled corpus was divided into training set and testing set,we used NLPIR to segment the text and chose CRF++ tool for experiments. According to the data characteristics of Chinese EMR,we selected basic features and templates,determined the size of context window by contrast experiments. Then we added guide word pattern and word formation pattern,compared the effects of two advanced features on experimental result. Results When we only chose basic features, the context window was 7, the recognition performance was better;then we added advanced features, the F-measures in disease entities reached 92. 80%, the F-measures in symptom entities reached 94. 17% . Conclusions Conditional random field model with multi-feature integration can achieve high recognition performance for disease entities and symptom entities in EMR. The study is of great significance to the named entity recognition in EMR.%目的 针对某三级甲等医院电子病历中的非结构化部分(诊断和病情),建立多特征融合的条件随机场模型,自动化识别用自然语言描述的电子病历(electronic medical records,EMR)中的疾病和症状,从而实现电子病历信息的结构化存储,以利于电子病历的信息挖掘和统计分析.方法 将手动标注的语料库分为训练集和测试集,借助NLPIR工具分割文本,选择CRF++工具进行实验.针对中文电子病历的数据特点,先选取基本特征和相应的特征模板,通过不同上下文窗口的对比实验确定其大小;再分别添加引导词特征和构词结构特征,对比两种高级特征对实验结果的影响.结果 仅选取基本特征,上下文窗口为7时,识别效果最好;添加高级特征后,最终疾病实体F值为92.80%,症状实体F值为94.17%.结论 条件随机场模型融合多种有效的特征,可以很好地识别出电子病历中的疾病和症状实体.本研究对电子病历的命名实体识别有重要的意义.

著录项

  • 来源
    《北京生物医学工程》 |2018年第3期|279-284324|共7页
  • 作者

    于楠; 王普; 翁壮; 方丽英;

  • 作者单位

    北京工业大学信息学部 北京 100124;

    城市轨道交通北京实验室 北京 100124;

    数字社区教育部工程研究中心 北京 100124;

    计算智能与智能系统北京市重点实验室 北京100124;

    北京工业大学信息学部 北京 100124;

    城市轨道交通北京实验室 北京 100124;

    数字社区教育部工程研究中心 北京 100124;

    计算智能与智能系统北京市重点实验室 北京100124;

    北京工业大学信息学部 北京 100124;

    城市轨道交通北京实验室 北京 100124;

    数字社区教育部工程研究中心 北京 100124;

    计算智能与智能系统北京市重点实验室 北京100124;

    北京工业大学信息学部 北京 100124;

    城市轨道交通北京实验室 北京 100124;

    数字社区教育部工程研究中心 北京 100124;

    计算智能与智能系统北京市重点实验室 北京100124;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 生物信息、生物控制;
  • 关键词

    电子病历; 多特征融合; 条件随机场模型; 命名实体识别;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号