首页> 中文学位 >基于关键词自动提取的口述病历识别系统设计与实现
【6h】

基于关键词自动提取的口述病历识别系统设计与实现

代理获取

目录

声明

第1章 绪 论

1.1 课题研究的目的及意义

1.2 国内外研究现状

1.3 相关理论技术基础

1.4 本文主要研究内容及组织结构

第2章 医学环境下自然口语语音识别系统建模

2.1 基于GMM-MLP的FP检测模型建模

2.2 基于GMM-MLP的FP检测模型实验及结果分析

2.3 医学环境下自然口语语音识别系统建模与实现

2.4 本章小结

第3章 基于病历文本的关键词提取改进算法

3.1 病历文本分词

3.2 基于病历文本的TF-IDF关键词提取改进算法

3.3 本章小结

第4章 口述病历识别EMR系统设计与实现

4.1 口述病历识别EMR系统功能需求分析

4.2 口述病历识别EMR系统总体设计

4.3 口述病历识别EMR系统主要功能模块设计与实现

4.4 系统性能检测与分析

4.5 本章小结

第5章 总结与展望

5.1 论文工作总结

5.2 未来工作展望

致谢

参考文献

攻读学位期间参加的科研项目

展开▼

摘要

语音识别技术在医疗信息化行业中的应用日益凸显。在电子病历EMR系统中,语音识别技术的应用可以有效提高病历文本的输入速度,省去医生手动输入病历的繁琐过程。目前,基于语音识别的EMR系统主要存在两大问题:一是自然口语中的犹豫停顿FP、重复、修改等不流利现象给识别带来了困难;二是识别出的病历文本缺少必要的文本格式,致使其可读性、易读性不高。
  为此,本文设计实现了医学环境下的自然口语语音识别系统;分析了病历文本的结构内容和关键词词性分布,在此基础上改进了词频-反向文档频率TF-IDF关键词提取算法,提高了识别结果的可读性、易读性;设计实现了基于自然口语语音识别和关键词自动提取的EMR系统。本文的创新之处在于,通过建立FP检测模型和面向医学的语音识别系统,提高了医学环境下的自然口语语音识别效果;完成了对TF-IDF关键词提取算法的改进,从病历文本关键词词位置、关键词词性分布、病历文本分类入手,对关键词提取中特征项权重进行修正,使提取的关键词能更好地反映病历文本主题和关键内容。
  本文的主要研究工作包括:
  (1)完成了基于高斯混合模型-多层感知器GMM-MLP的FP检测模型建模及训练,实现了自然口语语音中FP检测功能,模型查全率Recall达到60%,查准率Precision达到65%以上。
  (2)构建了医学环境下的语音语料库。实现了基于FP检测和高斯混合隐马尔科夫HMM-GMM模型的自然口语语音识别系统。对于不同测试集A和B,FP检测模型的引入使得词错误率CER%平均下降1.94和2.37。
  (3)研究了基于TF-IDF的关键词提取算法,针对病历文本的特定结构和内容从病历文本关键词词位置、词性分布、文本分类入手改进了传统TF-IDF算法。实验表明算法的Recall和Precision均能达到60%以上。在此基础上,实现了基于病历文本特征项余弦相似度的病历文本自动匹配。
  (4)设计并实现了基于自然口语语音识别和关键词自动提取的EMR系统。该系统实现了口述医学病历的语音识别、关键词自动提取、相似病历自动匹配、长时语音自动切分与FP裁剪、多进程解码以及病历文本标点自动加注等功能。测试表明系统具备良好的使用效果,自然口语语音识别正确率平均达到85.09%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号