首页> 中文学位 >病理镜检文本的结构化处理系统设计与实现
【6h】

病理镜检文本的结构化处理系统设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本文的组织框架

第二章 相关技术研究

2.1 文本相似度

2.2 文本聚类算法

2.3 中文分词

2.4 本章小结

第三章 病理镜检文本的结构化处理系统架构

3.1 病理镜检文本介绍

3.2 病理镜检文本的结构化处理流程

3.3 系统架构设计

3.4 本章小结

第四章 基于文本聚类的病理字典构建

4.1 镜检文本的预处理

4.2 文本聚类

4.3 关键词抽取算法

4.4 词语扩展

4.5 本章小结

第五章 病理镜检文本的结构化处理算法

5.1 镜检文本结构化预处理

5.2 镜检文本结构化处理算法

5.3 本章小结

第六章 系统实现与实验分析

6.1 统计参数调优

6.2 病理镜检文本结构化处理系统的实现

6.3 系统测试

6.4 本章小结

第七章 总结与展望

7.1 工作总结

7.2 展望

参考文献

致谢

攻读学位期间的研究成果目录

展开▼

摘要

病理报告作为医疗文档中的非结构化数据之一,是诊断病理学中的重要文档。它是病理医生根据病理活检结果,采用规范化的自然语言描述形成的文本格式的临床数据。其中,非结构化的文本数据是病理医生做出病理诊断的关键,也是临床医生进行疾病诊断的重要工具之一。
  当前,病理诊断主要依靠医生针对文本数据的描述要点,依据个人经验做出带有主观性的判断。读取数据的实质是人工抽取信息并进行文本结构化的过程,不仅效率低且不可避免地产生正确率难以保证的问题,并因此导致漏诊误诊。为此,本文针对病理报告中镜检文本的数据特征,借助统计分析、文本聚类、中文分词等技术手段,设计并实现了一套适用于此数据的文本结构化系统,以支持自动地提取结构化数据。
  本文首先归纳出病理镜检文本的数据特征,同时将其作为本文方案的基础支撑,并依据其特征完成了短句切分、特征词标记等文本预处理过程,接着给出了病理镜检文本数据的结构化处理流程。以此为基础,本文设计了系统的总体架构,且依次阐述了三个核心模块:文本预处理模块、构建病理字典模块、结构化处理模块的主要功能及流程。
  然后,为实现构建病理字典的目的,本文提出了基于文本聚类的关键词抽取算法,其输入为聚类后的相似性短文本,实现了提取同类短句核心词的功能。之后,结合文本数据的书写模式及规范进行词汇扩展,最终得到由属性词和描述词所组成的病理字典。
  最后,依赖病理字典,采用镜检文本的结果化处理算法,实现了从文本数据中抽取键值对形式的术语词,并通过添加否定检出得到的否定词得到了语义完整的结构化数据。同时采用web站点形式,建立了面向用户的结构化数据抽取系统,为提高系统的准确率,向用户提供了反馈接口,通过此过程实现字典的更新。
  为了验证所提出算法的有效性,本文对真实数据集进行测试,通过人工对病理字典及抽取的结构化数据进行检测,证明其能够达到预期目的。这不仅克服了通用分词软件的领域不适用性,实现自动化结构数据抽取,并且可以为将来的疾病分析提供有力的数据支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号