首页> 中国专利> 一种ICD编码方法、ICD编码查询方法、编码系统和查询系统

一种ICD编码方法、ICD编码查询方法、编码系统和查询系统

摘要

本发明公开了一种ICD编码方法、ICD编码查询方法、编码系统和查询系统,涉及信息检索技术领域,所述ICD编码方法包括:获取医学术语集,所述医学术语集包括疾病名称;根据所述疾病名称及其归一化名称,建立本体模型;建立所述归一化名称与概念编码的映射关系;建立概念编码与ICD编码的映射关系。通过本体模型对疾病名称在语义上进行归一化,以解决疾病名称表达文本差异的问题,提高ICD编码的精确性;通过归一化名称与概念编码映射,通过概念编码与ICD编码进行映射,即使不同版本或地区的ICD编码都可以得到有效的映射,以适应不同版本的ICD编码,提高适用性和复用性。

著录项

  • 公开/公告号CN115964472A

    专利类型发明专利

  • 公开/公告日2023-04-14

    原文格式PDF

  • 申请/专利权人 奥码哈(杭州)医疗科技有限公司;

    申请/专利号CN202111460634.1

  • 发明设计人 查裕忠;李莹莹;张建楠;朱烨琳;

    申请日2021-12-03

  • 分类号G06F16/335;G06F40/126;G16H50/50;

  • 代理机构北京汇信合知识产权代理有限公司;

  • 代理人卢亮辉

  • 地址 311121 浙江省杭州市余杭区仓前街道时代天元城19幢1308室

  • 入库时间 2023-06-19 19:28:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-02

    实质审查的生效 IPC(主分类):G06F16/335 专利申请号:2021114606341 申请日:20211203

    实质审查的生效

说明书

技术领域

本发明涉及信息检索技术领域,具体涉及一种ICD编码方法、ICD编码查询方法、编码系统和查询系统。

背景技术

作为疾病和有关健康问题的国际统计分类标准、卫生信息标准体系的重要构成部分,国际疾病与相关健康问题统计分类(International Statistical Classification ofDiseases and Related Health Problems,ICD)被广泛地应用于临床研究、医疗结局监测、卫生事业管理以及卫生资源配置等多个方面,对医疗健康服务体系有着深远和广泛的影响。

目前主流应用的版本为ICD-10,其对于规范疾病分类,促进信息交换发挥了重要的作用,但由于各省市应用的ICD编码版本不统一、本地化维护更新缺乏整体性管理机制、各地扩展版之间编码差异大难以互交换、临床适用性不足,导致内外码现象等问题普遍存在。数据编码统一是医疗大数据分析的前提,奠定了医疗大数据广泛运用的基础,编码版本不一致及编码不准确等问题是阻滞健康医疗大数据统一分析与应用的重要原因之一。

现有技术中,基于ICD9/10分词词库的全文检索匹配系统,分为数据收集模块、数据分析模块、索引配置和定时任务模块、匹配引擎对外服务模块,通过调用Elasticsearch搜索引擎索引ICD9/10分词词库返回匹配的ICD9/10编码以及名称。上述方法一程度上可以推荐ICD编码,但无法处理分词词库外的文本与编码匹配,无法有效解决语义一致但文本差异较大的诊断编码匹配问题,无法有效解决ICD编码版本差异导致的编码标化困难问题。

发明内容

针对现有技术中存在的上述技术问题,本发明提供一种ICD编码方法、ICD编码查询方法、编码系统和查询系统,通过本体模型克服疾病名称表达多样化的问题,易于编码,适用于不同版本或多版本的ICD编码。

本发明公开了一种ICD编码方法,所述ICD编码方法包括:获取医学术语集,所述医学术语集包括疾病名称;根据所述疾病名称及其归一化名称,建立本体模型;建立所述归一化名称与概念编码的映射关系;建立概念编码与ICD编码的映射关系。

优选的,所述医学术语集包括以下任一领域的术语或它们的组合:

疾病、症状、解剖、手术、生物、药品、医疗器械、检验检查、影像、护理、基因和口语;

所述ICD编码包括以下任一编码体系或它们的组合:

ICD-10、ICD-9、ICD-9-CM-3、ICD-11和ICD-O。

优选的,建立本体模型的方法包括:

确定专业领域和范畴;考查复用现有本体的可能性;列出医学术语清单;

定义类和类的层级;定义类的属性,所述类的属性包括内在属性、外在属性和与其它类的关系,所述内在属性用于描述疾病的发生部位、形态学改变,所述外在属性用于描述治疗方法;定义属性的分面,所述分面包括取值类型、域和取值范围;创建实例。

优选的,本体模型优化的方法:

确定细分专业领域的本体模型;

根据本体集成方法,对多个本体模型进行融合,获得融合本体模型;

对所述融合本体模型进行持续优化和修正。

本发明还提供一种用于实现上述ICD编码方法的编码系统,包括医学术语集、本体模型构建模块和映射构建模块;所述医学术语集包括疾病名称;所述本体模型构建模块用于根据所述疾病名称及其归一化名称,建立本体模型;所述映射构建模块用于根据医学术语集和ICD编码库,建立所述归一化名称与概念编码的映射关系;建立概念编码与ICD编码的映射关系。

本发明还提供一种ICD编码查询方法,包括:获取疾病查询语句;获取本体模型,所述本体模型用于根据疾病名称获得其归一化名称;将所述疾病查询语句与所述本体模型中的归一化名称或疾病名称进行匹配,获取相应的归一化名称;根据归一化名称和概念编码的映射关系,获得与所述归一化名称相匹配的概念编码;根据概念编码与ICD编码的映射关系,获得ICD编码。

优选的,获取相应的归一化名称的方法包括:

判断疾病查询语句是否具有查询历史;

若是,根据所述查询历史获得ICD编码;

若否,将疾病查询语句与本体模型进行匹配;

判断是否精确匹配;

若精确匹配,获得归一化名称;

若没有精确匹配,根据文本相似度,将疾病查询语句与本体模型进行匹配,获得相似的归一化名称。

优选的本发明的ICD编码查询方法,还包括通过父节点术语进行匹配的方法:

将疾病查询语句,与疾病名称的父节点术语进行匹配,获得父节点概念编码;

根据父节点概念编码获得ICD编码。

优选的,本发明的ICD编码查询方法还包括编码输出的方法:

对所述ICD编码进行校验,并根据医学术语集或权重进行排序,获得编码列表;

将所述编码列表进行输出。

本发明还提供一种用实现上述ICD编码查询方法的查询系统,其特征在于,包括查询模块、匹配模块和映射模块;

所述查询模块用于获取疾病查询语句;

所述匹配模块用于将所述疾病查询语句与所述本体模型中的归一化名称或疾病名称进行匹配,获取相应的归一化名称;

所述映射模块用于根据归一化名称和概念编码的映射关系,获得所述归一化名称相匹配的概念编码;根据概念编码与ICD编码的映射关系,获得ICD编码。

与现有技术相比,本发明的有益效果为:通过本体模型对疾病名称在语义上进行归一化,以解决疾病名称表达文本差异的问题,提高ICD编码的精确性;通过归一化名称与概念编码映射,通过概念编码与ICD编码进行映射,即使不同版本或地区的ICD编码都可以得到有效的映射,以适应不同版本的ICD编码,提高适用性和复用性。

附图说明

图1是本发明的ICD编码方法的流程图;

图2是本发明的编码系统和查询系统的逻辑框图;

图3是本发明的ICD编码查询方法的流程图;

图4是实施例的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述:

一种ICD编码方法,如图1所示,所述ICD编码方法包括:

步骤101:获取医学术语集,所述医学术语集包括疾病名称。所述医学术语集可以包括以下任一领域的术语或它们的组合:疾病、症状、解剖、手术、生物、药品、医疗器械、检验检查、影像、护理、基因、和口语等。

步骤102:根据所述疾病名称及其归一化名称,建立本体模型。其中归一化名称是对疾病名称的在语义层面的概念归一,例如发热、发烧、体温上升、体温38度等,在说语义层面的概念相同,进行归一化后,将它们具有相同的归一化名称。

步骤103:建立所述归一化名称与概念编码的映射关系。

步骤104:建立概念编码与ICD编码的映射关系。所述ICD编码包括以下任一编码体系或它们的组合:ICD-10、ICD-9、ICD-11、ICD-9-CM-3和ICD-O,但不限于此。即,通过概念编码使不同编码体系的ICD编码进行归一化。

通过本体模型对疾病名称在语义上进行归一化,以解决疾病名称表达文本差异的问题,提高ICD编码的精确性;通过归一化名称与概念编码映射,通过概念编码与ICD编码进行映射,即使不同版本或地区的ICD编码都可以得到有效的映射,以适应不同版本的ICD编码,提高适用性和复用性。

本体(Ontology)是描述概念和概念之间关系的概念模型,通过概念之间的关系描述概念的定义;主要面向特定领域,用于描述特定领域的概念模型。具有5个基本建模元语:类、关系、函数、公理和实例。类(classes)包括概念的名称,与其他概念之间的关系的集合,以及用自然语言对概念的描述;关系(relations)在领域中概念之间的交互作用,如子节点关系,在语义上关系对应于对象元组的集合;函数(functions)一类特殊的关系,如父节点关系或母节点关系;公理(axioms)代表永真断言,如概念B属于概念A的范围;实例(instances)代表元素,从语义上讲实例表示的就是对象,表示具体某个类的实际存在。

在一个实施例中,本体模型为关联组类的数据模型,模型包括实体和关系,一个实体是一个节点,一条关系是两个相关节点之间的连线,其构建实现了ICD编码语义关系的高度集成。

步骤102中,建立本体模型的方法包括:

步骤201:确定专业领域和范畴。

步骤202:考查复用现有本体的可能性。

步骤203:列出医学术语清单。

步骤204:定义类和类的层级。

步骤205:定义类的属性,所述类的属性包括内在属性、外在属性和与其它类的关系,所述内在属性用于描述疾病的发生部位、形态学改变等,所述外在属性用于描述治疗方法等。

步骤206:定义属性的分面,所述分面包括取值类型、域和取值范围;定义公理。

步骤207:创建该类的实例。

例如,将疾病名称的类定义类的层级,如疾病、症状等定义为一级类,再如精神科和内科等定义为二级类;将归一化名称作为公理;将关系用于定义子节点关系;函数用于定义父节点的关系;医学术语集中的术语或疾病名称作为实例。但不限于此。

本体模型优化的方法:

步骤211:确定细分专业领域的本体模型。

步骤212:根据本体集成方法,对多个本体模型进行融合,获得融合本体模型。可以根据本体模型之间的关系进行不同医学领域的本体模型进行融合。

步骤213:对所述融合本体模型进行持续优化和修正。

本发明还提供一种用于实现上述ICD编码方法的编码系统,如图2所述,包括医学术语集11、本体模型构建模块2和映射构建模块3;

医学术语集11包括疾病名称;

本体模型构建模块2用于根据所述疾病名称及其归一化名称,建立本体模型13;

映射构建模块3用于根据医学术语集11和ICD编码库12,建立所述归一化名称与概念编码的映射关系;建立概念编码与ICD编码的映射关系,获得映射库14。

ICD编码库12用于收录覆盖全国省、直辖市在用的ICD版本,本体模型用于对所有收录ICD版本在语义层面进行概念归一。

本发明还提供一种ICD编码查询方法,如图3所示,所述ICD编码查询方法包括:

步骤301:获取疾病查询语句。疾病查询语句,可以是一组关键词或者一段文本。其中,可以对疾病查询语句进行预处理,使疾病查询语句符合标准格式要求;也可以对文本进行分词,以提取关键词。

步骤302:获取本体模型,所述本体模型用于根据疾病名称获得其归一化名称。所述疾病名称包括以下任一领域的术语或它们的组合:疾病、症状、解剖、手术、生物、药品、医疗器械、检验检查、影像、护理、基因和口语等。

步骤303:将所述疾病查询语句与所述本体模型中的归一化名称或疾病名称进行匹配,获取相应的归一化名称。通过语义解析的方式,获得归一化名称,以应对多样化的描述方式。

步骤304:根据归一化名称和概念编码的映射关系,获得与所述归一化名称相匹配的概念编码。

步骤305:根据概念编码与ICD编码的映射关系,获得ICD编码。

通过概念编码与ICD编码进行映射,利于不同版本或地区的ICD编码都可以得到有效的映射,以适应不同版本的ICD编码,提高适用性和复用性。

实施例

如图4所示,ICD编码查询方法包括:

步骤401:疾病查询语句输入。

步骤402:疾病查询语句预处理。如数据清洗、关键词提取等。

步骤403:判断疾病查询语句是否具有查询历史。

若是,执行步骤404,根据所述查询历史获得ICD编码,执行步骤411。

若否,执行步骤405:将疾病查询语句与本体模型进行匹配,执行步骤406。其中,匹配是指,与本体模型中的疾病名称或归一化名称进行匹配。

步骤406:判断所述匹配是否为精确匹配。

若精确匹配,执行步骤407:获得归一化名称,执行步骤409。

若没有精确匹配,执行步骤408:根据文本相似度,将疾病查询语句与本体模型进行匹配,获得相似的归一化名称。即语义上的同义词匹配。

步骤409:将归一化名称分别与概念编码和ICD编码映射,获得ICD编码。

步骤410:对所述ICD编码进行校验,并根据医学术语集或权重进行排序,获得编码列表。可以根据校验规则库经规则算法进行校验;也可以采用数组的形式对推荐顺序进行排列。

步骤411:将所述编码列表或ICD编码进行输出。所述输出包括单个精确编码输出和多个推荐编码输出。

其中,上述ICD编码查询的方法,可以通过API接口的方式提供服务,,可高效、快捷与第三方系统或平台对接进行调试和使用。

步骤408中,在没有得到相似度较高的归一化名称时,也可以通过父节点术语进行匹配的方法:

将疾病查询语句,与疾病名称的父节点术语进行匹配,获得父节点概念编码,可以从本体模型中的函数关系获得父节点术语;

根据父节点概念编码获得ICD编码。父节点术语是指与当前查询疾病名称具有父节点关系的疾病名称。

经测试验证,对于ICD-10编码查询的准确度达97%以上,其中精确编码比例92%,推荐编码比例8%。同时,随着输入词的质量越高,给出编码的准确度越高。本发明的ICD编码查询的方法解决了临床诊断多样化表达编码问题、ICD-10地区版本差异问题,大大提升了疾病诊断名称等临床ICD-10编码的精确性,增强ICD编码范围内医疗诊断信息编码结果的准确性和一致性;具较强复用性,广泛适用于存在版本差异问题的ICD编码体系。

本发明还提供一种用于实现上述ICD编码查询方法的查询系统,如图2所示,

包括查询模块21、匹配模块22、映射模块23、校验模块24和输出模块25;

查询模块21用于获取疾病查询语句;

匹配模块22用于将所述疾病查询语句与所述本体模型中的归一化名称或疾病名称进行匹配,获取相应的归一化名称;

映射模块23用于根据映射库14中的归一化名称和概念编码的映射关系,获得所述归一化名称相匹配的概念编码;根据映射库14中的概念编码与ICD编码的映射关系,获得ICD编码;

校验模块24用于对ICD编码进行校验;输出模块25用于输出ICD编码。

本发明的查询系统,对用户输入的医疗信息进行自动编码,解决ICD编码跨版本标准化问题。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号