公开/公告号CN105184053A
专利类型发明专利
公开/公告日2015-12-23
原文格式PDF
申请/专利权人 易保互联医疗信息科技(北京)有限公司;
申请/专利号CN201510496444.3
申请日2015-08-13
分类号G06F19/00;G06F17/30;
代理机构北京三友知识产权代理有限公司;
代理人汤在彦
地址 100027 北京市朝阳区新源里16号琨莎中心2座12B层
入库时间 2023-12-18 12:59:36
法律状态公告日
法律状态信息
法律状态
2018-09-07
授权
授权
2016-01-20
实质审查的生效 IPC(主分类):G06F19/00 申请日:20150813
实质审查的生效
2015-12-23
公开
公开
技术领域
本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种中文 医疗服务项目信息的自动编码方法及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述 不因为包括在本部分中就承认是现有技术。
随着信息技术的快速发展,我国医药行业正加速医疗信息化建设。通过医疗信息化平 台,可提升医疗处理效率,给患者提供更好的体验,大大提高医疗服务质量。
医疗服务价格项目结算是医疗保险结算的重要组成部分,在我国,医疗服务价格项目 由《全国医疗服务价格项目规范》规定,该规范中,医疗服务价格项目由项目名称、项目 编码、项目内涵、除外内容、计价单位、计价说明六个要素构成。
其中,项目名称以我国现行医学教科书中规范的名称或我国临床习惯通用名称命名。 命名的一般顺序为:路径+部位(病变)+方法+术式。项目名称采用简体中文书写,特 殊需标注外文的,采用外文缩写(或全称)标注于中文名称后面的括号中;名称中“/”表 示“或者”,指并列关系,例如“门/急诊留观诊察费”,指门诊或急诊留观诊察费。项目 编码是由字母和数字共八位混合码组成,各字母、数字代表不同的含义。
实际临床作业中每天会进行大量的医疗服务项目,医疗从业人员会将这些医疗服务项 目以中文医疗服务项目信息的形式输入医疗信息化平台中,研究和利用中文医疗服务项目 信息对于医疗服务价格项目结算具有非常重要的意义。面对每天产生的海量的中文医疗服 务项目信息,借助计算机从中文医疗服务项目信息中识别出医疗服务项目名称并完成编 码,是提高利用和管理中文医疗服务项目信息的有效途径之一。
发明内容
但是,由于医疗从业人员在医疗信息化平台中输入的中文医疗服务项目信息属于自然 语言,格式复杂多样,没有统一的标准,例如,采用多种语言混合表达、使用不规范语法、 录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等,这就 使得计算机从中识别出医疗服务项目名称并编码变得相当困难,即便能够实现,也往往具 有较高的出错率。
为此,非常需要一种中文医疗服务项目信息的自动编码方法,以便快速、高效、准确 地从中识别出医疗服务项目名称并对其编码。
在本上下文中,本发明的实施方式期望提供一种中文医疗服务项目信息的自动编码方 法及系统。
在本发明实施方式的第一方面中,提供了一种中文医疗服务项目信息的自动编码方 法,包括:
步骤1,输入中文医疗服务项目信息字符串;
步骤2,对所述中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗 服务项目信息字符串;
步骤3,基于预先建立的本体词典、方位词典、等级词典,将所述预处理后的中文医 疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型 子字符串不能够与所述本体词典中的本体直接匹配;
所述本体词典包括若干本体以及所述本体一一对应的编码,所述本体为标准术语或扩 充术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称;所述扩充术语为 与所述标准术语具有同义关系的词语或具有属种关系的词语;其中,所述标准术语对应的 编码为全国医疗服务价格项目规范中规定的项目编码;所述扩充术语与具有同义关系或属 种关系的所述标准术语对应的编码一致;
所述方位词典包括若干方位术语,所述方位术语是用于描述医疗服务项目所针对的方 位的词语;
所述等级词典包括若干等级术语,所述等级术语是用于描述医疗服务项目的级别、类 型的词语;
步骤4,将所述第一类型子字符串相匹配的本体的编码确定为所述中文医疗服务项目 信息字符串的精确编码,并输出所述精确编码。
在本发明实施方式的第二方面中,提供了一种中文医疗服务项目信息的自动编码系 统,包括:
词典数据库,用于提供本体词典、方位词典和等级词典;其中,
所述本体词典包括若干本体以及所述本体一一对应的编码,所述本体为标准术语或扩 充术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称;所述扩充术语为 与所述标准术语具有同义关系的词语或具有属种关系的词语;其中,所述标准术语对应的 编码为全国医疗服务价格项目规范中规定的项目编码;所述扩充术语与具有同义关系或属 种关系的所述标准术语对应的编码一致;
所述方位词典包括若干方位术语,所述方位术语是用于描述医疗服务项目所针对的方 位的词语;
所述等级词典包括若干等级术语,所述等级术语是用于描述医疗服务项目的级别、类 型的词语;
输入模块,用于输入中文医疗服务项目信息字符串;
预处理模块,用于对所述中文医疗服务项目信息字符串进行预处理,得到预处理后的 中文医疗服务项目信息字符串;
切分模块,用于基于所述本体词典、方位词典、等级词典,将所述预处理后的中文医 疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型 子字符串不能够与所述本体词典中的本体直接匹配;
输出模块,用于将所述第一类型子字符串相匹配的本体的编码确定为所述中文医疗服 务项目信息字符串的精确编码,并输出所述精确编码。
借助于上述技术方案,本发明充分考虑了医疗从业人员输入的中文医疗服务项目信息 属于自然语言、格式复杂多样、没有统一的标准等特点,利用预先依据医疗领域的通用标 准所建立的多种词典对中文医疗服务项目信息字符串进行切分和匹配,以此将医疗服务项 目名称识别出来,并根据识别结果对其编码。此外,本发明还根据切分出的子字符串能否 与本体直接匹配,输出中文医疗服务项目信息的精确编码或模糊编码。本发明实现了对属 于自然语言的中文医疗服务项目信息的准确识别及编码,识别结果及编码结果具有较高的 准确率,为利用中文医疗服务项目信息进行医疗服务价格项目结算提供了便利。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特 征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实 施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景;
图2示意性地示出了本发明示例性的中文医疗服务项目信息的自动编码方法的流程 图;
图3示意性地示出了本发明示例性方法中切分中文医疗服务项目信息的流程图;
图4示意性地示出了本发明示例性方法中查找第二类型子字符串相匹配的本体的流程 图;
图5示意性地示出了本发明示例性的中文医疗服务项目信息的自动编码系统模块框 图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实 施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式 限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够 将本公开的范围完整地传达给本领域的技术人员。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方 法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的 软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种中文医疗服务项目信息的自动编码方法及系统。
在本文中,需要说明的是,本文所称的“医疗服务项目”是如《全国医疗服务价格项 目规范》中规定的综合医疗服务、病理学诊断、实验室诊断、影像学诊断、临床诊断、临 床手术治疗、临床非手术治疗、临床物理治疗、康复医疗、辅助操作和中医医疗服务等项 目。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有 任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
应用场景总览
首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。
图1中所示的场景包括医疗信息化平台100和中文医疗服务项目信息自动编码系统 200。医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑、平板电脑、个 人数字助理等设备中的软件。中文医疗服务项目信息自动编码系统200可以是运行于医院 信息服务器中的软件等。医疗信息化平台100和中文医疗服务项目信息自动编码系统200之 间例如可以通过医院局域网等进行通信连接。
医疗从业人员(例如医生)在医疗信息化平台100中输入中文医疗服务项目信息之后, 中文医疗服务项目信息被传输至中文医疗服务项目信息自动编码系统200,由中文医疗服 务项目信息自动编码系统200对其进行自然语言处理和自动编码,最后输出编码结果。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于中文医疗 服务项目信息的自动编码的方法。需要注意的是,上述应用场景仅是为了便于理解本发明 的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方 式可以应用于适用的任何场景。
例如,参见图2所示,为本发明示例性的中文医疗服务项目信息的自动编码方法,包 括:
步骤S21,输入中文医疗服务项目信息字符串。
步骤S22,对中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗服 务项目信息字符串。
该步骤的目的是将中文医疗服务项目信息字符串中的字符转换成统一的编码格式,以 便后续处理。
可选地,该步骤可以按照如下具体方式实施:对中文医疗服务项目信息字符串中的非 汉字进行格式归一化处理(例如,将中文医疗服务项目信息字符串中的符号全部转换为半 角格式或全部转换为全角格式,将其中的英文字母全部转换为大写格式或小写格式);并 删除中文医疗服务项目信息字符串中的非医学术语。其中非医学术语由一预先建立的非医 学术语词典提供,且非医学术语为起备注作用的词语、短语或描述性语句(例如“开检查”、 “补急诊记账”、“床位费超标自费”、“超过一个月加收,不足一个月按月收”、“儿 科加收”等)。
步骤S23,基于预先建立的本体词典、方位词典、等级词典,将预处理后的中文医疗 服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串。
其中,第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能 够与本体词典中的本体直接匹配。切分出的第一类型子字符串和第二类型子字符串具有独 立语义,即所表示的医疗服务项目信息不受其之前或之后的字符影响。
本体词典包括若干本体以及每个本体一一对应的编码。这些本体是标准术语或扩充术 语。
标准术语为《全国医疗服务价格项目规范》中规定的项目名称,具体实施时,可以依 据2012版《全国医疗服务价格项目规范》中规定的项目名称确定标准术语。
扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语。例如,与标准术 语具有属种关系的扩充术语,可以是来自各个地区的医疗服务目录及结算单中的医疗服务 项目,以符合《全国医疗服务价格项目规范》的分类和命名规范的形式,对标准术语进行 细化或补充,在概念上涵盖标准术语或被标准术语所涵盖的医疗服务项目名称;而与标准 术语具有同义关系的扩充术语,可以是来自各个地区的医疗服务目录及结算单中的医疗服 务项目,以符合《全国医疗服务价格项目规范》的分类和命名规范的形式,在概念上或应 用上与标准术语等同的医疗服务项目名称,例如是标准术语的俗称\别称\缩略语。
在本体词典中,扩充术语与具有同义关系或属种关系的标准术语具有一致的编码。
如表1所示为本体词典包括的部分标准术语和扩充术语及其编码。
表1
方位词典包括若干方位术语,方位术语是用于描述医疗服务项目所针对的方位的词 语,例如表2所示为方位词典包括的部分方位术语。
表2
等级词典包括若干等级术语,等级术语是用于描述医疗服务项目的级别、类型等的词 语,例如表3所示为等级词典包括的部分等级术语。
表3
该步骤的目的是将中文医疗服务项目信息切分成具有独立语义的子字符串(第一类型 子字符串或第二类型子字符串),以有效避免将具有关联关系的多个字符分别进行识别从 而导致识别错误的问题。
下文将以实施例一详细介绍步骤S23的一种具体实施方式。
步骤S24,将第一类型子字符串相匹配的本体的编码确定为该中文医疗服务项目信息 字符串的精确编码,并输出精确编码。
具体地,由于第一类型子字符串能够与本体直接匹配,即第一类型子字符串是标准术 语或扩充术语,因此,第一类型子字符串是从该中文医疗服务项目信息字符串中精确识别 出的医疗服务项目名称,将直接匹配的本体的编码赋给第一类型子字符串,即实现了从中 文医疗服务项目信息字符串中精确识别出医疗服务项目名称并对其编码。在本发明中,由 于第一类型子字符串是从该中文医疗服务项目信息字符串中精确识别出的医疗服务项目 名称,因此第一类型子字符串的编码属于该中文医疗服务项目信息字符串的精确编码。
假设从某一中文医疗服务项目信息字符串中所切分出的各个第一类型子字符串分别 匹配如表1中的“全身骨显像”、“腹部透视”、“异位胃粘膜显像”,则根据表1中这些 本体的编码可得,该中文医疗服务项目信息字符串的精确编码有:EEAX6004、EAAQT001、 EEBPD002。
以上步骤利用切分出的第一类型子字符串得到了中文医疗服务项目信息字符串的精 确编码,进一步的,本示例性方法还可以利用切分出的第二类型子字符串得到中文医疗服 务项目信息字符串的模糊编码。
可选地,如图2所示,本发明示例性方法还可以继续包括如下步骤:
步骤S25,对第二类型子字符串和本体词典中的每个本体进行预设维度的解析,得到 第二类型子字符串的解析结果,以及本体词典中每个本体的解析结果;并通过将第二类型 子字符串的解析结果与本体词典中每个本体的解析结果进行匹配,查找第二类型子字符串 相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的一个或多个本体。
该步骤的目的是对于利用预先建立的各种词典也无法识别的符号、数字和汉字,基于 预设的维度对其进行解析,然后查找与其解析结果相匹配的本体,最终实现对所有符号、 数字和汉字的识别。
下文将以实施例二详细介绍步骤S25的一种具体实施方式。
步骤S26,将第二类型子字符串相匹配的本体的编码,或与第二类型子字符串达到预 设匹配条件的一个或多个本体的编码,确定为中文医疗服务项目信息字符串的模糊编码, 并输出该模糊编码。
具体地,由于第二类型子字符串并不能与本体直接匹配,因此,步骤S25所确定的与 第二类型子字符串相匹配或达到预设匹配条件的本体,是为第二类型子字符串模糊匹配的 本体,是从该中文医疗服务项目信息字符串中模糊识别出的医疗服务项目名称,因此,与 第二类型子字符串相匹配或达到预设匹配条件的本体的编码属于该中文医疗服务项目信 息字符串的模糊编码。
假设从某一中文医疗服务项目信息字符串中切分出的各个第二类型子字符串,相匹配 的本体或达到预设匹配条件的本体分别为表1中的“高频吸氧”、“心肺移植术”、“心 室晚电位”、“颅底再造术”,则根据表1中这些本体的编码可得,该中文医疗服务项目 信息字符串的模糊编码有:ABJA0001aa、HKA90303、FKA03709、HBN_0014。
以上步骤S25完成了查找第二类型子字符串相匹配或达到预设匹配条件的本体这一过 程,该过程中有可能查找不到第二类型子字符串相匹配或达到预设匹配条件的本体。这是 因为本体词典中的本体(不论是标准术语还是扩充术语)均是医疗服务项目名称相关的词 语,然而实际的中文医疗服务项目信息中往往会涉及医疗领域的多种概念,不仅仅是医疗 服务项目名称,还可能涉及疾病名称(例如“胸骨骨折链枷胸”)、药品名称(例如“西 替利嗪”)、医疗耗材名称(例如“弹性假牙龈”)等,但本发明只是对医疗服务项目的 编码,因此,若中文医疗服务项目信息中出现了疾病名称、药品名称、医疗耗材名称等, 本发明可以选择对其不予编码。另外,实际的中文医疗服务项目信息还可能包括一些虽然 是表示医疗服务项目信息,但却并不能确定具体对应于何种医疗服务项目的词语,例如有 些不符合《全国医疗服务价格项目规范》分类体系,不能确定其具体对应的医疗服务项目。 例如“磨削术”,虽然表示医疗服务项目信息,但其概念太泛,无法确定具体是什么部位 消磨术,是面部磨削术、颧骨磨削术还是激光磨削术;再比如,“变性术”虽然表示医疗 服务项目信息,但具体是男变女性尿道移位成形术还是男变女性阴道再造术也无法确定。
考虑到以上问题,可选地,本发明示例性方法还可以预先设定一无编码术语词典,该 无编码术语词典包括若干无编码术语。这些无编码术语包括:预设的用于表示医疗服务项 目信息、但无法确定医疗服务项目名称的词语;预设的疾病名称;预设的药品名称;以及, 预设的医疗耗材名称。
例如,表4所示为无编码术语词典包括的部分无编码术语。
基于以上无编码术语词典,如图2所示,本发明示例性方法还可以继续包括如下步骤:
步骤S27,将未查找到相匹配的本体、且未查找到达到预设匹配条件的一个或多个本 体的第二类型子字符串,确定为本体匹配失败子字符串。
步骤S28,将本体匹配失败子字符串与预先建立的无编码术语词典中的无编码术语进 行匹配,若匹配成功,则执行预设的处理步骤(例如可以输出一预先设定的显示信息,如 输出“无码可编”)以表示不对该本体匹配失败子字符串进行编码,若匹配失败,则将该 本体匹配失败子字符串发送至人工处理平台进行人工处理。
其中,对于未查找到相匹配或达到预设匹配条件的本体的第二类型子字符串,若能查 找到相匹配的无编码术语,则说明其属于表示医疗服务项目信息但无法确定医疗服务项目 名称的词语、疾病名称、药品名称、医疗耗材名称中的一种,不予编码,而对于不能查找 到相匹配的无编码术语的第二类型子字符串,说明其不属于上述类型,对于这类第二类型 子字符串,本实施例将其发送给人工处理平台,由人工继续处理,具体处理过程,本发明 对其不作限定。
实施例一
参见图3所示,为本发明示例性方法中步骤S23的一实施方式示例。
如图3所示,对中文医疗服务项目信息的切分过程可以包括:
步骤S30,判断预处理后的中文医疗服务项目信息字符串是否包含符号;如果包含符 号,则执行步骤S31;如果未包含符号,则执行步骤S32。
步骤S31,将预处理后的中文医疗服务项目信息字符串中每相邻两个符号之间的字符 作为整体与本体词典中的本体进行匹配;若匹配成功,则执行步骤S311;若匹配失败,则 执行步骤S312。
步骤S311,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
步骤S312,该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行步骤 S33。
步骤S31、步骤S311、步骤S312依据的处理规则是:将相邻符号之间的全部字符作为 整体与本体进行匹配,只有匹配时才切分,否则暂时不予切分。
例如表5所示对“轻链KAPPA、LAMBDA定量(K-LC,λ-LC);颅内巨大动脉瘤夹闭 切除术,多夹除直径大于2.5cm的动脉瘤”的切分,其中,“轻链KAPPA、LAMBDA定量 (K-LC,λ-LC)”、“颅内巨大动脉瘤夹闭切除术,多夹除直径大于2.5cm的动脉瘤”均为 符号之间的全部字符,并且可以查找到相匹配的本体,因此,分别被切分出来。
表5
步骤S32,采用机械分词法将预处理后的中文医疗服务项目信息字符串与本体词典中 的本体进行匹配;若预处理后的中文医疗服务项目信息字符串中的所有字符均能够与本体 匹配,则执行步骤S321;若预处理后的中文医疗服务项目信息字符串中存在未能与本体匹 配的单个字符或多个连续的字符,则执行步骤S322。
步骤S321,依据所匹配的本体将预处理后的中文医疗服务项目信息字符串中的字符切 分出来作为第一类型子字符串。
步骤S322,判断未能与本体匹配的单个字符或多个连续的字符是否是方位术语或等级 术语;如果是方位术语或等级术语,则执行步骤S3221;如果不是方位术语或等级术语, 则执行步骤S3222。
步骤S32、步骤S321、步骤S322依据的处理规则是:采用机械分词法将预处理后的中 文医疗服务项目信息字符串中的字符与本体进行匹配,只有全部字符都能查找到相匹配的 本体时才切分,否则暂时不予切分。
例如表6所示为对“血脂常规检查隐血试验”的切分,采用机械分词法可分别查找到 “血脂常规检查”和“隐血试验”相匹配的本体,因此,分别被切分出来。
表6
步骤S32采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切分型。 具体的切分过程,本实施例不再赘述。
步骤S3221,根据未能与本体匹配的单个字符或多个连续的字符在预处理后的中文医 疗服务项目信息字符串中的位置,将未能与本体匹配的单个字符或多个连续的字符与其之 前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字 符串,并将其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子 字符串。
步骤S3222,将预处理后的中文医疗服务项目信息字符串整体切分出来作为第二类型 子字符串。
步骤S3221、步骤S3222依据的处理规则是:如果未能与本体匹配的单个字符或多个连 续的字符是方位术语或等级术语,则执行切分,并且切分时是将其与其之前或之后的字符 合并切分出来。
例如表7所示为对“肺减容手术右侧肺修补术”的切分,采用机械分词法可分别查找 到“肺减容手术”、“肺修补术”相匹配的本体,其中的“右侧”为方位术语,因此,将 “右侧”与“肺修补术”合并切分出来,“肺减容手术”单独切分出来。
表7
步骤S33,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符串中 包含特殊符号,则执行步骤S331;如果暂不切分字符串中不包含特殊符号,则执行步骤 S333。
步骤S331,查找暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切 分规则对暂不切分字符串进行切分;其中,字符模型由一预先建立的字符模型库提供,且 字符模型具有一一对应的切分规则。
步骤S332,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该切 分出来的字符确定为第一类型子字符串,若匹配失败,则将该切分出来的字符确定为第二 类型子字符串;
步骤S333,将暂不切分字符串直接确定为第二类型子字符串。
步骤S33、步骤S331、步骤S332、步骤S333依据的处理规则是:当暂不切分字符串中 包含预设的特殊符号时,根据暂不切分字符串所属的字符模型进行切分,否则直接切分出 来;而且将基于字符模型切分出的字符再次与本体进行匹配,将其中能够与本体直接匹配 的作为第一类型子字符串,不能够直接匹配的作为第二类型子字符串。
例如预设的特殊符号可以包括但不限于句号、冒号、加号、分号、斜杠线等等。
例如以下为字符模型库中的部分字符模型及其切分规则:
(1)字符模型:XAY型,A为加号、冒号;
切分规则:将XAY作为整体切分出来;
(2)字符模型:CDE型,且C、E之一为汉字,D为句号、分号;
切分规则:将C、E中的汉字切分出来;
(3)字符模型:STU型,且S和/或U为单个汉字,T为斜杠线;
切分规则:将STU作为整体切分出来。
例如对“血脂(P)。肾脏功能检测(P)”进行切分,经查找字符模型库可知属于CDE 型,则将“血脂(P)”、“肾脏功能检测(P)”单独切分出来。
例如对“网织红细胞计数+血细胞五分类”进行切分,经查找字符模型库可知属于XAY 型,则将“网织红细胞计数+血细胞五分类”整体切分出来。
例如对“初查:RPR+TPPA”进行切分,经查找字符模型库可知属于XAY型,则将 “初查:RPR+TPPA”整体切分出来。
例如对“3/4喉切除术及喉功能重建术”进行切分,经查找字符模型库可知属于STU 型,则将“3/4喉切除术及喉功能重建术”整体切分出来。
实施例二
参见图4所示,为本发明示例性方法中步骤S25的一实施方式示例。
如图4所示,查找第二类型子字符串相匹配或达到预设匹配条件的本体的过程可以包 括:
步骤S40,对第二类型子字符串和本体词典中的每个本体进行第一维度的解析,得到 第二类型子字符串的若干第一维度解析结果,以及每个本体的若干第一维度解析结果;
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行第一 维度的解析可以包括但不限于:
(1)确定解析对象中包含的方位术语,如果其中不包含方位术语,则该项解析结果 为空;
(2)确定解析对象中包含的等级术语,如果其中不包含等级术语,则该项解析结果 为空;
(3)确定解析对象中括号内的字符,如果其中不包含括号,则该项解析结果为空;
(4)确定解析对象中破折号后的字符,如果其中不包含破折号,则该项解析结果为 空;以及,
(5)确定解析对象中除方位术语、等级术语、括号内的字符、破折号后的字符以外 的字符(以下简称本体中的剩余字符),一般为解析对象的核心词干。
当解析对象为第二类型子字符串时,其各个第一维度解析结果可以包括但不限于:第 二类型子字符串中的方位术语、第二类型子字符串中的等级术语、第二类型子字符串中括 号内的字符、第二类型子字符串中破折号后的字符、第二类型子字符串中的剩余字符。
当解析对象为本体时,其各个第一维度解析结果可以包括但不限于:本体中的方位术 语、本体中的等级术语、本体中括号内的字符、本体中破折号后的字符、本体中的剩余字 符。
步骤S41,将第二类型子字符串的各第一维度解析结果与本体词典中每个本体的各第 一维度的解析结果进行匹配,查找是否存在某个本体的各第一维度解析结果均与第二类型 子字符串的各第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S42,如果不 存在这样的本体,则执行步骤S43。
步骤S42,将查找到的本体确定为第二类型子字符串相匹配的本体。
步骤S43,选取第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结 果与本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配, 并查找是否存在某个本体的该部分第一维度解析结果与第二类型子字符串的该部分第一 维度解析结果相匹配;如果存在这样的本体,则执行步骤S431;如果不存在这样的本体, 则执行步骤S432。
步骤S431,将查找到的本体确定为第二类型子字符串相匹配的本体。
分别将第二类型子字符串中包含的方位术语与本体中包含的方位术语进行匹配,将第 二类型子字符串中包含的等级术语与本体中包含的等级术语进行匹配,将第二类型子字符 串中括号内的字符与本体中括号内的字符进行匹配,将第二类型子字符串中破折号后的字 符与本体中括号中破折号后的字符进行匹配,将第二类型子字符串中的剩余字符与本体中 的剩余字符进行匹配。
如果全部的第一维度解析结果均匹配,则将该本体确定为第二类型子字符串相匹配的 本体。
如果某些第一维度解析结果不匹配,则选取部分第一维度解析结果分别进行匹配。
考虑到第二类型子字符串中的剩余字符往往是第二类型子字符串的核心信息,因此, 在具体实施中,较佳的,所选取的部分第一维度解析结果至少包括第二类型子字符串中的 剩余字符,以及本体中的剩余字符。例如,仅选取解析对象的剩余字符和破折号后的字符 分别进行匹配,或者,仅选取解析对象的剩余字符进行匹配,或者,还可以选取解析对象 的剩余字符与方位术语或等级术语或括号内的字符或方位术语或等级术语分别进行匹配。
例如某一第二类型子字符串为“人工制定治疗计划(简单)--疗程中修改计划”,对其 进行第一维度的解析,得到的解析结果如表8所示,如表9所示为与该第二类型子字符串相 匹配的本体及其各个第一维度解析结果。
表8
与“人工制定治疗计划(简单)--疗程中修改计划”相匹配的本体“人工制定治疗计 划(简单)”的第一维度解析结果如表9所示:
表9
步骤S432,对第二类型子字符串和本体词典中的每个本体进行第二维度的解析,得到 第二类型子字符串的各第二维度解析结果,以及本体词典中每个本体的各第二维度解析结 果。
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行预设 维度的解析可以包括但不限于:
(1)确定解析对象中的每个汉字;
(2)确定解析对象中每个汉字的声母;
(3)确定解析对象中每个汉字的韵母;
(4)确定解析对象的首字符;
(5)确定解析对象的首字符的拼音;以及,
(6)确定解析对象中的非汉字字符,如果其中不包含非汉字字符,则该项解析结果 为空。
当解析对象为第二类型子字符串时,其各个维度的解析结果可以包括但不限于:第二 类型子字符串中的每个汉字、第二类型子字符串中每个汉字的声母、第二类型子字符串中 每个汉字的韵母、第二类型子字符串的首字符、第二类型子字符串的首字符的拼音、第二 类型子字符串中的非汉字字符。
当解析对象为词条时,解析结果可以包括但不限于:词条中的每个汉字、词条中每个 汉字的声母、词条中每个汉字的韵母、词条的首字符、词条的首字符的拼音、词条的非汉 字字符。
例如,表10为第二类型子字符串“乳牙拔除术”的各第二维度解析结果。
表10
步骤S433,基于第二类型子字符串的若干第二维度解析结果,以及本体的若干第二维 度解析结果,计算第二类型子字符串与每个本体的匹配程度。
具体地,该步骤可以按照实施例三计算第二类型子字符串与每个本体的相似度,也可 以按照实施例四计算第二类型子字符串与每个本体的总置信度。其中,相比于相似度,总 置信度更能体现第二类型子字符串与每个本体的匹配程度,但是总置信度的计算过程相比 于相似度的计算过程也更复杂。具体实施该步骤S433时,若需要较快的处理速度,则可以 选择实施例三中计算相似度的过程,若需要更准确的匹配结果,则可以选择实施例四中计 算总置信度的过程。以下分别以实施例三和实施例四说明该步骤S433的两种具体实施方 式。
步骤S434,根据第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为 第二类型子字符串相匹配的本体。
可选地,该步骤可以有如下的具体实施方式:按照与第二类型子字符串的匹配程度的 大小对全部本体排序,并将其中排序靠前的预设数量(例如排序靠前的2个)的本体确定 为第二类型子字符串相匹配的本体;或者,将与第二类型子字符串的匹配程度达到预设阈 值的一个或多个本体,确定为第二类型子字符串相匹配的本体。
具体实施本发明时,为了明确第二类型子字符串与每一个相匹配的本体的匹配程度并 对其加以利用,还可以在最终输出的结果中还可以包括第二类型子字符串与其相匹配的各 个本体的匹配程度。例如,输出第二类型子字符串与各个相匹配的本体的匹配程度,然后 可以根据匹配程度的大小,通过人工方式从中再选出一个作为第二类型子字符串相匹配的 本体。
实施例三
本实施例为实施例二中步骤S433的一具体实施方式示例。
本实施例中,按照如下公式计算第二类型子字符串与每个本体的相似度,并将计算得 到的相似度确定为第二类型子字符串与各个本体的匹配程度:
其中,M表示相似度;
t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
tinq表示第二类型子字符串的各第二维度;
d表示本体;
tf(tind)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体 的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结 果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子。
实施例四
本实施例为实施例二中步骤S433的另一具体实施方式示例。
本实施例中,按照如下过程计算第二类型子字符串与每个本体的总置信度,并将计算 得到的总置信度确定为第二类型子字符串与各个本体的匹配程度:
1)确定第二类型子字符串中的每个汉字。
2)按照如下公式计算第二类型子字符串与其相匹配的各个本体的余弦置信度:
其中,N表示余弦置信度;
V表示第二类型子字符串及其相匹配的本体所包含的汉字总数;
Q表示第二类型子字符串;
d'表示与第二类型子字符串相匹配的本体;
wQ,j表示每个汉字在第二类型子字符串中出现的频次;
wd',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次;
j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号。
3)按照如下公式计算第二类型子字符串与其相匹配的各个本体的总置信度:
S=M×a+N×b
其中,S表示总置信度;
M表示相似度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值;
并且,相似度M按照如下公式计算:
其中,t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
tinq表示第二类型子字符串的各第二维度;
d表示本体;
tf(tind)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体 的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结 果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子。
本发明充分考虑了医疗从业人员输入的中文医疗服务项目信息属于自然语言、格式复 杂多样、没有统一的标准等特点,利用预先依据医疗领域的通用标准所建立的多种词典对 中文医疗服务项目信息字符串进行切分和匹配,以此将医疗服务项目名称识别出来,并根 据识别结果对其编码。此外,本发明还根据切分出的子字符串能否与本体直接匹配,输出 中文医疗服务项目信息的精确编码或模糊编码。本发明实现了对属于自然语言的中文医疗 服务项目信息的准确识别及编码,识别结果及编码结果具有较高的准确率,为利用中文医 疗服务项目信息进行医疗服务价格项目结算提供了便利。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施 方式的、用于中文医疗服务项目信息的自动编码系统,包括:
词典数据库51,用于提供本体词典、方位词典和等级词典;其中,
本体词典包括若干本体以及本体一一对应的编码,本体为标准术语或扩充术语;标准 术语为全国医疗服务价格项目规范中规定的项目名称;扩充术语为与标准术语具有同义关 系的词语或具有属种关系的词语;其中,标准术语对应的编码为全国医疗服务价格项目规 范中规定的项目编码;扩充术语与具有同义关系或属种关系的标准术语对应的编码一致;
方位词典包括若干方位术语,方位术语是用于描述医疗服务项目所针对的方位的词 语;
等级词典包括若干等级术语,等级术语是用于描述医疗服务项目的级别、类型的词语;
输入模块52,用于输入中文医疗服务项目信息字符串;
预处理模块53,用于对中文医疗服务项目信息字符串进行预处理,得到预处理后的中 文医疗服务项目信息字符串;
切分模块54,用于基于本体词典、方位词典、等级词典,将预处理后的中文医疗服务 项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,第一类型子字符串和第二类型子字符串所表示的医疗服务项目信息不受其在中 文医疗服务项目信息字符串中所在位置之前或之后的字符影响,且第一类型子字符串能够 与本体词典中的本体直接匹配,第二类型子字符串不能够与本体词典中的本体直接匹配;
输出模块55,用于将第一类型子字符串相匹配的本体的编码确定为中文医疗服务项目 信息字符串的精确编码,并输出精确编码。
本发明示例性实施方式的中文医疗服务项目信息的自动编码系统与本发明示例性实 施方式的中文医疗服务项目信息的自动编码方法基于相同的发明思想实现,其具体实施方 式可参照前述对中文医疗服务项目信息的自动编码方法的介绍,此处不再赘述。
应当注意,尽管在上文详细描述中提及了中文医疗服务项目信息的自动编码系统的若 干模块,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的 两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特 征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗 示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结 果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个 步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明 并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合 以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围 内所包括的各种修改和等同布置。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说 明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护 范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明的保护范围之内。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为 清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软 件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的 应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保 护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理 器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置, 离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。 通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、 微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微 处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类 似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模 块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM 存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形 式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介 中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处 理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存 储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、 固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒 介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑 存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是 任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不 限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置, 或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或 特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读 媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光 纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被 包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射 盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光 学复制数据。上述的组合也可以包含在电脑可读媒介中。
机译: 项目信息自动分配系统,项目信息自动分配程序和项目信息自动分配方法
机译: 基于中文意念的中文编码方法和系统以及中型设备
机译: 自动数据编码方法,实现一种这样的编码方法的文档生成方法以及使用所述方法的系统