公开/公告号CN116206754A
专利类型发明专利
公开/公告日2023-06-02
原文格式PDF
申请/专利权人 四川大学华西医院;
申请/专利号CN202310249998.8
申请日2023-03-15
分类号G16H50/20(2018.01);G06F16/33(2019.01);G06F16/35(2019.01);G06F40/289(2020.01);G06F18/241(2023.01);G06N3/045(2023.01);G06N3/08(2023.01);
代理机构成都高远知识产权代理事务所(普通合伙) 51222;成都高远知识产权代理事务所(普通合伙) 51222;
代理人郑勇力;张娟
地址 610000 四川省成都市武侯区国学巷37号
入库时间 2023-06-19 19:00:48
法律状态公告日
法律状态信息
法律状态
2023-08-11
实质审查的生效 IPC(主分类):G16H50/20 专利申请号:2023102499988 申请日:20230315
实质审查的生效
2023-06-02
公开
发明专利申请公布
技术领域
本发明属于医疗数据结构化技术领域,具体涉及一种出生缺陷诊断标准化方法和系统。
背景技术
随着各大医院信息化的普及,大量非结构化的文本数据也飞速增长,如何将非结构化文本数据结构化以供医院进行各类分析、研究已经成为一个亟待解决的问题。然而,文本的非结构化到结构化中关键的一门技术则是诊断的标准化,医院每时每刻都能产生大量的诊断文本,如何高效地将这些文本通过一个统一的规则(如ICD-10)编码,是解决医学文本非结构化到结构化数据的桥梁。出生缺陷指胚胎或者胎儿在发育过程中所发生的结构或者功能代谢的异常。然而出生缺陷诊断具有多来源、多是自由字段等特点。自由字段内容描述差异大,且多为超声字段,则更多的需要将其统一规则(如ICD-10),标准化成为标准字段以供文本信息结构化。
现有技术方案:现有的诊断标准化识别算法可以分为如下两类;
1、基于规则的匹配方法,即将原始诊断文本和标准化诊断文本进行文本匹配,以此来进行诊断标准化,此方法的缺点是泛化能力不够强,仅仅只能识别原始诊断和标准化诊断匹配的部分,处理完依然会留下大量的非匹配的原始文本进行人工核对,准确率、效率均较低。
2、基于有监督学习句子语义匹配的方法:即将原始诊断看作一个句子,将标准化诊断看作另外一个句子,构造<原始句子,其对应标准化句子>这样的句子对作为正例,<原始句子,其非对应的标准化句子>作为负例,然后利用有监督的机器学习方法来学习两类句子之间的关系,以便模型可以区分出对应原始诊断的标准诊断,达到诊断标准化的目的。此类方法的缺点是需要大量的标注句子对作为训练数据,需要大量的专业人员来标注训练数据,浪费了大量的人力。
总之,现有的诊断标准化识别算法要么泛化能力不足、准确率和效率低,要么在模型训练阶段需要大量的标注工作,人工工作量大。因而如何改进诊断标准化识别算法实现无监督学习的诊断标准化模型,兼顾识别泛化能力、识别效率和降低人工工作量,这仍然是本领域的重要课题。
发明内容
针对现有技术的问题,本发明提供一种出生缺陷诊断标准化方法和系统,通过设计一种无监督学习的诊断标准化模型,实现了泛化能力强、准确、高效和无需大量人工标注数据的出生缺陷诊断标准化方法和系统。
一种出生缺陷诊断标准化方法,包括如下步骤:
步骤1,输入原始诊断文本,进行诊断分词,获得有单个诊断构成的诊断集合;
步骤2,将所述诊断集合输入Con-BERT模型,得到诊断标准化识别结果;
其中,在所述Con-BERT模型的训练过程中,通过数据增强层和编码层获得诊断的正负例对表达。
优选的,所述Con-BERT模型包括出生缺陷诊断MAP库,所述出生缺陷诊断MAP库根据《中国出生缺陷监测系统》构建。
优选的,步骤1中,所述诊断分词采用基于python开源的jieba分词系统实现。
优选的,所述Con-BERT模型的训练过程包括如下步骤:
步骤a,输入诊断集合到模型的Embeding Layer中产生诊断数值化表达S
步骤b,将诊断数值化表达S
步骤c,将样本对送入模型的BERT编码层进行编码,获得诊断正负例对表达;
步骤d,构造InfoNCE损失函数
优选的,还包括如下步骤:
步骤3,将所述诊断标准化识别结果与ICD-10词典中的标准诊断进行匹配,若完全匹配直接召回,若不完全匹配则进行下一步骤;
步骤4,设置诊断置信度阈值,根据所述Con-BERT模型输出的诊断标准化置信度进行判断,取置信度高于阈值者进行召回;
步骤5,收集步骤3和步骤4中召回的标准化诊断,形成标准化诊断文档。
优选的,步骤3中,所述匹配的方法为标准正则匹配。
本发明还提供用于实现上述出生缺陷诊断标准化方法的系统,其特征在于,包括:
输入模块,用于输入原始诊断文本;
诊断分词模块,用于进行诊断分词,获得有单个诊断构成的诊断集合;
诊断标准化识别模块,用于将所述诊断集合输入Con-BERT模型,得到诊断标准化识别结果;
输出模块,用于输出诊断标准化识别结果。
优选的,还包括:
模型训练模块,用于进行所述Con-BERT模型的训练。
优选的,还包括:
标准化诊断文档输出模块,用于执行如下步骤:
将所述诊断标准化识别结果与ICD-10词典中的标准诊断进行匹配,若完全匹配直接召回,若不完全匹配则进行下一步骤;
设置诊断置信度阈值,根据所述Con-BERT模型输出的诊断标准化置信度进行判断,取置信度高于阈值者进行召回;
收集召回的标准化诊断,形成标准化诊断文档。
本发明还提供一种计算机可读存储介质,其上存储有:用于实现上述出生缺陷诊断标准化方法或系统的计算机程序。
本发明将Con-BERT模型用于出生缺陷诊断标准化的识别中,通过无监督学习的模型训练过程,在不需要标注数据或者仅需要少量的标注数据的情况下,使得模型获得较强的泛化能力。在优选方案中,本发明根据《中国出生缺陷监测系统》构建了一个出生缺陷诊断MAP库,用来映射一些杂难自由词到标准化诊断,并且用这个出生缺陷诊断MAP库作为Con-BERT模型的链接库(类似机器翻译领域的外部词典),加强了模型的泛化能力。本发明的方法具有泛化能力强、准确、高效和无需大量人工标注数据的优点,具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明实施例1的流程示意图;
图2为本发明实施例1的对比学习算法示意图;
图3为本发明实施例1的模型架构图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1出生缺陷诊断标准化方法和系统
本实施例提供的系统包括:
输入模块,用于输入原始诊断文本;
诊断分词模块,用于进行诊断分词,获得有单个诊断构成的诊断集合;
诊断标准化识别模块,用于将所述诊断集合输入深度对比学习语义匹配算法(Con-BERT模型),得到诊断标准化识别结果;
输出模块,用于输出诊断标准化识别结果;
模型训练模块,用于进行所述Con-BERT模型的训练;
标准化诊断文档输出模块,用于执行如下步骤:
将所述诊断标准化识别结果与ICD-10词典中的标准诊断进行匹配,若完全匹配直接召回,若不完全匹配则进行下一步骤;
设置诊断置信度阈值,根据所述Con-BERT模型输出的诊断标准化置信度进行判断,取置信度高于阈值者进行召回;
收集召回的标准化诊断,形成标准化诊断文档。
因为孕产领域出生缺陷诊断存在不同部位的缺陷,因此本实施例根据《中国出生缺陷监测系统》构建了一个出生缺陷诊断MAP库,用来映射一些杂难自由词到标准化诊断,并且用这个出生缺陷诊断MAP库作为Con-BERT模型的链接库(类似机器翻译领域的外部词典),加强了模型的泛化能力。
通过本实施例的系统进行出生缺陷诊断标准化的方法步骤如图1所示,具体包括:
步骤1,获得出生缺陷数据库,此数据库是非结构化文本,从其中获得所有原始诊断文本。输入原始诊断文本,进行诊断分词,获得有单个诊断构成的诊断集合S=(s
步骤2,将所述诊断集合输入深度对比学习语义匹配算法(Con-BERT模型,模型示意图如图3所示),得到诊断标准化识别结果;
步骤3,将所述诊断标准化识别结果与ICD-10词典中的标准诊断进行匹配,所述匹配的方法为标准正则匹配方法。若完全匹配直接召回,若不完全匹配则进行下一步骤;
步骤4,设置诊断置信度阈值,根据所述Con-BERT模型输出的诊断标准化置信度进行判断,取置信度高于阈值者进行召回;
步骤5,收集步骤3和步骤4中召回的标准化诊断,形成标准化诊断文档。
所述Con-BERT模型的训练过程包括如下步骤:
步骤a,输入诊断集合到模型的Embeding Layer中产生诊断数值化表达S
步骤b,将诊断数值化表达S
步骤c,将样本对送入模型的BERT编码层进行编码,获得诊断正负例对表达,记为
步骤d,构造InfoNCE损失函数
下面通过实验对本发明的技术方案做进一步说明。
实验例1不同模型性能的比较
将实施例1的系统和方法与现有技术的对照组进行对比,应用于厦门市孕妇和子代登记数据库(REPRESENT)中。
具体的,现有技术的对照组是将本实施例的Con-BERT模型替换为BERT语义匹配模型。
对出生缺陷诊断标准化的性能如下表所示:
结果表明,实施例1的方法和系统在出生缺陷诊断标准化任务中具有更好的精确度、召回率和F1值,具有更好的性能。
通过上述实施例可以看到,本发明构建了一种基于深度对比语义匹配模型的出生缺陷诊断标准化方法和系统,具有泛化能力强、准确、高效和无需大量人工标注数据的优点,应用前景良好。
机译: 一种用于为患者扫描的解剖数据提供标准化位置的计算机实现的方法,一种用于对患者扫描的解剖数据执行标准化测量的计算机实现的方法,一种数据处理系统,和一种计算机可读介质
机译: 缺陷诊断系统,质量控制装置,缺陷诊断装置和缺陷诊断方法
机译: 确定编码人重组内切寡肽酶A(hEOPA)的信使RNA及其蛋白序列[AAF24516]的一级结构[AF217798]的方法;确定人EOPA基因的方法和产生人重组EOPA的方法;产生抗EOPA抗体的方法;用于确定hEOPA的生化和蛋白水解特性的合成底物的标准化和用途;充当EOPA催化活性或“可溶性受体”的寡肽以及鉴定和产生对EOPA相互作用能力具有抑制活性的抑制剂和抗体的方法;在中枢神经系统的先天性,传染性和退行性疾病中鉴定该蛋白的方法以及免疫学方法如何确定EOPA在过程中的作用用于诊断或治疗先天性,传染性和/或变性的免疫化学和/或酶促诊断方法中枢神经系统疾病