首页> 中国专利> 基于原发性肝癌大数据的数据分析方法及存储介质

基于原发性肝癌大数据的数据分析方法及存储介质

摘要

本申请涉及大数据处理技术领域,具体涉及基于原发性肝癌大数据的数据分析方法及存储介质。本申请方法包括以下步骤:从电子病历系统、影像采集与输出系统以及检查信息系统获取分析数据;对人口信息进行预处理得到患者索引编号信息;对影像报告进行预处理并进行结构化分析处理获取结节属性;对检验报告进行预处理得到甲胎蛋白检验数据;将患者索引编号信息、影像报告以及甲胎蛋白检验数据汇总得到汇总数据;根据预设规则对汇总数据进行分析得到患者的病情分析结果。本发明技术方案抽取不同系统中的数据进行规整和统一,筛选出关键指标信息,根据预先设置的规则,对患者肝细胞癌病情分析并给出诊疗建议,既能提高工作效率又可以提高诊断的准确性。

著录项

说明书

技术领域

本申请涉及大数据处理技术领域,具体涉及基于原发性肝癌大数据的数据分析方法及存储介质。

背景技术

肝细胞癌(肝癌)是我国排名第4位常见的恶性肿瘤,病死率位居恶性肿瘤第2位。手术切除是肝癌首选治疗方法,但肝癌患者早期通常无任何异常临床表现,确诊时往往已发展至中晚期,仅15%-30%患者能够行根治性手术治疗。对肝癌高危人群进行筛查,有助于肝癌的早期发现、早期诊断、早期治疗,是提高肝癌疗效的关键。我国肝癌高危人群包括乙型肝炎病毒(Hepatitis B virus,HBV)和(或)丙型肝炎病毒(Hepatitis C virus,HCV)感染、过度饮酒、非酒精性脂肪性肝炎及各种其他原因引起的肝硬化等人群,数量超过1亿。为提高肝癌早期诊断率,《原发性肝癌诊疗规范(2019年版)》对肝癌高危人群的筛查流程进行了规范。

然而,当肝癌高危患者就诊其他科室时,非肝脏专科医师对肝癌筛查流程及诊断标准存在不同程度的认识不足。同样,基层医生因知识更新渠道缺乏、对专科疾病诊疗经验不足等原因,可能在肝癌患者的筛查及诊断过程出现误差,影响患者早期诊断。此外,面对数量不断增长的肝癌高危人群,肝病专科医生工作压力大。

随着大数据相关技术的飞速发展,人工智能创新技术与肝癌规范诊断路径相互融合,基于原发性肝癌大数据平台(primary liver cancer big data,PLCBD)对肝癌病理数据进行自动化分析,研究一种肝癌筛查效率高效、分析结果精准的分析模型作为辅助诊疗工具是提高肝癌疗效亟需解决的问题。

发明内容

本发明的目的之一在于提供基于原发性肝癌大数据的数据分析方法及存储介质,依托原发性肝癌大数据平台,对电子病历系统、影像系统、检验系统资料的实时抓取并规范化处理,获取肝癌诊断所需指标,实现肝癌自动化筛查及分析。

为了解决上述技术问题,本发明提供了基于原发性肝癌大数据的数据分析方法,包括以下步骤:

步骤1、从电子病历系统、影像采集与输出系统以及实验室检查信息系统获取分析数据;所述分析数据包括人口信息、临床就诊信息、检验报告、影像报告;所述人口信息包括门诊人口信息和住院人口信息;

步骤2、对门诊人口信息和住院人口信息进行预处理得到患者唯一索引编号信息;

步骤3、对所述影像报告进行预处理;所述影像报告包括超声报告、CT报告、磁共振报告、普美显磁共振报告;

步骤4、对所述影像报告进行结构化分析处理获取结节属性;所述结节属性包括结节性质、结节特征以及结节大小;

步骤5、对所述检验报告进行预处理得到甲胎蛋白检验数据;

步骤6、将所述患者索引编号信息、所述影像报告以及所述甲胎蛋白检验数据进行汇总得到汇总数据;

步骤7、根据预设规则对所述汇总数据进行分析得到每个患者的病情分析结果。

进一步地,所述对门诊人口信息和住院人口信息进行预处理得到患者索引编号信息,包括以下步骤:

步骤21、对所述门诊人口信息以及所述住院人口信息进行数据校验;

步骤22、将所述门诊人口信息以及所述住院人口信息进行合并并过滤重复数据;

步骤23、采用Hash算法为每个患者创建唯一索引号;

步骤24、将患者的唯一索引号与临床就诊信息关联形成患者索引编号信息。

进一步地,所述对所述影像报告进行预处理,包括以下步骤:

步骤31、对所述影像报告中的错误数据进行清理;

步骤32、对所述影像报告中的数据进行筛选过滤;

步骤33、根据所述影像报告的扫描方式,将所述影像报告拆分为超声报告、CT报告、磁共振报告、普美显磁共振报告。

进一步地,所述对所述影像报告进行结构化分析处理获取结节属性,包括以下步骤:

步骤41、从所述影像报告的检查结论中分析出结节性质以及结节特征;

步骤42、从所述影像报告的检查所见中分析出结节大小;

步骤43、将所述结节性质、所述结节特征与所述结节大小关联并保存至所述影像报告中。

进一步地,所述对所述检验报告进行预处理得到甲胎蛋白检验数据,包括以下步骤:

步骤51、对所述检验报告中的错误数据进行清理;

步骤52、对所述检验报告中的数据进行筛选过滤出甲胎蛋白检验数据;

进一步地,所述根据预设规则对所述汇总数据进行分析得到每个患者的病情分析结果,包括以下步骤:

步骤701、判断患者是否有影像数据,若有则执行步骤702,否则,跳转至步骤703继续执行;

步骤702、根据影像数据的结节性质判断是否有实性结节,若有,则跳转至步骤709继续执行,否则跳转至步骤704继续执行;

步骤703、设置分析结果为建议患者进行超声检查,跳转至步骤722继续执行;

步骤704、判断甲胎蛋白检测结果是否为阳性,若是,则执行步骤705,否则跳转至步骤708继续执行;

步骤705、判断MRI影像与CT影像是否都已经完成,若是执行步骤706,否则跳转至步骤707继续执行;

步骤706、设置分析结果为建议患者进行2-3个月甲胎蛋白检测及影像随访,跳转至步骤722继续执行;

步骤707、设置分析结果为建议患者完成MRI影像与CT影像后复查,跳转至步骤722继续执行;

步骤708、设置分析结果为建议患者进行6个月随访,跳转指步骤722继续执行;

步骤709、统计所有影像结节的最大直径,若结节的最大直径大于2厘米,则执行步骤710,否则执行步骤713;

步骤710、计算患者存在肝癌典型特征的影像检查总数,若总数大于或等于1项,则执行步骤711,否则执行步骤712;

步骤711、设置分析结果为原发性肝癌,跳转至步骤722继续执行;

步骤712、统计患者结节良性特征的总数,跳转至步骤714继续执行;

步骤713、计算患者存在肝癌典型特征的影像检查总数,若总数大于或等于2项,则跳转至步骤711继续执行,否则,跳转至步骤712继续执行;

步骤714、判断良性肿瘤特征数量是否大于或等于1项,是则执行步骤715,否则执行步骤716;

步骤715、设置分析结果为良性肿瘤,建议患者每隔6个月进行1次超声及血清AFP检测,跳转至步骤722继续执行;

步骤716、判断增强MRI检查是否完成,若未完成,执行步骤717,否则执行步骤718;

步骤717、设置分析结果为建议患者进行增强MRI检查,跳转至步骤722继续执行;

步骤718、判断超声造影检查是否完成,若已完成,执行步骤719,否则执行步骤721;

步骤719、判断EOB-MRI检查是否完成,若已完成,执行步骤706,否则执行步骤720;

步骤720、设置分析结果为建议患者进行普美显检查,跳转至步骤722继续执行;

步骤721、设置分析结果为建议患者进行超声造影检查,跳转至步骤722继续执行;

步骤722、返回分析结果,结束分析流程。

进一步地,所述的基于原发性肝癌大数据的数据分析方法,包括以下步骤:

步骤8、将所述病情分析结果展示在终端界面上。

相应地,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1-7中任一项基于原发性肝癌大数据的数据分析方法的步骤。

区别于现有技术,本发明技术方案的有益效果有:

1.抽取患者分散在不同系统中的数据,并对数据进行规整和统一,筛选出后续分析所需的关键指标信息建立起原发性肝癌大数据平台,为肝细胞癌自动化分析提供完善而准确无误的原始数据。

2.根据预先设置的分析判断规则,能够基于所创建的原发性肝癌发数据平台,高效自动化地进行每个患者肝细胞癌病情分析并给出诊疗引导建议,辅助医生进行肝癌的治疗诊断,既能提高工作效率又可以提高诊断的准确性。

附图说明

图1是本发明基于原发性肝癌大数据的数据分析方法步骤流程图。

图2是本发明对门诊人口信息和住院人口信息进行预处理得到患者索引编号信息的步骤流程图。

图3是本发明对所述影像报告进行预处理步骤流程图。

图4是本发明对所述影像报告进行结构化分析处理获取结节属性步骤流程图。

图5是本发明对所述检验报告进行预处理得到甲胎蛋白检验数据步骤流程图。

图6是本发明根据预设规则对所述汇总数据进行分析得到每个患者的病情分析结果步骤流程图。

图7是本发明病情分析结果展示示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,是本发明基于原发性肝癌大数据的数据分析方法步骤流程图,包括以下步骤:

步骤1、从电子病历系统、影像采集与输出系统以及实验室检查信息系统获取分析数据;这里的分析数据包括人口信息、临床就诊信息、检验报告、影像报告。所述人口信息包括门诊人口信息和住院人口信息。

在医疗信息系统中,患者的数据通常分散在不同的子系统中,例如,患者门诊信息在电子病历系统EMR中,患者做各种影像检查的数据存储在影像采集与输出系统PACS中,患者做各种化验的数据存储在验室检查信息系统LIS中,要利用这些数据进行分析首先要将这些分散在不同系统的数据抽取到统一平台,通常的步骤包括:1.先获取电子病历系统EMR、影像采集与输出系统PACS、实验室检查信息系统LIS的数据库账号或热备数据库账号,并赋予该账号对人口信息、临床就诊信息、检验报告、影像报告的访问权限。2.构建与源数据库类型相同的数据库系统(即目标数据库),将所需数据通过结构化查询语言SQL的CREATE TABLE AS SELECT(以下简称为CTAS)创建本地备份表。优选的,为了避免对业务系统的影响,将限制创建临时表的查询频率与时间访问限制。数据查询备份频率默认为30分钟更新,除人口信息外的数据查询时间范围限制为180天内。3.当不同数据库之间的数据类型存在差异,查询时无法读取的数据类型,使用数据类型转换函数CONVERT进行格式转换,保证数据在数据库同步时内容不丢失。4.利用数据库同步技术,例如Oracle GateWay、Oracle GoldenGate、ODBC等,将不同类型的数据库包括SQL Server,MySQL等,实现在目标数据库系统上的统一查询。5.采用CTAS方法,在目标数据库上创建人口信息、临床就诊信息、检验报告、影像报告的数据备份表。

步骤2、对门诊人口信息和住院人口信息进行预处理得到患者唯一索引编号信息;如图2所示,是本发明对门诊人口信息和住院人口信息进行预处理得到患者索引编号信息的步骤流程图,包括以下几个步骤:

步骤21、对所述门诊人口信息以及所述住院人口信息进行数据校验;

为了保证患者信息的准确性,避免后续分析过程产生各种异常问题,需要对门诊人口信息以及所述住院人口信息进行数据校验,过滤掉其中不正常的数据。具体地,针对人口信息的关键信息处理通常包括:姓名处理,将数字、空格、特殊字符进行清空;生日处理,将字符串格式日期利用to_date函数转换为统一的日期格式,若无法转换类型则标注为异常,将生日小于1900年或大于当前日期的记录标记为异常;性别处理,对数字类型的性别转义为男或女,无法转义的其他类型标记为异常;身份证处理,身份应该满足15位和18位身份证号码,满足地址编码、出身日期、校验位校验,若身份证信息为空或不符合校验机制,将该记录标记为异常;就诊编号处理,将不符合就诊编号格式规范的数据标记为异常;校验病人性别、生日与身份证是否一致,若存在冲突,以身份证信息为主,并记录异常;异常处理,将标记为异常的字段清空,保留该记录的其他字段;重复的个人信息处理,利用字段的相似度匹配方法(Smith-Waterman算法,编辑距离、Cosine相似度函数),对重复人口信息进行排序和合并。通过上述一系列的处理之后,得到的门诊人口信息表和住院人口信息表,其内容包括就诊编号(门诊号、住院号)、姓名、生日、性别、生日、身份证、就诊医院、就诊类型等。

步骤22、将所述门诊人口信息以及所述住院人口信息进行合并并过滤重复数据;通常,采用数据库SQL的联合查询UNION ALL将门诊人口信息表和住院人口信息表进行合并。同时,对合并之后存在的重复数据进行处理,将数据库中的记录排序,然后通过比较邻近记录是否相似来检测记录是否重复,利用消除重复记录的算法(优先队列算法、近邻排序算法、多趟近邻排序等)或模糊匹配的策略,对姓名、身份证、性别、生日相同的病人进行个人信息合并。

步骤23、采用Hash算法为每个患者创建唯一索引号;

在不同的医疗子系统中,使用的主索引各有不同,比如无法用住院号查询病人在门诊做的实验室检查。因此,在本发明的实施例中,需要通过建立主索引作为病人唯一的标识,将病人在不同的信息化系统的数据库有效地关联在一起,保证了病人在各个医疗信息系统中个人信息的一致性,以及门诊或住院期间信息共享。具体实现上,将人口信息用Hash算法创建病人主索引(Enterprise Master PatientIndex,简称EMPI)。

步骤24、将患者的唯一索引号与临床就诊信息关联形成患者索引编号信息,其内容包括EMPI、就诊编号、姓名、身份证、性别、生日、入院日期。

步骤3、对所述影像报告进行预处理;所述影像报告包括超声报告、CT报告、磁共振报告、普美显磁共振报告;如图3,是本发明对所述影像报告进行预处理步骤流程图,包括以下步骤:

步骤31、对所述影像报告中的错误数据进行清理;例如,错误数据处理包括清除关键信息缺失的记录,关键信息包括影像索引、检查日期、影像所见、影像诊断、扫描方式、扫描部位。又如,根据影像报告格式规则,删除各字段中标本描述不一致的记录。

步骤32、对所述影像报告中的数据进行筛选过滤;根据需要对影像报告中的数据进行筛选过滤减少数据量,提高后续分析效率和准确性。例如,根据肝癌诊断的影像有效期要求,筛选检查日期在30天内影像报告;针对扫描部位进行筛选,筛选扫描部位为腹部的影像报告,其他部位的影像报告剔除。又如,针对扫描方式进行筛选,先判断超声影像是否为超声造影CEUS,CT影像是否为增强CT扫描,磁共振影像是否为增强磁共振扫描,再对影像记录进行排序,将各类型的影像报告按照扫描方式的优先顺序进行筛选,顺序为:超声造影CEUS优先于普通超声,增强CT优先于普通CT,增强MRI优先于普通MRI;若同种类型的影像报告存在多条记录时,根据扫描日期选择最近的一次影像报告。

步骤33、根据所述影像报告的扫描方式,将所述影像报告拆分为超声报告、CT报告、磁共振报告、普美显磁共振报告。

步骤4、对所述影像报告进行结构化分析处理获取结节属性;所述结节属性包括结节性质、结节特征以及结节大小;如图4,是本发明对所述影像报告进行结构化分析处理获取结节属性步骤流程图,包括以下步骤:

步骤41、从所述影像报告的检查结论中分析出结节性质以及结节特征;由于影像报告的检查结论中,包含了医生对影像的分析结果文字描述,本申请的方法需要从每个患者的影像报告结论文字中提取出关键信息用于后续的分析。具体的提取方式为:先对检查结论中内容进行语法分句;再利用ICD10(国际疾病分类编码)中的部位词库,对每个分句中描述的部位进行判断,筛选出与肝相关的语句;利用关键字,排除包含术后治疗的分句,这里的关键字包括切除、术后、介入、TACE、射频、消融、综合治疗、放疗、术后改变;利用关键字,匹配分句中包含结节性质的分句,这里的关键字包括MT、肝细胞癌、肝癌、HCC、恶性、ICC、复发、异常强化灶、异常强化影、再发、囊肿、结节、病灶;根据分句中的结节性质关键词,将结节性质分为囊性、实性。若没有匹配关键词,结节性质为无;同时将结节特征分为典型肝癌、不典型、良性肿瘤。

步骤42、从所述影像报告的检查所见中分析出结节大小;具体方式为:对检查所见中内容进行分句;利用ICD10中的部位词库,对每个分句中描述的部位进行判断,筛选出与肝相关的语句;利用关键字,匹配分句中包含结节描述的分句,这里的关键字包括密度影、结节影、回声、强化灶、强化影、异常信号、信号影、快进快出等;利用正则表达式,在有结节描述的分句中提取长宽数字,如果有多个数字则保留最大值。

步骤43、将所述结节性质、所述结节特征与所述结节大小关联并保存至所述影像报告中。具体方式为:筛选检查结论中包含实性结节的语句,提取其结节描述关键字;将结节描述关键字与检查所见中的结节描述关键字进行匹配,使检查结论的分句与检查所见的分句一一对应;关联完成后,得到结节的大小;若有多个结节,则在所有结节大小中取最大值;将分析出的每个患者影像报告的结节性质、结节特征以及结节大小分别增加到超声报告、CT报告、磁共振报告、普美显磁共振报告中,以便后续的分析过程直接使用。

步骤5、对所述检验报告进行预处理得到甲胎蛋白检验数据;如图5,是本发明对所述检验报告进行预处理得到甲胎蛋白检验数据步骤流程图,包括以下步骤:

步骤51、对所述检验报告中的错误数据进行清理;具体地,检验报告逻辑错误数据处理包括:清除关键信息缺失的记录,关键信息包括送检日期、检验样本、检验名称、检验报告日期、检验结果、检验参考范围、检验单位。又如,根据检验报告格式规则,删除各字段中逻辑错误的记录。

步骤52、对所述检验报告中的数据进行筛选过滤出甲胎蛋白检验数据;其中,数据进行筛选过滤通常包括以下几种方式:检验数据筛选,根据检验报告的检验名称,检索出检验名称为甲胎蛋白,检验样本为血清的记录,其余检验数据剔除;时间范围处理,根据肝癌诊断的有效期要求,筛选检查日期在30天内的甲胎蛋白检验报告;检验日期筛选,若同一患者有多条检验记录,则按检验日期进行倒序排序,选择最近的一次检验报告。通过上述方式处理之后,得到甲胎蛋白检验数据,数据关键内容包括EMPI、就诊编号、甲胎蛋白_检验结果、甲胎蛋白_检验日期、甲胎蛋白_检验单位、甲胎蛋白_参考范围。

步骤6、将所述患者索引编号信息、所述影像报告以及所述甲胎蛋白检验数据进行汇总得到汇总数据;具体地,将患者索引编号信息与影像报告以及所述甲胎蛋白检验数据通过就诊编号进行关联,生成完整的汇总数据。这样,通过汇总数据既可以查询患者唯一索引编号EMPI等基本信息,又能查询到患者各类影像报告的扫描方式、占位性质、结节特征、结节大小信息,还可以查询到甲胎蛋白_检验结果、甲胎蛋白_检验日期、甲胎蛋白_检验单位、甲胎蛋白_参考范围等关键信息。

到该步骤为止,本发明的方法抽取患者分散在不同系统中的数据,并对数据进行规整和统一,筛选出后续分析所需的关键指标信息建立起原发性肝癌大数据平台,为肝细胞癌自动化分析提供完善而准确无误的原始数据。

步骤7、根据预设规则对所述汇总数据进行分析得到每个患者的病情分析结果。如图6,是本发明根据预设规则对所述汇总数据进行分析得到每个患者的病情分析结果步骤流程图,包括以下步骤:

步骤701、判断患者是否有影像数据,若有则执行步骤702,否则,跳转至步骤703继续执行;

步骤702、根据影像数据的结节性质判断是否有实性结节,若有,则跳转至步骤709继续执行,否则跳转至步骤704继续执行;

步骤703、设置分析结果为建议患者进行超声检查,跳转至步骤722继续执行;

步骤704、判断甲胎蛋白检测结果是否为阳性,若是,则执行步骤705,否则跳转至步骤708继续执行;

步骤705、判断MRI影像与CT影像是否都已经完成,若是执行步骤706,否则跳转至步骤707继续执行;

步骤706、设置分析结果为建议患者进行2-3个月甲胎蛋白检测及影像随访,跳转至步骤722继续执行;

步骤707、设置分析结果为建议患者完成MRI影像与CT影像后复查,跳转至步骤722继续执行;

步骤708、设置分析结果为建议患者进行6个月随访,跳转指步骤722继续执行;

步骤709、统计所有影像结节的最大直径,若结节的最大直径大于2厘米,则执行步骤710,否则执行步骤713;

步骤710、计算患者存在肝癌典型特征的影像检查总数,若总数大于或等于1项,则执行步骤711,否则执行步骤712;

步骤711、设置分析结果为原发性肝癌,跳转至步骤722继续执行;

步骤712、统计患者结节良性特征的总数,跳转至步骤714继续执行;

步骤713、计算患者存在肝癌典型特征的影像检查总数,若总数大于或等于2项,则跳转至步骤711继续执行,否则,跳转至步骤712继续执行;

步骤714、判断良性肿瘤特征数量是否大于或等于1项,是则执行步骤715,否则执行步骤716;

步骤715、设置分析结果为良性肿瘤,建议患者每隔6个月进行1次超声及血清AFP检测,跳转至步骤722继续执行;

步骤716、判断增强MRI检查是否完成,若未完成,执行步骤717,否则执行步骤718;

步骤717、设置分析结果为建议患者进行增强MRI检查,跳转至步骤722继续执行;

步骤718、判断超声造影检查是否完成,若已完成,执行步骤719,否则执行步骤721;

步骤719、判断EOB-MRI检查是否完成,若已完成,执行步骤706,否则执行步骤720;

步骤720、设置分析结果为建议患者进行普美显检查,跳转至步骤722继续执行;

步骤721、设置分析结果为建议患者进行超声造影检查,跳转至步骤722继续执行;

步骤722、返回分析结果,结束分析流程。

本申请的技术方案,根据预先设置的分析判断规则,能够基于所创建的原发性肝癌发数据平台,高效自动化地进行每个患者肝细胞癌病情分析并给出诊疗引导建议,辅助医生进行肝癌的诊断治疗,既能提高工作效率又可以提高诊断的准确性。

优选地,在得到上述分析结果的基础上,为方便医护人员以及患者进行查询,本申请所述的基于原发性肝癌大数据的数据分析方法,还可以包括以下步骤:

步骤8、将所述病情分析结果展示在终端界面上,展示界面如图7所示。

在一优选的实施例中,本申请的技术方案还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项基于原发性肝癌大数据的数据分析方法的步骤。

上述具体实施方式只是对本发明的技术方案进行详细解释,本发明并不只仅仅局限于上述实施例,凡是依据本发明原理的任何改进或替换,均应在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号