首页> 中国专利> 基于随机生存森林的肝癌术后复发预测方法、存储介质

基于随机生存森林的肝癌术后复发预测方法、存储介质

摘要

本发明提供基于随机生存森林的肝癌术后复发预测方法、存储介质,方法包括:获取各病例的临床资料和复发时间;预设入组维度包括病人基本因素、术前检验因素和术后病理因素;依据所述临床资料获取数据集,所述数据集由各病例对应的预设入组维度构成;依据数据集和各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型。本发明能够准确预测个体病患的肝癌术后复发概率,更好地确定术后关注度;有助于主动预防;特别是针对医疗机构,能够帮助医护人员准确地筛选出肝癌术后高危复发病人,有助于在复发早期进行干预,指导术后随访和治疗。

著录项

说明书

技术领域

本发明涉及生物信息学领域,具体涉及基于随机生存森林的肝癌术后复发预测方法、存储介质。

背景技术

原发性肝癌(以下简称肝癌)是我国最常见的恶性肿瘤之一,发病率居我国肿瘤发病率第四位,死亡率居我国肿瘤致死率第三位,肝癌严重威胁我国人民的生命和健康。目前,手术切除是肝癌根治治疗的主要手段,但是术后复发仍是导致肝癌术后死亡的重要原因。临床资料表明肝癌术后复发率约50%。复发一般以2年为界分为早期复发及晚期复发,早期复发数约占总复发数的70%。因此,利用各种方法对肝癌术后早期复发进行精准预测,筛选早期复发风险高的病人,在临床诊疗中提供适当的监测,以便在复发的早期阶段发现肿瘤,再次给予根治治疗,具有非常高的临床价值。

近年来,利用各类机器学习算法实现疾病风险预测,是医疗大数据领域的研究热点,各种复杂算法可以深度挖掘疾病变量间的相互关系,但是主流机器学习算法难以处理具有删失特征的医疗数据,因此依然具有一定偏差,准确率不高。

随机生存森林(RSF)是一种可以对右删失生存数据进行分析的随机森林方法。它引入了用于生长生存树的新生存分裂规则,以及用于估算缺失数据的新缺失数据算法,适合生存分析的应用。本申请目的在于基于随机生存森林建立肝癌术后早期复发预测模型的方法、存储介质,以获取更准确的疾病变量关系。

发明内容

本发明所要解决的技术问题是:提供基于随机生存森林的肝癌术后复发预测方法、存储介质,能够准确预测个体病患的肝癌术后复发概率,为术后关注度提供参考。

为了解决上述技术问题,本发明采用的技术方案为:

基于随机生存森林的肝癌术后复发预测方法,包括:

获取所述各病例的临床资料和复发时间;

预设入组维度包括病人基本因素、术前检验因素和术后病理因素;

依据所述临床资料获取数据集,所述数据集由各病例对应的预设入组维度构成;

依据数据集和各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型。

本发明提供的另一个技术方案为:

一种计算机可读存储介质,其上存储有计算机程序,所述程序在被处理器执行时,能够实现上述基于随机生存森林的肝癌术后复发预测方法所包含的步骤。

本发明的有益效果在于:本发明基于随机生存森林以及一定数量的历史复发病例的临床资料,创建得到肝癌术后早期复发预测模型,能够实现基于该模型对病人进行个体预测,获取其复发情况,有助于主动预防;特别是针对医疗机构,能够帮助医护人员准确地筛选出肝癌术后高危复发病人,有助于在复发早期进行干预,指导术后随访和治疗,从而提高治愈率。

附图说明

图1为本发明一实施例一种基于随机生存森林的肝癌术后复发预测方法的流程示意图;

图2为本发明实施例二一种基于随机生存森林的肝癌术后复发预测方法的流程示意图;

图3为本发明实施例五中的预测结果界面效果示例图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。

请参照图1,本发明提供基于随机生存森林的肝癌术后复发预测方法,包括:

获取所述各病例的临床资料和复发时间;

预设入组维度包括病人基本因素、术前检验因素和术后病理因素;

依据所述临床资料获取数据集,所述数据集由各病例对应的预设入组维度构成;

依据数据集和各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型。

从上述描述可知,本发明的有益效果在于:能够实现基于该模型对病人进行个体预测,获取其复发情况,有助于主动预防;特别是针对医疗机构,能够帮助医护人员准确地筛选出肝癌术后高危复发病人,有助于在复发早期进行干预,指导术后随访和治疗,从而提高治愈率。

进一步地,所述获取各病例的临床资料和复发时间,之前,还包括:

获取入组的各病例,所述各病例在术前肝功能评估正常、既往无恶性肿瘤病史、无邻近脏器侵犯及远处转移、进行过肝癌切除手术且术后病理证实为肝细胞癌,以及在术后复发。

从上述描述可知,依据上述条件确定合格的入组病例,能够显著提高模型的准确率。

进一步地,所述依据数据集和各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型,包括:

依据预设比例划分各病例,得到训练组病例和测试组病例;

依据所述训练组病例和测试组对所述数据集进行划分,得到训练组数据集和测试组数据集;

依据训练组数据集和训练组病例中各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型及其累计风险函数;

使用所述累计风险函数对训练组病例中的各个病例进行预测,得到危险分数集;

依据预设的比例划分所述危险分数集,得到分别对应低危复发组、中危复发组和高危复发组的风险分数范围。

由上述描述可知,还将设置测试组,依据模型获取各测试病例的风险分数;然后依据医学经验及规则划分出不同风险分组对应的分数范围,为后续快速地明确基于模型计算得到的风险分数所属的风险等级提供支持。

进一步地,还包括:

获取一病例的入组维度;

依据所述一病例的入组维度,通过所述肝癌术后早期复发预测模型计算得到所述一病例对应的危险分数;

依据计算得到的危险分数所属的风险分数范围,确定对应的风险分组;

输出所确定的风险分组。

由上述描述可知,能实现直接输出病例所属的风险分组,提供更为直观、易懂的预测结果。

进一步地,还包括:

将所述肝癌术后早期复发预测模型部署到服务器中,并生成对应的预测网页。

由上述描述可知,能够以网页形式提供预测功能,具有操作更简便、更节省流量和更少占用内存和资源等特点。

进一步地,还包括:

获取一病例的入组维度;

依据所述一病例的入组维度,通过所述肝癌术后早期复发预测模型计算得到所述一病例对应的复发情况。

由上述描述可知,直接输入病例的入组维度信息,便可快速得知其复发情况,为用户提供更为准确地预测功能。

进一步地,所述复发情况包括风险分数、无复发概率及其曲线。

由上述描述可知,基于模型计算获取的数据具有直观、全面且精细的特点。

进一步地,所述病人基本因素包括年龄和性别;所述术前检验因素包括血小板、白蛋白、总胆红素、病因学检查结果和甲胎蛋白;所述术后病理因素包括肿瘤最大径、肿瘤数量、肉眼血管侵犯、微血管侵犯、卫星子灶、肿瘤包膜、肝癌分化分级和肝硬化类型。

由上述描述可知,基于病例足够全面且关键的临床数据分析获取肝癌术后早期复发预测模型,能确保预测结果的准确性。

本发明提供的另一个技术方案为:

一种计算机可读存储介质,其上存储有计算机程序,所述程序在被处理器执行时,能够实现下述基于随机生存森林的肝癌术后复发预测方法所包含的步骤:

获取所述各病例的临床资料和复发时间;

预设入组维度包括病人基本因素、术前检验因素和术后病理因素;

依据所述临床资料获取数据集,所述数据集由各病例对应的预设入组维度构成;

依据数据集和各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型。

进一步地,所述获取各病例的临床资料和复发时间,之前,还包括:

获取入组的各病例,所述各病例在术前肝功能评估正常、既往无恶性肿瘤病史、无邻近脏器侵犯及远处转移、进行过肝癌切除手术且术后病理证实为肝细胞癌,以及在术后复发。

进一步地,所述依据数据集和各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型,包括:

依据预设比例划分各病例,得到训练组病例和测试组病例;

依据所述训练组病例和测试组对所述数据集进行划分,得到训练组数据集和测试组数据集;

依据训练组数据集和训练组病例中各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型及其累计风险函数;

使用所述累计风险函数对训练组病例中的各个病例进行预测,得到危险分数集;

依据预设的比例划分所述危险分数集,得到分别对应低危复发组、中危复发组和高危复发组的风险分数范围。

进一步地,还包括:

获取一病例的入组维度;

依据所述一病例的入组维度,通过所述肝癌术后早期复发预测模型计算得到所述一病例对应的危险分数;

依据计算得到的危险分数所属的风险分数范围,确定对应的风险分组;

输出所确定的风险分组。

进一步地,还包括:

将所述肝癌术后早期复发预测模型部署到服务器中,并生成对应的预测网页。

进一步地,还包括:

获取一病例的入组维度;

依据所述一病例的入组维度,通过所述肝癌术后早期复发预测模型计算得到所述一病例对应的复发情况。

进一步地,所述复发情况包括风险分数、无复发概率及其曲线。

进一步地,所述病人基本因素包括年龄和性别;所述术前检验因素包括血小板、白蛋白、总胆红素、病因学检查结果和甲胎蛋白;所述术后病理因素包括肿瘤最大径、肿瘤数量、肉眼血管侵犯、微血管侵犯、卫星子灶、肿瘤包膜、肝癌分化分级和肝硬化类型。

从上述描述可知,对应本领域普通技术人员可以理解实现上述技术方案中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来实现的,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时,可包括如上述各方法的流程。所述程序在被处理器执行后,同样能够实现对应各方法的有益效果。

其中,所述的存储介质可以是磁盘、光碟、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

实施例一

本实施例提供一种基于随机生存森林的肝癌术后复发预测方法,可以包括以下步骤:

S1:获取入组的各病例,所述各病例在术前肝功能评估正常、既往无恶性肿瘤病史、无邻近脏器侵犯及远处转移、进行过肝癌切除手术且术后病理证实为肝细胞癌,以及在术后复发;

S2:获取各病例的临床资料和复发时间;

S3:预设入组维度包括病人基本因素、术前检验因素和术后病理因素;

具体而言,所述病人基本因素包括年龄和性别;所述术前检验因素包括血小板、白蛋白、总胆红素、病因学检查结果和甲胎蛋白;所述术后病理因素包括肿瘤最大径、肿瘤数量、肉眼血管侵犯、微血管侵犯、卫星子灶、肿瘤包膜、肝癌分化分级和肝硬化类型。

S4:依据所述临床资料获取数据集,所述数据集由各病例对应的预设入组维度构成;

S5:依据数据集和各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型。优选采用随机生存森林算法,使用其R语言的randomForestSRC程序包来构建得到预测模型。

S6:获取一病例的入组维度;

S7:依据所述一病例的入组维度,通过所述肝癌术后早期复发预测模型计算得到所述一病例对应的复发情况。

优选地,所述复发情况包括风险分数、无复发概率及其曲线。

在一具体实例中,还包括:

S8:将所述肝癌术后早期复发预测模型部署到服务器中,并生成对应的预测网页或者预测应用。

实施例二

请参照图2,本实施例在实施例一的基础上做进一步限定:

所述S5具体包括:

S51:依据预设比例划分各病例,得到训练组病例和测试组病例;

S52:依据所述训练组病例和测试组对所述数据集进行划分,得到训练组数据集和测试组数据集;

S53:依据训练组数据集和训练组病例中各病例的复发时间,采用随机生存森林算法构建得到对应的肝癌术后早期复发预测模型及其累计风险函数;

S54:使用所述累计风险函数对训练组病例中的各个病例进行预测,得到由各个病例的危险分数构成的危险分数集;

S55:依据预设的比例划分所述危险分数集,得到分别对应低危复发组、中危复发组和高危复发组的风险分数范围。

具体而言,将所有测试组病例的危险分数由低到高进行排序,按照医学经验及规则:高危病人占少数,低危病人占一半左右,即按照病人数的50%和85%进行切分,把0-50%的病例对应的风险分数范围定义为低危复发组;50%-85%的病例对应的风险分数范围定义为中危复发组;大于85%的病例对应的风险分数范围定义为高危复发组。比如一个病人危险分数为25分,其位于低危复发组范围内,则该病人为低危复发。

同时,所述方法还包括:

获取一病例的入组维度;

依据所述一病例的入组维度,通过所述肝癌术后早期复发预测模型计算得到所述一病例对应的危险分数;

依据计算得到的危险分数所属的风险分数范围,确定对应的风险分组;

输出所确定的风险分组。

本实施例的预测结果还包括个体病例所属风险等级,因此预测结果更直观、易懂,更有利于推广至非医务人员进行使用,因而实用性更强。

实施例三

本实施例对应实施例二,对其方案整体做进一步限定,同样可参阅图2,方法包括:

S1:获取入组病例,各病例要求符合以下条件:术前肝功能评估正常、既往无恶性肿瘤病史、无邻近脏器侵犯及远处转移、进行过肝癌切除手术且术后病理证实为肝细胞癌,以及术后复发;

S2:获取上述各病例的复发时间以及相关的临床资料、随访资料,并剔除资料不完整病人;

S3:确定入组维度,至少包括:

1、病例基本因素:性别、年龄;

2、术前检验因素:血小板、白蛋白、总胆红素、病因学检查(乙肝、丙肝、其他)、甲胎蛋白;

3、术后病理因素:肿瘤最大径、肿瘤数量、肉眼血管侵犯、微血管侵犯、卫星子灶、肿瘤包膜、肝癌分化分级、肝硬化类型;

依据S2确定的病例各自对应的维度,获取数据集;

S4:对上述数据集,以病例对应数据为单位,按照比例划分为训练组和测试组;

S5:基于上述训练组数据集,采用随机生存森林算法,使用R语言的randomForestSRC程序包构建模型,选用默认参数,形成肝癌术后早期复发预测模型;

S6:根据上述模型的累计风险函数,对上述测试组中每个病人进行预测,得到对应的危险分数;其中,危险分数越大意味早期复发概率越大;

S7:将所有测试组病人的危险分数由低到高进行排序,按照医学经验及规则,高危病人占少数,低危病人占一半左右,按照病人数的50%和85%进行切分,假设得到32.524和66.511两个危险分数的切分点,则把0-50%的病人分为低危复发组(对应的危险分数≤32.524)、50%-85%的病人分为中危复发组(32.524<危险分数≤66.511)、>85%的病人分为高危复发组(危险分数>66.511);

比如一个病人危险分数为25分,则为低危复发;一个病人危险分数为50分,则为中危复发;一个病人危险分数为71分,则为高危复发。

S8:使用基于R语言的Shiny程序包,构建网页与服务器,将上述肝癌术后早期复发预测模型部署到服务器中,形成网页预测页面;

S9:符合上述入组条件的病人,收集病人的上述入组维度,在上述模型预测页面,通过选择器与滑动条输入病人的年龄(数值)、性别(男、女)、病因(乙肝、丙肝、其他)、血小板(数值)、白蛋白(数值)、总胆红素(数值)、甲胎蛋白(数值)、肿瘤大小(数值)、肿瘤数量(1、2、3、4,5及以上)、微血管癌栓(有、无)、肉眼血管侵犯(有、无)、分化等级(I-II、III-IV)、肿瘤包膜(有、无)、卫星子灶(有、无)、肝硬化情况(有、无)15个指标;

S10:点击预测按钮,服务器接收网页数据,利用训练模型逻辑运算,最终得到模型分数、风险分组、2年内无复发概率及无复发曲线;例如危险分数大于66.511,则病人为高危组,医生需要特别进行关注,优化术后治疗方案和随访方案。

实施例四

本实施例对应实施例一至实施例三,提供一具体运用场景:

如图3所示,输入病人资料如:年龄60岁(Age)、男性(Male)、HBV感染、血小板57*109/L(PLT)、白蛋白30g/L(ALB)、总胆红素10μmol/L(TBIL)、甲胎蛋白388ng/Ml(AFP)、肿瘤大小12cm(Tumor size)、肿瘤数量1个(Tumor number)、有微血管癌栓(Microvascularinvasion)、有肉眼血管侵犯(Macrovascular invasion)、分化等级I-II级(Edmondsongrade)、无肿瘤包膜(Tunor capsular)、无卫星子灶(Satellite nodules)、有肝硬化背景(Liver cirrhosis);

使用是上述实施例的随机生存森林算法进行预测,得到模型分数为71.39,高危病人,2年内无复发曲线(图3中的曲线),并计算3月份、6月份、9月份、12月份、18月份、24月份无复发概率分别为66%、44%、33%、26%、18%、14%(图中位于曲线上方,各时间段对应概率)。

实施例五

本实施例对应实施例一至实施例四,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序在被处理器执行时,能够实现上述实施例一至实施例四任意一项所述的基于随机生存森林的肝癌术后复发预测方法所包含的步骤。具体的步骤内容在此不进行复述,详情请参阅实施例一至实施例四的记载。

综上所述,本发明提供的基于随机生存森林的肝癌术后复发预测方法、存储介质,能够准确预测个体病患的肝癌术后复发概率,更好地确定术后关注度;有助于主动预防;特别是针对医疗机构,能够帮助医护人员准确地筛选出肝癌术后高危复发病人,有助于在复发早期进行干预,指导术后随访和治疗,从而提高治愈率;预测结果直观、易懂,适用范围光,实用性强。因此,本发明具有易于实现、操作便捷、成本低、准确率高、实用性强、易于推广等特点。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号