首页> 中国专利> 医学模型的构建方法、疾病标签构建方法及智能设备

医学模型的构建方法、疾病标签构建方法及智能设备

摘要

本发明实施例公开了一种医学模型的构建方法、疾病标签构建方法及智能设备,其中医学模型的构建方法包括:为目标用户确定监督标签,并获取与目标用户的用户标识码关联的互联网数据;再根据互联网数据确定目标用户的训练文本集;从训练文本集中确定医学类关键词,并基于医学类关键词和监督标签优化第一初始模型,以得到第一模型;同时,获取训练文本集中包括的关联词,并基于关联词和监督标签优化第二初始模型,以得到第二模型;最后,根据第一模型和第二模型构建疾病标签模型。采用本发明实施例,可为互联网用户构建疾病标签。

著录项

  • 公开/公告号CN109243618A

    专利类型发明专利

  • 公开/公告日2019-01-18

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201811062782.6

  • 发明设计人 陈志刚;王万新;苏丽娟;孙继超;

    申请日2018-09-12

  • 分类号G16H50/70(20180101);

  • 代理机构44202 广州三环专利商标代理有限公司;

  • 代理人郝传鑫;熊永强

  • 地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

  • 入库时间 2024-02-19 08:16:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-16

    授权

    授权

  • 2019-02-19

    实质审查的生效 IPC(主分类):G16H50/70 申请日:20180912

    实质审查的生效

  • 2019-01-18

    公开

    公开

说明书

技术领域

本发明涉及图像处理技术领域,尤其涉及一种医学模型的构建方法、疾病标签构建方法及智能设备。

背景技术

在当今的信息时代,随着电子技术和计算机技术的快速发展,机器学习成为人工智能领域中研究的热点。机器学习中常见的学习形式为监督学习,监督学习是指从给定的训练数据集中学习出一个模型或者函数,当新的数据到来时,可以根据该模型预测结果。换句话说,监督学习就是在机器学习过程中提示对错指示,使得机器学习通过算法减少误差。目前,利用监督学习形式训练出用于分类和预测的机器模型已成为对机器学习研究的热点。

发明内容

本发明实施例提供一种医学模型的构建方法、疾病标签构建方法及装置,可为互联网用户构建疾病标签。

一方面,本发明实施例提供了一种医学模型的构建方法,包括:

为目标用户确定监督标签,并获取与所述目标用户的用户标识码关联的互联网数据;

根据所述互联网数据确定所述目标用户的训练文本集;

从所述训练文本集中确定医学类关键词,并基于所述医学类关键词和所述监督标签优化第一初始模型,以得到第一模型;

获取所述训练文本集中包括的关联词,并基于所述关联词和所述监督标签优化第二初始模型,以得到第二模型;

根据得到的第一模型和第二模型构建疾病标签模型。

另一方面,本发明实施例还提供了一种疾病标签构建方法,包括:

获取待检测用户的互联网数据;

从所述待检测用户的互联网数据中确定医学类特征信息,将所述医学类特征信息输入到疾病标签模型中的第一模型中进行识别,得到第一识别结果;

从所述待检测用户的互联网数据中确定关联词特征信息,将所述关联词特征信息输入到疾病标签模型中的第二模型中进行识别,得到第二识别结果;

对所述第一识别结果与所述第二识别结果进行处理,得到所述待检测用户的疾病标签。

再一方面,本发明实施例还提供了一种医学模型的构建装置,包括获取单元和处理单元:

所述获取单元,用于获取与所述目标用户的用户标识码关联的互联网数据;

所述处理单元用于:

为目标用户确定监督标签;

根据所述互联网数据确定所述目标用户的训练文本集;

从所述训练文本集中确定医学类关键词,并基于所述医学类关键词和所述监督标签优化第一初始模型,以得到第一模型;

获取所述训练文本集中包括的关联词,并基于所述关联词和所述监督标签优化第二初始模型,以得到第二模型;

根据得到所述第一模型和所述第二模型构建疾病标签模型。

又一方面,本发明实施例还提供了一种疾病标签构建装置,包括获取单元和处理单元:

所述获取单元,用于获取待检测用户的互联网数据;

所述处理单元用于:

从所述待检测用户的互联网数据中确定医学类特征信息;

将所述医学类特征信息输入到疾病标签模型中的第一模型中进行识别,得到第一识别结果;

从所述待检测用户的互联网数据中确定关联词特征信息;

将所述关联词特征信息输入到所述疾病标签模型中的第二模型中进行识别,得到第二识别结果;

对所述第一识别结果与所述第二识别结果进行处理,得到所述待检测用户的疾病标签。

又一方面,本发明实施例提供了一种智能设备,包括:处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括第一程序指令,所述处理器被配置用于调用所述第一程序指令,执行上述医学模型的构建方法;或者,所述计算机程序包括第二程序指令,所述处理器被配置用于调用所述第二程序指令,执行上述疾病标签模型构建方法。

相应地,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有第一计算机程序指令,所述第一计算机程序指令被处理器执行时,用于执行上述医学模型的构建方法;或者所述计算机存储介质中存储有第二计算机程序指令,所述第二计算机程序指令被处理器执行时,用于执行上述疾病标签构建方法。

本发明实施例中在为目标用户确定了监督标签后,再获取该目标用户的用户标识码对应的互联网数据作为训练文本集,从训练文本集中确定出医学类关键词和关联词分别对第一初始模型和第二初始模型进行优化训练,以得到第一模型和第二模型,最后根据第一模型和第二模型构建疾病标签模型,可以保证疾病标签模型有较高的准确度和较广的覆盖度,提高了疾病标签模型基于互联网数据对新的用户进行疾病估计的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种疾病标签构建系统的架构图;

图1b是本发明实施例提供的一种疾病标签构建的流程示意图;

图1c是本发明实施例提供的一种医学模型的构建方法的流程示意图;

图2是本发明实施例提供的另一种医学模型的构建方法的流程示意图;

图3是本发明实施例提供的一种关于模型的优化方法的流程示意图;

图4是本发明实施例提供的另一种关于模型的优化方法的流程示意图;

图5是本发明实施例提供的一种疾病标签构建方法的流程示意图;

图6是本发明实施例提供的一种医学模型的构建装置的结构示意图;

图7是本发明实施例提供的一种疾病标签构建装置的结构示意图;

图8是本发明实施例提供的一种智能设备的结构示意图。

具体实施方式

在运用大数据对用户行为进行分析,以便于为用户设置相应的标签时,可以利用机器学习的方式来构建用于分类和预测用户标签的模型,在基于这些模型为用户设置了标签后,就可以直接基于这些标签为用户推荐或者提供具有针对性的服务。例如,基于用户商品消费标签向用户推荐用户感兴趣的商品,基于用户疾病标签向用户推荐与用户的疾病标签所标识的疾病有关的文章、治疗方法以及治疗机构等。在一个实施例中,对于用户疾病标签的设置,可以先根据大量患病用户和健康用户的数据训练疾病标签模型,再利用疾病标签模型对待检测用户的互联网数据进行分析,得到待检测用户的疾病标签。参见图1a,为本发明实施例提供的一种疾病标签构建的架构图,由图1a所示的架构图可见,为用户设置疾病标签包括两部分,第一部分为疾病标签模型的构建,第二部分为用户疾病标签的构建。在疾病标签模型构建时,可以从医学数据库,比如线下的医疗机构或者线上的挂号类网站中选取大量的患病用户,然后为各个患病用户标注其所患的具体疾病,得到疾病标注结果(即监督标签)。同时选取大量健康用户,为各个健康用户添加健康标注,得到健康标注结果(即监督标签)。将患病用户和健康用户作为训练用户,并获取患病用户和健康用户的互联网数据,以训练用户为单位将获取到的互联网数据作为训练数据,分别输入到初始疾病标签模型中,得到该初始疾病标签模型的数据分析结果。根据数据分析结果确定相应训练用户的疾病标签,再根据为该训练用户确定的疾病标签和为该训练用户添加的标注,对初始疾病标签模型进行优化,以得到疾病标签模型。

在用户疾病标签设置时,获取待检测用户的互联网数据,将互联网数据输入到疾病标签模型中进行识别,得到识别结果,通过对识别结果进行分析便可得到待检测用户的疾病标签。

在一个实施例中,对于用户商品消费标签的设置,可预先设置商品的类别,并将具体物品分类到相应的商品类别中,然后通过大量互联网用户的商品消费数据训练得到商品消费标签模型。得到商品消费标签模型后,便可利用该模型对某个用户的互联网数据进行分析,通过分析得到该用户对那些种类的商品感兴趣,为该用户设置商品消费标签。

本发明实施例中利用机器学习构建用于分类和预测的模型可以应用在诸多领域,下面以疾病标签模型的构建为例,对本发明实施例的医学模型的构建方法进行说明。

机器学习方法可以捕捉更广泛的用户特征,也就使得疾病标签模型覆盖的人群更广。在本发明实施例中,会根据医学知识模型和互联网数据分析模型(或者称为机器学习模型)来构建疾病标签模型。医学知识模型采用疾病相关别名、药物以及治疗方式等信息作为训练特征,虽然覆盖度不高,但可以保证模型对疾病识别的准确度;由互联网数据分析模型来对各种互联网数据,比如某个用户的互联网阅读数据、资讯关注数据、信息发布数据以及关键词搜索结果等数据,进行分析识别,可以较为广泛地覆盖各种用户特征的识别。本发明实施例采用两种模型结合的方法生成疾病标签模型,可以有效地满足识别准确度以及用户覆盖率的识别需求。

参见图1b,为本发明实施例提供的一种疾病标签模型构建的流程示意图。在本发明实施例中,选取用大量患病用户作为正样本数据,大量健康用户作为负样本数据,分别对第一初始模型(也可称为医学知识模型)和第二初始模型(也可称为机器学习模型)进行训练,以得到第一模型和第二模型,再根据第一模型和第二模型构建疾病标签模型,并对得到的疾病标签模型进行验证。这样一来,在使用疾病标签模型对待检测用户的互联网数据进行疾病识别时,可以保证识别结果的准确性。

请参见图1c,为本发明实施例提供的一种医学模型的构建方法的结构示意图,在本发明实施例提出的医学模型的构建方法中,首先确定目标用户的监督标签,比如目标用户的监督标签为患有肿瘤疾病的标签,或者目标用户的监督标签为健康标签(即未患有任何疾病)。再选取该目标用户的互联网数据作为样本数据。其中,若目标用户的监督标签为某种疾病的标签,则该目标用户的互联网数据即为正样本数据,或者若目标用户的监督标签为健标签康,则该目标用户的互联网数据即为负样本数据。采用大量用户对应的正负样本数据能够使得疾病标签模型的训练更为准确。

在获取到目标用户的样本数据后,根据样本数据确定目标用户的训练文本集,然后分别从训练文本集中获取医学类特征信息和关联词特征信息,将医学类特征信息和监督标签输入到第一初始模型中,对第一初始模型进行优化,以得到第一模型,再将关联词特征信息和监督标签输入到第二初始模型中,对第二初始模型进行优化,以得到第二模型。最后根据第一模型和第二模型构建疾病标签模型。所述疾病标签模型可以用于对待检测用户的互联网数据进行识别,为待检测用户进行疾病分类和预测。在一个实施例中,目标用户的训练文本集主要是一些文档,例如目标用户在互联网上阅读的文章、发表的文章、在医疗网站上发表的评论、提出的问题等等数据生成的文档。从这些文档中,能够得到医学类关键词和与医学相关的关联词,进而得到所述的医学类特征信息和关联词特征信息。

在图1c所示的医学模型的构建方法中,根据第一模型和第二模型构建了疾病标签模型后,还可以对疾病标签模型进行验证。对疾病标签模型验证的实现方式可以为:获取目标验证用户,并为目标验证用户确定验证标签;获取目标验证用户对应的验证文本集;从验证文本集中确定医学类特征信息,并将医学类特征信息输入到第一模型中进行识别,得到第一识别结果;从验证文本集中确定关联词特征信息,并将关联词特征信息输入到第二模型中进行识别,得到第二识别结果;根据第一识别结果与第二识别结果确定目标验证用户的验证疾病标签;最后根据目标验证用户的验证疾病标签和验证标签判断验证是否通过。

在一个实施例中,可以首先选取验证用户集,比如选取患有疾病的用户和同等数量的健康用户组成验证用户集,目标验证用户为验证用户集中任一个用户。利用目标验证用户的验证文本集验证疾病标签模型的过程可以为:根据目标验证用户的网络识别码比如手机号、手机标识码等获取目标验证用户的互联网数据,从互联网数据中确定出验证文本集;再提取验证文本集中的医学类特征信息和关联词特征信息,将提取到的医学类特征信息和关联词类特征信息分别输入到疾病标签模型的第一模型和第二模型中,得到第一识别结果和第二识别结果;最后根据第一识别结果和第二识别结果得到目标验证用户的疾病标签。判断目标验证用户的疾病标签和目标验证用户的验证标签是否匹配:如果匹配,说明利用目标验证用户对疾病标签模型的验证通过;如果不匹配,说明验证未通过。在利用目标验证用户对疾病标签模型验证结束后,接着利用验证用户集中其他验证用户对疾病标签模型进行验证。

直到利用验证用户集中所有验证用户对疾病标签模型验证结束,统计验证通过率,也可以说是疾病标签模型的准确率,如果疾病标签模型的准确率大于预设准确率阈值,则表明疾病标签模型验证通过,也即疾病标签模型训练完成,可以用来为用户进行疾病标签构建了;如果疾病标签模型的准确率不大于预设准确率阈值,则表明疾病标签模型验证未通过,疾病标签模型需要重新训练。

再请参见图2,是本发明实施例的一种医学模型的构建方法的流程示意图,本发明实施例的医学模型的构建方法可以应用在健康保险核保、健康保险推荐、智能医疗服务等领域,具体可以由智能设备来实现,例如一台能够搜集网络数据的服务器。在其他实施例中,本发明实施例的医学模型的构建方法还可应用在其他需要为用户进行疾病分类和预测的应用场景中。

如图2所示的医学模型的构建方法是基于监督学习构建模型的方式进行疾病标签模型实现的。如图2所示,智能设备在S201中为目标用户确定监督标签,并获取与所述目标用户的用户标识码关联的互联网数据。在一个实施例中,目标用户可以为患病用户,也可以为健康用户。为目标用户确定监督标签可以理解为确定目标用户是患病用户还是健康用户。如果目标用户为患病用户,则为目标用户添加具体疾病标签,所述疾病标签用于标记目标用户患有的疾病类别;如果目标用户为健康用户,为目标用户添加健康标签,

疾病标签分类体系比较固定,不会随着应用场景的改变而发生变化,在一个实施例中,疾病标签的分类可以是基于居民疾病患病率、疾病严重程度和负担、人生阶段等因素,与医学专家沟通确定。在一个实施例中,疾病标签分为三大类:儿童疾病标签、成人慢病标签以及孕产妇健康标签,每一大类下细分为许多具体疾病,详细分类可参见表1,表1中的分类项可以作为具体的疾病标签,例如包括流感标签、肺癌标签等等。

表1疾病标签分类

在一个实施例中,在S201为目标用户确定监督标签之前,首先选择用于医学模型构建的用户集合,再将用户集合中的多个用户分别作为目标用户,使用目标用户的样本数据作为训练数据,利用本发明实施例的医学模型的构建方法对疾病标签模型进行优化训练。

为了使得疾病标签模型有较高的准确率,构建的用户集合中可以既有患病用户又有健康用户。用户集合中患病用户可以是从某些医院的医疗数据库或者其他数据库中获取的被记录为患有目标疾病的患者,用户集合中健康用户可以是从未被记录患有任何疾病的用户中选择的部分用户。目标疾病属于表1中疾病标签分类中的任一种。举例来说,患病用户可以是通过爬取并分析挂号类网站的访问记录,提取有表1中各个疾病标签科室挂号记录或意向的用户标识码,用户标识码例如是用户手机的国际移动设备标识码(International Mobile Equipment Identity,IMEI),根据用户标识码可确定患病用户。举例来说,假设在挂号网站中提取到肿瘤科室挂号的1000个手机IMEI,基于1000个手机IMEI可查找到对应1000个患有肿瘤疾病的患病用户。

获取到目标用户并为目标用户确定了监督标签之后,在S201中获取与所述目标用户的用户标识码关联的互联网数据。可以理解的,获取到的互联网数据即为样本数据,如果目标用户为患病用户,则获取到的互联网数据即为正样本数据,如果目标用户为健康用户,则获取到的互联网数据即为负样本数据。在一个实施例中,为了保证构建疾病标签模型的准确性,需要选择足够多的患病用户关联的互联网数据作为正样本数据,且患病用户所患疾病应该覆盖表1中的部分或者全部的疾病标签,甚至更多的疾病标签。同时也需要选择足够多的健康用户关联的互联网数据作为负样本数据,通常情况下,正样本数据的数量和负样本数据的数量相同。总的来说,为了保证疾病标签模型的准确性,在选择用户集合时,需要选择大量的患病用户和大量的健康用户。

在确定了目标用户的监督标签,并获取到目标用户的样本数据之后,需要在S202中根据互联网数据确定目标用户的训练文本集。所述训练文本集是指目标用户的互联网数据中包括的所有文本内容的集合,训练文本集中可包括目标用户的关键词搜索、关键词关注、文章阅读、资讯关注以及状态发表等文本内容。可以理解的,目标用户的互联网数据中可包括目标用户基本信息、关键词关注、文章阅读等文本内容以及其他非文本信息。由于非文本信息不影响模型训练,因此为了提高模型训练效率,可以从互联网数据中确定出目标用户的用于模型训练的训练文本集,该训练文本集包括文本内容,并不包括目标用户的非文本信息,非文本信息例如可以是图像、昵称、所在地等等内容。

举例来说,表2即为获取到的两个目标用户的互联网数据,在所述S202中可选择关键词关注、阅读关注和资讯关注等文本内容,构成两个目标用户训练文本集合。

表2用户的互联网数据

在S201和S202中分别确定了监督标签和训练文本集,接着智能设备基于监督标签和训练文本集对第一初始模型和第二初始模型进行优化训练,以得到第一模型和第二模型。针对第一初始模型的优化,在S203中从训练文本集中确定医学类关键词,并基于医学类关键词和监督标签优化第一初始模型,以得到第一模型。医学类关键词是指与表1的疾病标签中包括的各种疾病直接相关的专业名称比如癌、药物或治疗方法(如化疗、放疗等)关键词。在一个实施例中,各种疾病标签所包括的疾病的特征词可以通过与专业医生沟通确定和/或通过医学典籍确定,然后建立医学类特征词集。再查找训练文本集中是否包括属于医学类特征词集的词语,将属于医学类特征词集的词语作为医学类关键词。

在一个实施例中,S203中基于医学类关键词和监督标签优化第一初始模型的实现方式可以为:基于医学类关键词生成医学类特征信息;根据医学类特征信息和监督标签优化第一初始模型。在一个实施例中,图3为本发明实施例提供的一种优化第一初始模型方法的流程图,如图3所示的优化第一初始模型可包括:S301、根据疾病标签确定医学类特征词集;S302、基于医学类特征词集抽取训练文本集中包括的医学类关键词,并生成医学类关键词对应的医学类特征信息;S303、根据医学类特征信息和监督标签优化第一初始模型。其中,医学类特征信息包括医学类关键词及其对应的关键词特征值,关键词特征值用于表示医学类关键词在训练文本集中的重要等级。在一个实施例中,医学类关键词对应的关键词特征值可以为医学类关键词在训练文本集中出现的次数,比如医学类关键词为“乳腺癌”,假设目标用户的一段文本为:“乳腺癌介入疗法治疗癌症效果”,则医学类关键词对应的关键词特征值为1。在一个实施例中,第一初始模型的构建和优化过程可参见后面的详细描述。

在一个实施例中,所述S301根据疾病标签确定医学类特征词集的实现方式可以为:通过与医学专家沟通疾病标签所标识的各种疾病关联的专业名称、药物或治疗方法等关键词;然后根据各种疾病以及疾病相关的关键词建立医学类特征词集,该医学类特征词集中包括与疾病标签所标识的各种疾病关联的医学类特征词。例如,通过与肿瘤专科医生沟通得到与肿瘤疾病标签关联的医学类特征词集中包括的关键词为:瘤、癌、白血病、化疗、放疗、切除、转移、靶向、早期、晚期、生存期、非小细胞、阿帕替尼、索拉菲尼、卡培他滨、替莫唑胺等。基于医学类特征词集中的这些关键词能够从诸如“乳腺癌介入疗法治疗癌症效果”等文本中确定出医学类关键词。

在一个实施例中,所述S302基于所述医学类特征词集抽取所述训练文本集中包括的医学类关键词,并生成所述医学类关键词对应的医学类特征信息的实现方式可以为:根据医学类特征词集中疾病标签所标识的各个疾病对应的特征提取正则表达式,从训练文本集中抽取医学类关键词;再获取抽取到的各个医学类关键词在所述训练文本集中出现的次数,作为医学类关键词对应的关键词特征值;基于医学类关键词以及其对应的关键词特征值生成医学类特征信息。正则表达式是指用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,正则表达式是一种文本模式,描述了在搜索文本时要匹配的一个或多个字符串。

医学类特征词集中包括了上述提及的三大疾病标签分类所标识的各种疾病,以及与各种疾病相关的一些专业名称、药物或治疗方法等关键词,为各种疾病预先设定一套特征提取正则表达式,如此医学类特征词集中可包括多套特征提取正则表达式。将训练文本集中所有文本内容与医学类特征词集中各个特征提取正则表达式进行匹配,获取匹配到的医学类特征词即为训练文本集的医学类关键词。

例如,肿瘤疾病标签所标识的各种疾病以及各种疾病对应的特征提取正则表达式可如表3所示,在表3所示的各个特征提取正则表达式中,“|”表示或运算,“.”表示匹配除回车和换行外任何字符,“*”表示匹配前面的子表达式任意次,“()”表示匹配并获取括号中内容。假设训练文本集中包括的一段文本内容为“乳腺癌介入疗法治疗癌症效果”,将该段内容与表3中包括的各个特征提取正则表达式进行匹配,获取匹配到的医学类特征词为‘癌’和‘乳腺癌’,则将‘癌’和‘乳腺癌’作为医学类关键词。

表3肿瘤标签下各种疾病的特征提取正则表达式

肿瘤标签特征提取正则表达式胃癌(胃|幽门|贲门).*(癌|肿瘤|(恶性.*瘤)|肉瘤)肝癌(胆管|肝|胆总管|胆道|胆囊).*(癌|肿瘤|(恶性.*瘤)|肉瘤)肺癌(肺|气管).*(癌|肿瘤|(恶性.*瘤)|肉瘤)乳腺癌(乳房|乳腺|乳头|副乳|乳晕).*(癌|肿瘤|(恶性.*瘤)|肉瘤)白血病白血病|骨髓移植|血癌子宫癌子宫.*(癌|肿瘤|(恶性.*瘤)|肉瘤)食管癌(食道|食管).*(癌|肿瘤|(恶性.*瘤)|肉瘤)宫颈癌宫颈.*(癌|肿瘤|(恶性.*瘤)|肉瘤)

在一个实施例中,若监督标签包括用于标识目标疾病的标签,所述S303根据医学类特征信息和监督标签优化第一初始模型的实现方式可以为:将医学类特征信息作为第一初始模型的输入参数,并获取所述第一初始模型输出的疾病识别结果;若所述疾病识别结果所指示的疾病与所述目标疾病不匹配,则优化初始模型。需要说明的,在目标用户为患病用户的情况下,目标疾病是指为目标用户确定的监督标签所指示的疾病,比如目标用户为用户甲,用户甲的监督标签为患有肺癌,此时目标疾病则指肺癌。

如果将医学类特征信息作为输入参数输入到第一初始模型中,得到的疾病识别结果与目标疾病不匹配,表明第一初始模型不能根据目标用户的医学类特征信息为目标用户准确地构建疾病标签,也即第一初始模型没能学习到目标用户的医学类特征信息,则需要调整第一初始模型中参数,然后再将目标医学类特征信息输入到调整参数后的第一初始模型中进行识别,直到第一初始模型输出的识别结果所指示的疾病与目标疾病匹配,表明已完成了根据目标用户的训练文本集对第一初始模型的优化。然后利用用户集合中下一个目标用户的训练文本集对优化后的第一初始模型继续优化,直到根据用户集合中所有目标用户的训练文本集对第一初始模型进行优化完成,便可得到第一模型。

再一个实施例中,若监督标签包括健康标签,所述S303根据医学类特征信息和监督标签优化第一初始模型的实现方式可以为:将所述医学类特征信息作为输入参数输入到第一初始模型中,并获取第一初始模型输出的疾病识别结果;若第一初始模型输出的疾病识别结果与监督标签不匹配,也即第一初始模型输出的疾病识别结果不能标识目标用户是未患有任何疾病的健康用户,例如疾病识别结果为用户患有糖尿病,但监督标签包括健康标签,实际情况为该目标用户是健康的,则优化第一初始模型;若第一初始模型输出的疾病识别结果与监督标签相匹配,也即第一初始模型输出的疾病识别结果标识目标用户未患有任何疾病,则表明利用目标用户的训练文本集对第一初始模型训练成功。

针对第二初始模型的优化,在S204中获取所述训练文本集中包括的关联词,并基于所述关联词和所述监督标签优化第二初始模型,以得到第二初始模型。在一个实施例中,关联词可以包括表1中疾病标签所标识的各个疾病对应的医学类特征词和与各个疾病相关的术语和医疗类通用词等,比如医院、医疗、中药、养生、健康、症状、分化腺癌、存活期等。可选的,S204中可以是根据关联词特征信息和监督标签来优化第二初始模型。

参考图4,为本发明实施例提供的一种优化第二初始模型的方法流程图。如图4所示的优化第二初始模型的方法可包括:S401、获取所述训练文本集的样本词特征集合;S402、对所述样本词特征集合进行筛选,得到关键词特征集合;S403、根据所述关联词特征集合和监督标签优化第二初始模型。在一个实施例中,关联词特征集合中包括关联词特征信息,所述关联词特征信息包括关联词及其对应的关联词特征值,所述关联词特征值是根据关联词在对应的目标文本中的词频确定的。

在一个实施例中,第二初始模型的建立以及优化过程,与第一初始模型的建立和优化过程均可以是基于XGBoost(extreme Gradient Boosting,极值梯度提升)算法实现的,下面详细介绍基于XGBoost算法对第一初始模型和第二初始模型进行构建和优化过程。

XGBoost算法是在GBDT(Gradient Boosting Decision Tree,梯度提升决策树)的基础上对boosting(属于集合分类器的一种)算法进行的改进,XGBoost算法内部决策树使用的是回归树。XGBoost算法的基本原理是将多个弱分类器迭代组合成一个强分类器,每一次的迭代是为了减少上一次的残差(residual)。

在一个实施例中,基于XGBoost算法对第一初始模型进行优化得到第一模型的基本原理就是根据从目标用户的训练文本集中提取的各个医学类特征信息,构建第一初始模型,该第一初始模型可以理解成为一个弱分类器,然后通过第一初始模型对医学类特征信息的识别处理得到疾病识别结果;如果此次疾病识别结果所标识的目标疾病与目标用户的监督标签不匹配,则表明需要对当前的弱分类器进行迭代。具体迭代过程可以理解为:根据疾病识别结果与监督标签之间的差别(也称残差),调整第一初始模型参数,比如模型参数可以指各个医学类特征信息的权重值,然后在能够减少残差的梯度方向上基于调整后的模型参数建立一个新的第一初始模型,也相当于将第一初始模型优化后的新的第一初始模型。每次迭代结束,可判断优化后的第一初始模型对目标用户的医学类特征信息的疾病识别结果所标识的目标疾病与监督标签是否匹配,如果不配合,则重复执行上述迭代过程;如果匹配,则结束对第一初始模型的优化,得到第一模型。

在一个实施例中,基于XGBoost算法对第二初始模型进行优化得到第二模型的基本原理就是根据从目标用户的训练文本集中提取的各个关联词特征信息,构建第二初始模型,该第二初始模型可以理解成为一个弱分类器,然后通过第二初始模型对关联词特征信息的识别处理得到疾病识别结果;如果此次疾病识别结果所标识的目标疾病与目标用户的监督标签不匹配,则表明需要对当前的弱分类器进行迭代。具体迭代过程可以理解为:根据疾病识别结果与监督标签之间的差别(也称残差),调整第二初始模型参数,比如模型参数可以指各个关联词特征信息的权重值,然后在能够减少残差的梯度方向上基于调整后的模型参数建立一个新的第二初始模型,也相当于将第二初始模型优化后的新的第二初始模型。每次迭代结束,可判断优化后的第二初始模型对目标用户的关联词特征信息的疾病识别结果所标识的目标疾病与监督标签是否匹配,如果不配合,则重复执行上述迭代过程;如果匹配,则结束对第二初始模型的优化,得到第二模型。

在一个实施例中,所述S401的实现方式可以为:对所述训练文本集中各个文本进行分词处理,除去分词结果中的停用词和虚词后即可得到训练文本集的样本词特征集合。作为一种可行的实施方式,S401可使用结巴分词jieba中文分词方法对训练文本集中各个文本进行分词处理,分词模式可以采用全模式方法,比如训练文本集中一段文本为“这些食物有助于预防肺癌”,分词结果为[‘这些’,‘食物’,‘有助于’,‘预防’,‘肺癌’],在得到文本的分词结果后,再去除分词结果中无意义的停用词和虚词得到该段文本的词语特特征集合为[‘食物’,‘有助于’,‘预防’,‘肺癌’]。作为另一种可行的实施方式,S401也可使用中分分词和one-hot编码的方式,即词袋模式对训练文本集中各个文本进行分词处理。

在一个实施例中,在S401中对训练文本集中各个文本进行分词处理,得到样本词特征集合之后,进一步再获取样本词特征集合中各个样本词特征值。样本词特征值反映了该样本词在训练文本集中的重要等级。可选的,智能设备可以通过TF-IDF(词频-逆文档频率)算法获取样本词特征集合中各个样本词特征值。TF-IDF是一种统计方法,用以评估一个词语对于一段文本的重要性,TF-IDF可以将样本词特征集合中各个样本词数值化。在一个实施例中,获取样本词特征集中各个样本词特征值的方式可以为:确定样本词特征集中目标样本词所属的目标文本,该目标文本为训练文本集中某一段文本;计算所述目标样本词在所述目标文本中的词频;计算目标样本词在所述训练文本集中的逆文档频率;根据所述目标样本词的所述词频和所述逆文档频率便可得到目标样本词的样本词特征值。

在一个实施例中,计算所述目标样本词在所述目标文本中的词频,包括:统计所述目标文本中包括的样本词(包括目标样本词)以及各个样本词出现的次数,以此计算目标文本中所有样本词出现次数之和;根据目标样本词在目标文本中出现的次数和目标文本中所有样本词出现次数之和,计算目标样本词在目标文本中的词频。比如,目标样本词为肺癌,目标文本为“这些食物有助于预防肺癌”,对目标文本进行分词处理后得到目标文本的词语特征集合为[‘食物’,‘有助于’,‘预防’,‘肺癌’],四个样本词各出现1次,目标文本的总次数为4,肺癌出现了1次,因此肺癌的词频为1/4。

在一个实施例中,计算目标样本词在所述训练文本集中的逆文档频率,包括:确定所述训练文本集中包含目标样本词的文本集个数,再根据公式log(所有文本的个数/包含目标样本词的文本个数+1)计算得到目标样本词在所述训练文本集中的逆文档频率。其中,所述所有文本的个数是指所述训练文本集中的所有文本的数量,所述包含目标样本词的文本个数是指所述训练文本集的所有文本中包含所述目标样本词的文本的数量,加上1是为了保证分母不为0。例如,从某个目标用户互联网数据得到的训练文本集包括1000个文本,这些文本中出现肺癌的个数为20个,则逆文档频率=log(1000/21)。

在得到目标文本中的某个目标样本词的词频和逆文档频率后,将目标样本词的在目标文本中出现的词频和在训练文本集中的逆文档频率相乘即得到目标样本词的样本词特征值。可以理解的,对于样本词特征集合中其他样本词的样本词特征值,可使用与计算目标样本词的样本词特征值相同的方法得到。

在一个实施例中,所述S402对样本词特征集合进行筛选可包括初步筛选和二次筛选。其中,初步筛选可以指删除样本词特征集合中对训练文本集分析无意义的样本词,该类无意义的样本词可以是在训练文本集中出现次数过多或者出现次数过少的样本词;二次筛选可以指从初次筛选后得到筛选样本词集合中选择预设数量个重要等级较高的样本词。在一个实施例中,所述S402对样本词特征集合进行筛选,得到关联词特征集合,包括:对所述样本词特征集合进行初始筛选,得到筛选样本词集合;将所述筛选样本词集合中的各个样本词按照在所述训练集中的重要等级进行排序,根据排序结果选择前N个样本词作为关联词,其中,N为大于1的正整数;根据得到的关联词生成关联词特征集合。

在一个实施例中,所述对所述样本词特征集合进行初始筛选,包括:删除第一类样本词和/或第二类样本词;所述第一类样本词包括:在所述训练文本集中的词频大于第一词频阈值或者在所述训练文本集中出现的次数大于第一次数阈值的样本词;所述第二类样本词包括:在所述训练文本集中的词频小于第二词频阈值或者在所述训练文本集中出现的次数小于第二次数阈值的样本词。换句话说,智能设备可预先设置样本词筛选条件,将样本词特征集合中不符合样本词筛选条件的样本词删除。其中,第一词频阈值大于第二词频阈值,第一数量阈值大于第二数量阈值,比如第一阈值可以为60%,第二阈值可以为1%。

在一个实施例中,删除的第一类样本词和/或第二类样本词的依据可以是样本词在训练本文集中的词频。某一样本词在训练文本集中出现的词频是指该样本词在训练样本集中出现的次数与训练样本集中所有样本词出现的总次数的比值,比如样本词为“应用”,训练样本集中所有样本词及各个样本词出现的次数为(应用10,需求2,阈值3,方案4),则样本词总次数为10+2+3+4=19次,样本词在训练样本集中出现了5词,则样本词的词频即为5/19。

在一个实施例中,删除第一类样本词和/或第二类样本词的依据还可以是样本词在训练文本集中出现的次数,出现次数过多或者过少的样本词可以理解为对训练文本集的分析无意义的词。比如,“是”,“优秀”等在文本中充当动词或者修饰成分,对文本分析意义不大,但是这类词几乎在任何文本中都包括,所以这类词在训练文本集中出现次数过多,为了提高模型训练或者模型识别效率,删除出现次数较多的这类词语。同理的,在训练文本集中出现次数较少的样本词对训练文本集的分析意义不大可删除。

在一个实施例中,S402中所述将所述筛选样本词集合中的各个样本词按照在所述训练集中的重要等级进行排序,根据排序结果选择前N个样本词作为关联词,根据得到的关联词生成关联词特征集合,可以理解为按照筛选样本词集合中各个样本词的样本词特征值由大到小进行排序,然后选择前N个样本词作为关联词,前N个样本词的样本词特征值作为与关联词对应的关联词特征值,最后根据关联词和关联词特征值生成关联词特征集合。

由上述描述可知,在S401中对训练文本集中各个文本进行分词处理,得到样本词特征集合之后,可以获取样本词特征集合中各个样本词特征值,也就是说样本词特征集合中每个样本词对应一个样本词特征值,该样本词特征值用来表示该样本词在训练文本集中的重要等级。在对第二初始模型进行优化时,若监督标签包括用于标识目标疾病的疾病标签,在S403中根据所述关键词特征集合和所述监督标签优化第二初始模型,包括:将所述关联词特征集合中包括的关联词特征信息作为第二初始模型的输入参数,并获取所述第二初始模型输出的疾病识别结果;若所述第二初始模型输出的疾病识别结果所指示的疾病与所述目标疾病不匹配,则优化第二初始模型。其中,若所述第二初始模型输出的疾病识别结果所指示的疾病与所述目标疾病匹配,则表示第二初始模型能根据目标用户的训练文本集准确识别目标用户的疾病标签,也即使用目标用户的训练文本集对第二初始模型优化成功,接着使用用户集合中其他目标用户的训练文本集继续对第二初始模型进行优化,直到使用用户集合中所有目标用户的训练文本集对第二初始模型优化成功,便得到第二模型。

例如,目标用户甲的监督标签为患有白血病,通过对目标用户甲的训练文本集进行分词、筛选等步骤最后得到关联词特征集合,将目标用户甲的关联词特征集合中包括的关联词特征信息作为输入参数输入到第二初始模型中,如果输出结果所指示的疾病为白血病,说明第二初始模型能够正确对用户甲的数据进行识别,不需要针对用户甲进行优化。如果输出结果所指示的疾病不为白血病,与监督标签不匹配,则表明第二初始模型不能正确对用户甲的数据进行识别,不能正确为用户甲确定疾病标签,需要调整第二初始模型的参数,对第二初始模型优化。在一个实施例中,调整第二初始模型的参数可以指调整各个关联词特征信息的权重值,在其他实施例中,调整第二初始模型的参数也可以指调整第二初始模型中每棵树的最大深度等等。

再一个实施例中,若监督标签包括健康标签,根据所述关键词特征集合和所述监督标签优化第二初始模型,包括:将所述关联词特征集合中包括的关联词特征信息作为第二初始模型的输入参数,并获取所述第二初始模型输出的疾病识别结果;若所述疾病识别结果与所述监督标签所标识的结果不一致,例如疾病识别结果为目标用户存在某种疾病,与该目标用户为健康标签的用户不匹配,则需要优化第二初始模型。也就是说,如果目标用户为健康用户时,采用与目标用户为患病用户相同的流程对第二初始模型进行训练。

在图2所示的医学模型的构建方法中,通过S203和S204得到第一模型和第二模型之后,在S205中根据第一模型和第二模型构建疾病标签模型。在一个实施例中,在构建了疾病标签模型之后,可以对疾病标签模型进行验证,如果验证通过,则表明疾病标签模型构建成功;如果验证未通过,则表明疾病标签模型构建失败,可重新执行S201-S205步骤优化疾病标签模型。

在一个实施例中,对疾病标签模型进行验证的方式可以为:从线下医学各科室挂号人群中选择患病用户,并选择相同数量的健康用户,将患病用户和健康用户作为待验证用户;获取各个待验证用户的互联网数据;调用疾病标签模型对各个待验证用户的互联网数据进行识别处理,得到各个待验证用户的疾病标签。分别将各个待验证用户的疾病标签与待验证用户的监督标签进行匹配,如果匹配成功,说明识别成功。如果识别成功率超过预设值,则表明验证成功。反之,则表明验证失败,需要重新执行S201-S205步骤优化疾病标签模型。

例如,假设选择10000个线下肿瘤医学挂号的用户和10000个健康用户作为待验证用户,如果识别成功率达到73%,则表明疾病标签模型训练成功。

综上所述,在本发明实施例中在为目标用户确定了监督标签后,再获取该目标用户的用户标识对应的互联网数据作为样本数据,从样本数据中查找医学类特征信息,并基于查找到的医学类特征信息和目标用户的监督标签优化第一子模型,同时,对样本数据对应的文本进行分词处理得到关联词,并基于该关联词和目标用户的监督标签优化第二子模型,通过目标用户的互联网数据和监督标签分别对第一子模型和第二子模型进行优化,可以保证基于第一子模型和第二子模型得到的疾病标签模型有较高的准确度和较广的覆盖度,从而提高疾病标签模型对新的互联网数据进行疾病分类和预测的准确性。

请参见图5,为本发明实施例提供的一种疾病标签构建方法的流程示意图。如图5所示的疾病标签构建方法,是基于图2所示的医学模型的构建方法得到的疾病标签模型,对待检测用户的互联网数据进行识别,从而得到待检测用户的疾病标签。图5所示的标签构建方法可以应用在许多行业,比如智能医疗行业,在构建出用户的疾病标签后,可为用户推荐合适的治疗方案。

在图5所示的疾病标签构建方法中,首先在S501中获取待检测用户的互联网数据。在一个实施例中,获取待检测用户的互联网数据的方式为:确定待检测用户的网络标识码,并获取所述待检测用户的网络标识关联的互联网数据。可选的,互联网数据可包括互联网阅读数据、资讯关注数据、信息发布数据以及关键词搜索结果中的任一种或多种。所述网络标识码可以是某个用户在互联网上注册的账号,例如用户在某个医疗网址的账号,也可以为用户的IMEI或者电话号码等标识。

在获取到待检测用户的互联网数据之后,在S502中从待检测用户互联网数据中确定医学类特征信息,并将所述医学类特征信息输入到疾病标签模型中的第一模型中进行识别,得到第一识别结果。在一个实施例中,医学类特征信息包括医学类关键词及其对应的关键词特征值,将医学类关键词及其对应的关键词特征值输入到第一模型中,第一模型对医学类关键词以及对应的关键词特征值进行识别,简而言之,第一模型通过医学类特征信息预测待检测用户可能患有某些疾病的概率。其中,第一模型的具体实现可参考上述实施例中相关内容的描述。

在一个实施例中,将医学类特征信息输入到疾病标签模型中进行识别,可以得到第一初始识别结果,然后基于第一初始识别结果确定第一识别结果。可选的,第一初始识别结果可以表明该用户可能存在的疾病以及疾病的概率,可以基于概率的大小,确定待检测用户的第一识别结果。在一个实施例中,基于第一初始识别结果中包括的各个疾病的概率,确定待检测用户的第一识别结果的实现方式可以为:将第一初始识别结果中概率最大的疾病确定为第一识别结果。例如,第一初始识别结果为(肺癌60%,感冒20%,白血病5%......),最终以概率最高的肺癌作为该待检测用户的第一识别结果。再一个实施例中,基于第一初始识别结果中包括的各个疾病的概率,确定待检测用户的第一识别结果的实现方式还可以为:预先设置第一概率阈值,然后将第一初始识别结果中概率大于第一概率阈值的疾病确定为第一识别结果。例如,假设第一初始识别结果为(肺癌60%,感冒52%,白血病5%......),假设第一概率阈值为50%,可以将识别结果中大于概率阈值50%的肺癌和感冒作为第一识别结果。

在S503中从所述待检测用户的互联网数据中确定关联词特征信息,并将所述关联词特征信息输入到疾病标签模型中的第二模型中进行识别,得到第二识别结果。在一个实施例中,关联词特征信息包括关联词及其对应的关联词特征值,将关联词特征信息输入到第二模型中进行识别,也即利用第二模型预测待检测用户可能患有某些疾病的概率。第二模型的具体实现方式可参考前述实施例中相关内容的描述。

在一个实施例中,将关联词特征信息输入到疾病标签模型中的第二模型中进行识别,可以首先得到第二初始识别结果,然后根据第二初始识别结果中各种疾病的概率得到第二识别结果。其中,第二初始识别结果包括所述待检测用户可能患有的疾病,以及患有某种疾病的概率。在一个实施例中,根据第二初始识别结果中各种疾病的概率得到第二识别结果,可包括:将第二初始识别结果中概率最高的疾病确定为第二识别结果。例如,第二初始识别结果可以为(肺癌50%,感冒18%,白血病2%),最终以肺癌作为该待检测用户的第二识别结果。再一个实施例中,根据第二初始识别结果中各种疾病的概率得到第二识别结果,可包括:预先设置第二概率阈值,然后将第二初始识别结果中概率大于第二概率阈值的疾病确定为第二识别结果。例如,假设第二初始识别结果为(肺癌10%,感冒55%,白血病60%),第二概率阈值为40%,然后将识别结果中概率大于40%的白血病和感冒确定为第二识别结果。可选的,第一概率阈值和第二概率阈值可以相同也可以不同,第一概率阈值和第二概率阈值的选择可以依据第一模型和第二模型的识别准确度确定的。如果第一模型和第二模型的准确度较高,则可设置第一概率阈值和第二概率阈值较大,如果第一模型和第二模型的准确度不是足够的高,则可设置第一概率阈值和第二概率阈值较小。

本发明实施例提供的疾病标签构建方法,需要通过第一模型和第二模型分对待检测用户数据进行识别预测,得到第一识别结果和第二识别结果,最后在S504中将第一识别结果与第二识别结果进行处理,得到最后待检测用户的疾病标签,保证了对用户的疾病标签预测的准确性。如上述,第一识别结果和第二识别结果所指示的疾病均为肺癌,则可以认为该待检测用户患有肺癌,直接为该待检测用户设置肺癌的疾病标签。

在一个实施例中,S504的实现方式可以为:将第一识别结果所标识的各个疾病存在的概率与第二识别结果所标识的相应疾病存在的概率识别结果进行加权平均运算,运算后的各个疾病及其疾病存在的概率构成了待检测用户的疾病标签。在一个实施例中,待检测用户的疾病标签的数量可以为一个,在其他实施例中,待检测用户的疾病标签也可以为疾病标签集,也就是说待检测用户的疾病标签可以为多个。如果待检测用户的疾病标签为疾病标签集时,可将疾病标签集中所有疾病标签都作为待检测用户的疾病标签;也可以从病标签集中选择发生概率大于疾病概率阈值的疾病确定为待检测用户的疾病标签。

例如,如果通过S501-S503得到的第一识别结果为肺癌,第二识别结果为肺癌,则待检测用户的疾病标签为肺癌。如果通过S501-S503得到的第一识别结果为(肺癌60%,感冒40%),第二识别结果为(肺癌40%,感冒70%),将第一识别结果中各个疾病与第二识别结果中相应疾病进行处理,得到待检测用户的疾病标签集为(肺癌50%,感冒55%),此种情况下,可以将肺癌和感冒都作为待检测用户的疾病标签;或者,设置疾病概率阈值为50%,则从待检测用户的标签集中选择感冒作为待检测用户的疾病标签。

第一模型是通过与疾病标签所标识的疾病相关的疾病名称等相对专业的医学类关键词训练得到的,因此,第一模型对待检测用户的患病情况预测结果较准确。但是,第一模型在对待检测用户的互联网数据进行识别预测时,也存在一定缺陷:由于训练第一模型时使用的医学类关键词专业性较强,如果提取到的待检测用户的互联网数据中包括的特征信息除了医学类特征信息之外,还有其他与医学关联的关联词特征信息,此时第一模型不能识别这些关联词特征,甚至第一模型可能把这些关联特征信息识别为未患病特征。

因此,在本发明实施例中通过第二模型来识别这些关联词特征。第二模型是通过大量关联词特征信息训练得到的,也就是说相比于第一模型而言,第二模型能够识别更多的疾病相关特征,包括医学类关键词特征和与医学类相关的关联词特征。如此一来,第一模型识别较专业的医学类关键词特征,保证疾病识别结果的准确性,第二模型可识别较专业的医学类关键词特征和非专业的与医学类相关的关联词特征,可减少疾病识别结果的错误率。因此,同时使用第一模型和第二模型对待检测用户的互联网数据进行识别,然后再将两次识别结果进行处理,得到待检测用户的疾病标签,充分保证了为待检测用户构建的疾病标签的准确性。可选的,将第一识别结果和第二识别结果进行的处理可包括加和求平均,或者可以为其他的处理方式,在本发明实施例中不做限定。

举例来说,假设通过第一模型对待检测用户的互联网数据进行识别,得到第一识别结果可以为(肺癌60%,感冒40%);假设通过第二模型对待检测用户的互联网数据进行识别,得到第二识别结果可以为(肺癌42%,感冒70%),并假设预先设定的疾病概率阈值为50%。将第一识别结果集中各个疾病识别结果与第二识别结果集中的疾病识别结果求平均值,得到待检测用户的疾病标签为(肺癌51%,感冒55%),筛选疾病标签中概率大于50%的疾病识别结果,得到待检测用户的疾病标签集,即(肺癌51%,感冒50%)。

分析上述例子可知,如果仅仅选用第一模型来为待检测用户构建疾病标签,并根据疾病概率阈值50%筛选疾病识别结果,则待检测用户的疾病标签中可能不包括感冒标签;如果仅仅选用第二模型来为待检测用户构建疾病标签,并根据疾病概率阈值筛选疾病识别结果,则待检测用户的疾病标签中可能不包括肺癌标签。可见,两种情况下,都导致为待检测用户构建的疾病标签不准确,其原因在于:对于感冒标签的识别,待检测用户虽然是患有感冒,但是待检测用户在网上搜索与感冒直接相关的医学类关键词较少,可能更多的搜索了与感冒疾病关联的一些关联词,所以第一医学模型识别到的待检测用户患有感冒的概率低于第二模型识别到的待检测用户患有感冒的概率。对于肺癌标签的识别,待检测用户在网上搜索了较多的与肺癌直接相关的医学类关键词,所以第一模式识别到待检测用户患有肺癌的概率较高,第二模型在对待检测用户的互联网数据识别时可能受到其他特征的影响,使得识别到患有肺癌的概率较低。

本发明实施例中在为目标用户确定了监督标签后,再获取该目标用户的用户标识对应的互联网数据作为训练文本集,从训练文本集中确定医学类关键词和一些关联词来分别对第一初始模型和第二初始模型进行优化训练,以得到第一模型和第二模型,最后根据第一模型和第二模型构建疾病标签模型,可以保证疾病标签模型有较高的准确度和较广的覆盖度,提高了疾病标签模型基于互联网数据对新的用户进行疾病估计的准确性。

基于上述方法实施例的描述,在一个实施例中,本发明实施例还提供了一种如图6所示的医学模型的构建装置的结构示意性框图。如图6所示,本发明实施例中的图像渲染装置,包括获取单元601和处理单元602,在本发明实施例中,所述医学模型的构建装置还可以设置在需要对模型构建的智能设备中。

在一个实施例中,所述获取单元601用于:获取待检测用户的互联网数据;所述处理单元602用于:为目标用户确定监督标签;根据所述互联网数据确定所述目标用户的训练文本集;从所述训练文本集中确定医学类关键词,并基于所述医学类关键词和所述监督标签优化第一初始模型,以得到第一模型;获取所述训练文本集中包括的关联词,并基于所述关联词和所述监督标签优化第二初始模型,以得到第二模型;根据得到所述第一模型和所述第二模型构建疾病标签模型。

在一个实施例中,监督标签包括用于标识目标疾病的疾病标签,所述处理单元602用于从所述训练文本集中确定医学类关键词,并基于所述医学类关键词和所述监督标签优化第一初始模型的实施方式为:根据所述疾病标签确定医学类特征词集,所述医学类特征词集中包括与所述疾病标签所标识的目标疾病相关的医学类特征词;基于所述医学类特征词集抽取所述训练文本集中包括的医学类关键词,并生成所述医学类关键词对应的医学类特征信息;根据所述医学类特征信息和所述监督标签优化第一初始模型;其中,所述医学类特征信息包括:医学类关键词及其对应的关键词特征值,所述关键词特征值用于表示所述医学类关键词在所述训练文本集中的重要等级。

在一个实施例中,所述根据所述医学类特征信息和所述监督标签优化第一初始模型,包括:将所述医学类特征信息作为第一初始模型的输入参数,并获取所述第一初始模型输出的疾病识别结果;若所述第一初始模型输出的疾病识别结果所指示的疾病与所述目标疾病不匹配,则优化所述第一初始模型。

在一个实施例中,所述处理单元602用于获取所述训练文本集中包括的关联词,并基于所述关联词和所述监督标签优化第二初始模型的实施方式为:获取所述训练文本集的样本词特征集合;对所述样本词特征集合进行筛选,得到关联词特征集合;根据所述关联词特征集合和所述监督标签优化第二初始模型;其中,关联词特征集合中包括关联词特征信息,所述关联词特征信息包括:关联词及其对应的关联词特征值,所述关联词特征值是根据关联词在对应的目标文本中的词频确定的。

在一个实施例中,所述对所述样本词特征集合进行筛选,得到关联词特征集合,包括:对所述样本词特征集合进行初始筛选,得到筛选样本词集合;将所述筛选样本词集合中的各个样本词按照在所述训练集中的重要等级进行排序,根据排序结果选择前N个样本词作为关联词,其中,N为大于1的正整数;根据得到的关联词生成关联词特征集合。

在一个实施例中,所述对所述样本词特征集合进行初始筛选,包括:删除第一类样本词和/或第二类样本词;所述第一类样本词包括:在所述训练文本集中的词频大于第一词频阈值或者在所述训练文本集中出现的次数大于第一次数阈值的样本词;所述第二类样本词包括:在所述训练文本集中的词频小于第二词频阈值或者在所述训练文本集中出现的次数小于第二次数阈值的样本词。

在一个实施例中,所述监督标签包括用于标识目标疾病的疾病标签,所述根据所述关联词特征集合和所述监督标签优化第二初始模型,包括:将所述关联词特征集合中包括的关联词特征信息作为第二初始模型的输入参数,并获取所述第二初始模型输出的疾病识别结果;若所述第二初始模型输出的疾病识别结果所指示的疾病与所述目标疾病不匹配,则优化所述第二初始模型。

在一个实施例中,所述处理单元602还用于:从医疗系统中获取被记录为患有目标疾病的患者用户的用户标识码,所述患者用户作为所述目标用户,所述监督标签为目标疾病标签。

本发明实施中处理单元602选取了目标用户之后,可为目标用户设置监督标签,并获取单元601获取目标用户的用户标识码对应的互联网数据作为训练文本集,处理单元602从训练文本集中确定医学类关键词和一些关联词分别对第一初始模型和第二初始模型进行优化训练,以得到第一模型和第二模型,最后处理单元602根据第一模型和第二模型构建疾病标签模型,可以保证疾病标签模型有较高的准确度和较广的覆盖度,提高了疾病标签模型基于互联网数据对新的用户进行疾病估计的准确性。

请参见图7为本发明实施例提供的一种疾病标签构建装置的结构示意图。如图7所示的疾病便签构建装置可包括获取单元701和处理单元702。

在一个实施例中,获取单元701用于获取待检测用户的互联网数据;处理单元702用于:从所述待检测用户的互联网数据中确定医学类特征信息;将所述医学类特征信息输入到疾病标签模型中的第一模型中进行识别,得到第一识别结果;从所述待检测用户的互联网数据中确定关联词特征信息;将所述关联词特征信息输入到所述疾病标签模型中的第二模型中进行识别,得到第二识别结果;对所述第一识别结果与所述第二识别结果进行处理,得到所述待检测用户的疾病标签。

在一个实施例中,所述获取单元701的实施方式为:确定待检测用户的网络标识,并获取所述待检测用户的网络标识关联的互联网数据,所述互联网数据包括互联网阅读数据、资讯关注数据、信息发布数据以及关键词搜索结果中的任一种或多种。

本发明实施例中,获取单元701获取到待检测用户的互联网数据后,处理单元702从所述互联网数据中确定出医学类特征信息和关联词特征信息,并分别将医学类特征信息和关联词特征信息输入到第一模型和第二模型中,得到第一识别结果和第二识别结果,最后对第一识别结果和第二识别结果进行处理,得到待检测用户的疾病标签,可保证待检测用户的疾病标签的准确性。

请参见图8,为本发明实施提供的一种智能设备的结构示意图。如图8所示的智能设备包括:一个或多个处理器801和一个或多个存储器802,所述处理器801和存储器802通过总线803相连,存储器803用于存储计算机程序,所述计算机程序包括第一程序指令或第二程序指令,处理器801用于执行所述存储器802存储的第一程序指令或第二程序指令。

所述存储器802可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,RAM);存储器802也可以包括非易失性存储器(non-volatilememory),如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器802还可以包括上述种类的存储器的组合。

所述处理器801可以是中央处理器(Central Processing Unit,CPU)。所述处理器801还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。所述处理器801也可以为上述结构的组合。

本发明实施例中,所述存储器802用于存储计算机程序,所述计算机程序包括第一程序指令,处理器801用于执行存储器802存储的第一程序指令,用来实现上述医学模型的构建方法实施例中的相应方法的步骤。

在一个实施例中,所述处理器801被配置调用所述程序指令用于:为目标用户确定监督标签,并获取与所述目标用户的用户标识码关联的互联网数据;根据所述互联网数据确定所述目标用户的训练文本集;从所述训练文本集中确定医学类关键词,并基于所述医学类关键词和所述监督标签优化第一初始模型,以得到第一模型;获取所述训练文本集中包括的关联词,并基于所述关联词和所述监督标签优化第二初始模型,以得到第二模型;根据得到的所述第一模型和所述第二模型构建疾病标签模型。

在一个实施例中,所述监督标签包括用于标识目标疾病的疾病标签,所述处理器801在用于从所述训练文本集中确定医学类关键词,并基于所述医学类关键词和所述监督标签优化第一初始模型的实施方式为:根据所述疾病标签确定医学类特征词集,所述医学类特征词集中包括与所述疾病标签所标识的目标疾病相关的医学类特征词;基于所述医学类特征词集抽取所述训练文本集中包括的医学类关键词,并生成所述医学类关键词对应的医学类特征信息;根据所述医学类特征信息和所述监督标签优化第一初始模型;其中,所述医学类特征信息包括:医学类关键词及其对应的关键词特征值,所述关键词特征值用于表示所述医学类关键词在所述训练文本集中的重要等级。

在一个实施例中,所述处理器801在用于根据所述医学类特征信息和所述监督标签优化第一初始模型的实施方式为:将所述医学类特征信息作为第一初始模型的输入参数,并获取所述第一初始模型输出的疾病识别结果;若所述第一初始模型输出的疾病识别结果所指示的疾病与所述目标疾病不匹配,则优化所述第一初始模型。

在一个实施例中,所述处理器801在用于获取所述训练文本集中包括的关联词,并基于所述关联词和所述监督标签优化第二初始模型的实施方式为:获取所述训练文本集的样本词特征集合;对所述样本词特征集合进行筛选,得到关联词特征集合;根据所述关联词特征集合和所述监督标签优化第二初始模型;其中,关联词特征集合中包括关联词特征信息,所述关联词特征信息包括:关联词及其对应的关联词特征值,所述关联词特征值是根据关联词在对应的目标文本中的词频确定的。

在一个实施例中,所述处理器801在用于对所述样本词特征集合进行筛选,得到关联词特征集合的实施方式为:对所述样本词特征集合进行初始筛选,得到筛选样本词集合;将所述筛选样本词集合中的各个样本词按照在所述训练集中的重要等级进行排序,根据排序结果选择前N个样本词作为关联词,其中,N为大于1的正整数;根据得到的关联词生成关联词特征集合。

在一个实施例中,所述处理器801在用于所述对所述样本词特征集合进行初始筛选的实施方式为:删除第一类样本词和/或第二类样本词;所述第一类样本词包括:在所述训练文本集中的词频大于第一词频阈值或者在所述训练文本集中出现的次数大于第一次数阈值的样本词;所述第二类样本词包括:在所述训练文本集中的词频小于第二词频阈值或者在所述训练文本集中出现的次数小于第二次数阈值的样本词。

在一个实施例中,所述监督标签包括用于标识目标疾病的疾病标签,所述处理器801在用于根据所述关联词特征集合和所述监督标签优化第二初始模型的实施方式为:将所述关联词特征集合中包括的关联词特征信息作为第二初始模型的输入参数,并获取所述第二初始模型输出的疾病识别结果;若所述第二初始模型输出的疾病识别结果所指示的疾病与所述目标疾病不匹配,则优化所述第二初始模型。

在一个实施例中,所述处理器801还用于:从医疗系统中获取被记录为患有目标疾病的患者用户的用户标识码,所述患者用户作为所述目标用户,所述监督标签为目标疾病标签。

本发明实施例在图8所示的智能设备中,所述存储器802用于存储计算机程序,所述计算机程序包括第二程序指令,处理器801用于执行存储器802存储的第二程序指令,用来实现上述疾病标签构建方法实施例中的相应方法的步骤。

在一个实施例中,所述处理器801被配置调用所述程序指令用于:获取待检测用户的互联网数据;从所述待检测用户的互联网数据中确定医学类特征信息,并将所述医学类特征信息输入到疾病标签模型的第一模型中进行识别,得到第一识别结果;从所述待检测用户的互联网数据中确定关联词特征信息,并将所述关联词特征信息输入到所述疾病标签模型的第二模型中进行识别,得到第二识别结果;对所述第一识别结果与所述第二识别结果进行处理,得到所述待检测用户的疾病标签。

在一个实施例中,所述处理器801在用于所述获取待检测用户的互联网数据的实施方式为:确定待检测用户的网络标识,并获取所述待检测用户的网络标识关联的互联网数据,所述互联网数据包括互联网阅读数据、资讯关注数据、信息发布数据以及关键词搜索结果中的任一种或多种。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上所揭露的仅为本发明部分实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号