首页> 中国专利> 组织机构的画像方法、装置、设备及存储介质

组织机构的画像方法、装置、设备及存储介质

摘要

本申请实施例提供一种组织机构的画像方法、装置、设备及存储介质。该方法包括:获取待画像的组织机构的第一数据和第二数据,第一数据包括待画像的组织机构的运营数据,第二数据包括待画像的组织机构所属行业的行业数据;将第一数据和第二数据输入预设的画像模型中,得到待画像的组织机构的画像并展示;待画像的组织机构的画像用于为待画像的组织机构的决策信息提供参考依据,决策信息包括资源分配信息和/或运营建议信息;预设的画像模型是基于第一样本数据对随机森林训练,及基于第二样本数据对决策树训练,并将两个训练结果融合得到的,第一样本数据包括多个组织机构的历史运营数据,第二样本数据包括多个组织机构所属行业的历史行业数据。

著录项

  • 公开/公告号CN112270350A

    专利类型发明专利

  • 公开/公告日2021-01-26

    原文格式PDF

  • 申请/专利权人 泰康保险集团股份有限公司;

    申请/专利号CN202011149825.1

  • 发明设计人 高桐;顾亮;

    申请日2020-10-23

  • 分类号G06K9/62(20060101);G06N20/00(20190101);G06Q50/26(20120101);

  • 代理机构11205 北京同立钧成知识产权代理有限公司;

  • 代理人朱颖;刘芳

  • 地址 100031 北京市西城区复兴门内大街156号泰康人寿大厦

  • 入库时间 2023-06-19 09:40:06

说明书

技术领域

本申请实施例涉及机器学习技术领域,尤其涉及一种组织机构的画像方法、装置、设备及存储介质。

背景技术

组织机构是指现实中客观存在的实体机构,例如公司、社会组织等。组织机构具有自身的标签数据,组织机构的标签数据在很多场景下有很多用处。例如,组织机构为养老机构,养老机构通过填写机构的基础信息,申请公益捐助,但是公益捐助方需要判断该组织机构是否符合捐赠的要求,以及哪些捐赠对此养老机构的帮助最大。因此,公益捐助方就需要根据该养老机构提供的基础信息,对该养老机构进行画像,得到该养老机构的标签数据。

目前,主要是通过人工根据组织机构提供的信息给出判断,对该组织机构打标签,而人工判断会导致标签结果不准确,以及画像效率低的问题。

发明内容

本申请实施例提供一种组织机构的画像方法、装置、设备及存储介质,以提高对组织机构画像的准确度和效率。

第一方面,本申请实施例提供一种组织机构的画像方法,包括:获取待画像的组织机构的第一数据和第二数据,所述第一数据包括所述待画像的组织机构的运营数据,所述第二数据包括所述待画像的组织机构所属行业的行业数据;将所述待画像的组织机构的第一数据和第二数据输入预设的画像模型中,得到所述待画像的组织机构的画像;展示所述待画像的组织机构的画像,所述待画像的组织机构的画像用于为所述待画像的组织机构的决策信息提供参考依据,所述决策信息包括资源分配信息和/或运营建议信息;其中,所述预设的画像模型是基于第一样本数据对随机森林进行训练,以及和基于第二样本数据对决策树进行预先训练,并将基于第一样本数据对随机森林进行训练得到的训练结果和基于第二样本数据对决策树进行训练的训练结果进行融合得到的,所述第一样本数据包括多个组织机构的历史运营数据,所述第二样本数据包括多个组织机构所属行业的历史行业数据。

第二方面,本申请实施例提供一种组织机构的画像系统,包括:采集设备和数据处理设备;所述采集设备,用于采集待画像的组织机构的第一数据和第二数据,并发送至所述数据处理设备,所述第一数据包括所述待画像的组织机构的运营数据,所述第二数据包括所述待画像的组织机构所属行业的行业数据;所述数据处理设备,用于根据所述待画像的组织机构的第一数据和第二数据,以及预设的画像模型,得到所述待画像的组织机构的画像,并输出至所述终端设备;所述数据处理设备,还用于展示所述待画像的组织机构的画像,所述待画像的组织机构的画像用于为所述待画像的组织机构的决策信息提供参考依据,所述决策信息包括资源分配信息和/或运营建议信息。

第三方面,本申请实施例提供一种电子设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。

本申请实施例提供的组织机构的画像方法、装置、设备及存储介质,通过获取待画像的组织机构的第一数据和第二数据,第一数据包括待画像的组织机构的运营数据,第二数据包括待画像的组织机构所属行业的行业数据;并将待画像的组织机构的第一数据和第二数据输入预设的画像模型中,得到待画像的组织机构的画像;展示所述待画像的组织机构的画像,所述待画像的组织机构的画像用于为所述待画像的组织机构的决策信息提供参考依据,所述决策信息包括资源分配信息和/或运营建议信息;其中,预设的画像模型是基于第一样本数据对随机森林进行训练,以及基于第二样本数据对决策树进行训练,并将基于第一样本数据对随机森林进行训练得到的训练结果和基于第二样本数据对决策树进行训练的训练结果进行融合得到的,第一样本数据包括多个组织机构的历史运营数据,第二样本数据包括多个组织机构所属行业的历史行业数据。由于使用预先训练的预设的画像模型对待画像的组织机构进行画像,而预设的画像模型是基于多个组织机构的历史数据(包括第一样本数据和第二样本数据)预先训练得到的,因而,其能够对待画像的组织机构准确画像,并且画像模型一经训练得到,只要将待画像的组织机构的相关数据输入该画像模型,就可以直接得到画像结果,因此,画像效率高。

附图说明

图1为本申请实施例提供的画像系统的架构图;

图2为本申请实施例提供的组织机构的画像方法流程图;

图3A为本申请另一实施例提供的组织机构的画像方法流程图;

图3B为本申请实施例提供的展示界面的示意图;

图4为本申请实施例提供的训练预设的画像模型的原理图;

图5为本申请另一实施例提供的组织机构的画像方法流程图;

图6为本申请实施例提供的修正预设的画像模型的原理图;

图7为本申请实施例提供的随机森林投标表决的示意图;

图8为本申请实施例提供的终端设备的系统架构图;

图9为本申请实施例提供的组织机构的画像方法原理图;

图10为本申请实施例提供的组织机构的画像装置的结构示意图;

图11为本申请实施例提供的电子设备的框图。

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请实施例提供的组织机构的画像方法,可以适用于图1所示的画像系统。如图1所示,该画像系统10包括:采集设备11、数据服务器12、第一数据分析服务器13、第二数据分析服务器14和终端设备15;其中,数据服务器12、第一数据分析服务器13、第二数据分析服务器14和终端设备15可以认为是数据处理设备。

上述画像系统10可以用于画像模型的训练和应用。在画像模型的训练阶段,画像系统中各个设备的作用具体如下:

采集设备11,用于采集用于训练画像模型的组织机构的相关数据,并处理成符合训练要求的训练数据,且发送至数据服务器12;数据服务器12,用于存储训练数据;第一数据分析服务器13,用于从数据服务器12获取训练数据,并根据训练数据进行训练,得到预设的画像模型,该预设的画像模型可以存储在第一数据分析服务器13或第二数据分析服务器14中。

在画像模型的应用阶段,画像系统中各个设备的作用具体如下:

采集设备11,用于采集待画像的组织机构的相关数据,并发送至第一数据分析服务器13或第二数据分析服务器14;第一数据分析服务器13或第二数据分析服务器14,用于根据待画像的组织机构的相关数据,以及预设的画像模型对该待画像的组织机构进行画像,并将画像结果输出至终端设备15;终端设备15,接收画像结果,并提供给用户,以使用户可以将该画像结果应用至具体的场景中。

应当理解的是,上述实施例介绍的采集设备11、数据服务器12、第一数据分析服务器13、第二数据分析服务器14和终端设备15所实现的功能可以由少于5个的电子设备来完成,例如,由终端设备来完成。

针对现有技术中的如上技术问题,即:目前主要是通过人工根据组织机构提供的信息给出判断,对该组织机构打标签,带来的标签结果不准确,以及画像效率低的问题。本申请实施例提供了如下技术构思:结合组织机构的内部数据和外部数据,使用机器学习模型对组织机构画像,并对内部数据和外部数据采用不同的机器学习方式进行处理。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

图2为本申请实施例提供的组织机构的画像方法流程图。本申请实施例针对现有技术的如上技术问题,提供了组织机构的画像方法,如图2所示,该方法具体步骤如下:

步骤S201、获取待画像的组织机构的第一数据和第二数据。

其中,第一数据包括待画像的组织机构的运营数据,第二数据包括待画像的组织机构所属行业的行业数据,例如组织机构所处的社会环境数据、组织机构所处行业的行业数据。

在一个可选的示例中,以组织机构是养老机构为例,组织机构所处的社会环境数据包括养老机构的所在省份、地理位置等数据。组织机构所处行业的行业数据包括养老行业的老年人的人口数量,各个年龄层人口占比,养老机构的床数、员工数、不同业态(护理、自理、半自理)等收费标准等。

组织机构的运营数据包括:硬件设施、床位、医疗设施的数量等。其能够反映组织机构的运营情况,比如在住人数、员工数量、财务状况等。其中,组织机构的存在形式,如公办、民办、公营、民营等。

第一数据可以反映出组织机构自身的运营情况。第二数据可以反映出组织机构所在的社会环境,组织机构所处行业的行业平均值,发展上限等数据。

可选的,获取待画像的组织机构的第一数据和第二数据,包括:

采集人员手动将word、网页等不同格式的原始数据整理成表格形式的数据,并输入采集设备11中,之后由采集设备11将第一数据和第二数据发送至数据服务器12进行存储;

或者,采集人员手动将word、网页等不同格式的原始数据输入采集设备11中,采集设备11对原始数据进行预处理,得到表格形式的数据,之后再将第一数据和第二数据发送至数据服务器12进行存储。

本实施例的执行主体可以是终端设备,终端设备接收对待画像的组织机构进行画像的画像请求,该画像请求包括第一数据和第二数据,终端设备解析画像请求从而获取到第一数据和第二数据。

步骤S202、将待画像的组织机构的第一数据和第二数据输入预设的画像模型中,得到待画像的组织机构的画像。

其中,预设的画像模型是基于第一样本数据和第二样本数据预先训练得到的,第一样本数据包括多个组织机构的历史运营数据,第二样本数据包括多个组织机构所属行业的历史行业数据。

在一种可选的实施方式中,终端设备在获取到第一数据和第二数据之后,将第一数据和第二数据发送至第一数据分析服务器13,或发送至第二数据分析服务器14,由第一数据分析服务器13或第二数据分析服务器14中存储的预设的画像模型,根据第一数据和第二数据对待画像的组织机构进行画像。

在另一种可选的实施方式中,预设的画像模型还可以存储在终端设备中,则终端设备在获取到第一数据和第二数据之后,由终端设备中存储的预设的画像模型根据第一数据和第二数据对待画像的组织机构进行画像。

步骤S203、将画像结果返回终端设备进行展示,以对待画像的组织机构的决策信息提供参考依据,该决策信息包括资源分配信息和/或运营建议信息。

在相关技术中,养老机构通过填写一些基础信息申请捐助,而捐助机构需要判断该养老机构是否符合捐赠的要求,以及可以对该养老机构进行哪些捐赠。而在本申请实施例中,通过信息化管理工具根据输入的基础信息(第一数据、第二数据)对养老机构做初步画像,并将画像结果返回给捐助机构的管理者所在的终端设备,以使该管理者根据画像结果给出的参考依据对该养老机构进行资源分配和/或给出运营建议方面的决策,例如,可以对该养老机构进行哪些捐赠,以及后期是否要投资、合作等,和该养老机构在后续运营方面的一些建议。从而使得管理者不再需要人工对该养老机构进行画像,判断该养老机构是否符合捐赠的要求,以及可以对该养老机构进行哪些捐赠,提高了对养老机构的画像效率。

本申请实施例通过获取待画像的组织机构的第一数据和第二数据,第一数据包括待画像的组织机构的运营数据,第二数据包括待画像的组织机构所属行业的行业数据;并将待画像的组织机构的第一数据和第二数据输入预设的画像模型中,得到待画像的组织机构的画像;展示所述待画像的组织机构的画像,所述待画像的组织机构的画像用于为所述待画像的组织机构的决策信息提供参考依据,所述决策信息包括资源分配信息和/或运营建议信息;其中,预设的画像模型是基于第一样本数据对随机森林进行训练,以及基于第二样本数据对决策树进行训练,并将基于第一样本数据对随机森林进行训练得到的训练结果和基于第二样本数据对决策树进行训练的训练结果进行融合得到的,第一样本数据包括多个组织机构的历史运营数据,第二样本数据包括多个组织机构所属行业的历史行业数据。由于使用预设的画像模型对待画像的组织机构进行画像,而预设的画像模型是基于多个组织机构的历史数据(包括第一样本数据和第二样本数据)预先训练得到的,因而,其能够对待画像的组织机构准确画像,并且画像模型一经训练得到,只要将待画像的组织机构的相关数据输入该画像模型,就可以直接得到画像结果,不再需要人工对该养老机构进行画像,提高了对养老机构的画像效率。

以上实施例介绍了如何应用预设的画像模型对待画像的组织机构进行画像,而在应用画像模型进行画像之前,还需要通过训练数据训练得到预设的画像模型,下面将结合图3A详细介绍如何训练得到预设的画像模型:

图3A为本申请实施例提供的组织机构的画像方法的流程图。如图3A所示,在将待画像的组织机构的第一数据和第二数据输入预设的画像模型中,得到待画像的组织机构的画像之前,本实施例的方法还包括:

步骤S301、获取第一样本数据和第二样本数据。

其中,第一样本数据包括多个组织机构的历史运营数据,第二样本数据包括多个组织机构所属行业的历史行业数据;第一样本数据和第二样本数据还分别对应有标签数据,即第一样本数据对应有第一标签数据,第二样本数据对应有第二标签数据,其中,第一标签数据、第二标签数据分别用于表示对应的组织机构的实际画像,第一标签数据和第二标签数据可能是相同的,也可能是不同的,还可能是部分相同。

请继续参阅图1,用户通过终端设备15发送训练请求至第一数据分析服务器13,第一数据分析服务器13接收到该训练请求后,从数据服务器12获取样本数据,即多个组织机构的第一样本数据和第二样本数据。其中,多个组织机构的第一样本数据和第二样本数据可以以如下结构化数据的形式,例如表格形式存储在数据服务器12中,下面以一个组织机构的样本数据为例,对样本数据在数据服务器12中的存储形式进行举例说明:

表1 A组织机构的样本数据

步骤S302、根据第一样本数据和对应的第一标签数据对第一随机森林进行训练,得到第一分类结果。

其中,第一样本数据对应的第一标签数据可以是上表中的第一人工分类结果。对于本步骤的具体训练过程,可参见相关技术对于随机森林进行训练的介绍,本实施例在此不再赘述。

其中,以组织机构是养老机构为例,第一样本数据中每一项样本数据(例如上表中的床位、医疗设施数量)具有不同的区间范围,且不同的区间范围对应不同的捐赠信息。以下将通过举例对第一分类结果进行说明:当床位数的范围在预设床位数区间范围,例如低于100,医疗设施数量在预设医疗设施数量区间范围,在住人数在预设在住人数区间范围,员工数量在预设员工数量区间范围,财务状况在预设财务区间范围,养老机构的性质为公办时,对应的捐赠床位数量、医疗设施、信息系统、提供培训等的效果最好。采用每个区间范围里,捐赠效果最好的捐赠数量的最低值,以达到较小的捐赠成本达到相同的捐赠效果,避免资源浪费。

步骤S303、根据第二样本数据和对应的第二标签数据对决策树进行训练,得到第二分类结果。

其中,第二样本数据中每一项样本数据(如上表中的所在省份、地理位置、老年人人口数量、各个年龄层人口占比等)对应有一个捐赠信息,且第二样本数据中每一项样本数据对应有不同的预设权重,第二样本数据中每一项样本数据的捐赠信息和对应的权重的加权和作为第二分类结果。假设第二样本数据包括x项样本数据,则上述内容可以表达为如下公式:

第二分类结果=第二样本数据中第一项样本数据对应的捐赠信息*权重1+第二样本数据中第二项样本数据对应的捐赠信息*权重2+……+第二样本数据中第x项样本数据对应的捐赠信息*权重x。

其中,权重1、权重2……权重x是预先根据经验值设定好的。

例如,将第二样本数据按照所在省份为省会、二线城市、三线城市……贫困县进行分类,以及按照所在地理位置、按照人均GDP、交通等基本属性归类,且不同类别对应不同的捐赠信息,例如,省会、二线城市、三线城市分别对应不同的捐赠信息,不同地理位置对应不同的捐赠信息,不同人均GDP对应不同的捐赠信息,不同交通条件对应不同的捐赠信息。

可选的,还可以是取第二样本数据中所有项样本数据(如上表中的所在省份、地理位置、老年人人口数量、各个年龄层人口占比等)对应的捐赠信息的平均值作为第二分类结果。

另外,第二样本数据的同一条件还可以对应有多个捐赠信息,每个捐赠信息对应有不同的捐赠效果,例如,当养老机构所在城市为省会城市,则省会城市可以分别对应有多个不同的捐赠信息,该多个不同的捐赠信息分别对应不同的捐赠效果(例如捐赠效果最好、捐赠效果好、捐赠效果一般)。

因此,当符合对应的区间范围,还可以评估该捐赠信息(例如应捐赠物资信息)的捐赠效果,选取捐赠效果较好的捐赠信息。老人人口数量等其他条件同理,均有对应的维度评估。

其中,第二样本数据对应的第二标签数据可以是上表中的第二人工分类结果。对于本步骤的具体训练过程,可参见相关技术对决策树进行训练的介绍,本实施例在此不再赘述。

步骤S304、根据第一样本数据和第二样本数据,得到总样本数据,以及根据第一分类结果和第二分类结果,得到总标签数据。

具体的,本步骤是将第一样本数据和第二样本数据的并集作为总样本数据,将第一分类结果、第二分类结果的并集作为总标签数据。仍然以一个组织机构的样本数据为例,对总样本数据的形式进行举例说明:

表2 A组织机构的总样本数据

步骤S305、根据总样本数据和对应的总标签数据对第二随机森林进行训练,得到预设的画像模型。

对于本步骤的具体训练过程,可参见相关技术对于随机森林的训练过程,本实施例在此不再赘述。

本实施例中,由于第一样本数据是反映组织机构内部运营状况的数据,第二样本数据是反映组织机构所在行业的数据,行业数据相较于组织机构内部的数据来说较为稳定,因此,对于第一样本数据采用随机森林进行训练,对于第二样本数据采用决策树进行训练,之后再将二者的训练结果加入样本数据中,形成新的样本数据,从而扩大样本数据量,更加有利于模型训练。

图3B为本申请实施例提供的展示界面的示意图。如图3B所示,在图3A所示实施例的基础上,本申请实施例还可以提供如下展示界面:申请捐助的组织机构可以在如图3B左侧提供页面上填写一些基本信息,例如该组织机构的名称、目前的床位数、医疗设施数量、在住人数、员工数量和财务状况等,本申请实施例的预设的画像模型就会根据该组织机构的基本信息对该组织机构进行画像,并将画像结果进行展示(如图3B中右侧提供的展示页面),其展示的页面效果图可以参见如图3B所示。

需要说明的是,图3B所示出的展示页面是为了方便读者理解做出的示例性说明,并不对展示页面的具体形式和展现的内容进行具体限定,本领域技术人员可以根据实际需求对展示页面的具体形式和展现的内容进行调整,本申请实施例在此不做具体限定。

可选的,本申请实施例提供的展示页面上还可以提供针对该组织机构的多项资源分配信息,而不同的资源分配信息对应不同的资源分配效果。举例来说,可以给出资源分配效果最好、资源分配效果次之、资源分配效果一般等对应的资源分配信息。以两个资源分配信息为例,多项资源分配信息包括第一资源分配信息、第二资源分配信息,而第一资源分配信息对应的资源分配效果最好,其次是第二资源分配信息。以养老机构为例,第一资源分配信息、第二资源分配信息中对应的床位数、医疗设施数量不同。图4为本申请实施例提供的训练预设的画像模型的原理图。如图4所示,该方法包括:

a、提取内部数据和外部数据:

具体的,在获取到组织机构的原始数据,例如word,txt等格式的文本数据,需要从原始数据中提取出组织机构的内部数据和外部数据。

b、生成第一子样本数据和第二子样本数据。

具体的,是根据提取的组织机构的内部数据中的静态数据和动态数据,分别生成结构化,例如表格形式的第一子样本数据、第二子样本数据;

c、生成第二样本数据。

具体的,是根据提取的组织机构的外部数据,生成结构化,例如表格形式的第二样本数据。

d、生成总样本数据。

具体的,是根据第一样本数据、第二样本数据生成总样本数据。

e、根据总样本数据建立随机森林训练集。

具体的,该随机森林训练集可以用来训练随机森林,得到预设的画像模型。总样本数据包括N个样本,其中,根据总样本数据建立随机森林训练集,包括:

步骤e1、从总样本数据中随机选取n个样本,其中,n个样本中每个样本对应有K个属性。

步骤e2、从n个样本中每个样本的K个属性中随机选取k个属性。

步骤e3、根据n个样本和每个样本的k个属性,得到训练数据集。

步骤e4、重复执行m次上述步骤e1至步骤e3,得到m个训练数据集。

为了提高上述训练得到的画像模型的精准度,本实施例在根据总样本数据和对应的总标签数据对第二随机森林进行训练,得到预设的画像模型之后,还可以对预设的画像模型进行修正,其中,修正后的预设的画像模型用于对组织机构进行画像。下面将详细介绍如何对预设的画像模型进行修正:

如图5所示,在上述实施例的基础上,对预设的画像模型进行修正,包括:

步骤S501、获取其他组织机构的第一数据和第二数据。

其中,其他组织结构的第一数据包括其他组织机构的运营数据,其他组织机构的第二数据包括其他组织机构所属行业的行业数据;其他组织机构的第一数据对应有第三标签数据,其他组织机构的第二数据对应有第四标签数据,第四标签数据、第四标签数据分别用于表示其他组织机构的实际画像。

对于其他组织机构的第一数据、第二数据的获取过程,与图3所示实施例的组织机构的第一样本数据、第二样本数据的获取过程类似,具体可以参见图3所示实施例的组织机构的第一样本数据、第二样本数据的获取过程,此处不再赘述。

步骤S502、根据总样本数据和总标签数据,对其他组织机构的第一数据和第二数据进行特征提取,得到与第一数据对应的第一画像特征和与第二数据对应的第二画像特征。

本实施例中,随机森林在训练完后,能够给出总样本数据中哪些特征(例如第一样本数据中某一项样本数据,或者第二样本数据中某一项样本数据)比较重要。因而在后续的组织机构的特征提取中,可以针对重要的特征进行提取。

步骤S503、比较第一画像特征和第三标签数据,以及比较第二画像特征和第四标签数据。

具体的,本步骤是比较第一画像特征和其他组织机构的第一数据对应的第三标签数据是否相同,以及比较第二画像特征和其他组织机构的第二数据对应的第四标签数据是否相同,或者,是否在误差范围内。

步骤S504、根据比较结果对预设的画像模型进行修正,得到修正后的预设的画像模型。

例如,若比较结果指示第一画像特征和其他组织机构的第一数据对应的第三标签数据不相同,或者第二画像特征和其他组织机构的第二数据对应的第四标签数据不相同,则需要根据比较结果对预设的画像模型进行修正,得到修正后的预设的画像模型。

再例如,若比较结果指示第一画像特征和其他组织机构的第一数据对应的标签数据不在误差范围内,或者第二画像特征和其他组织机构的第二数据对应的标签数据不在误差范围内,则需要根据比较结果对预设的画像模型进行修正,得到修正后的预设的画像模型。

其中,根据比较结果对预设的画像模型进行修正,包括:对如图3所示实施例训练得到的预设的画像模型的模型参数进行调节。

示例性地,如图3所示实施例训练得到的预设的画像模型的模型参数包括如下至少一项:

n_estimators:随机森林中「树」的数量。

max_features:每个分割处的特征数。

max_depth:每棵树可以拥有的最大「分裂」数。

min_samples_split:在树的节点分裂前所需的最少观察数。

min_samples_leaf:每棵树末端的叶节点所需的最少观察数。

bootstrap:是否使用bootstrapping来为随机林中的每棵树提供数据。(bootstrapping是从数据集中进行替换的随机抽样)

如图6所示,在图4的基础上,还包括:

预处理:将其他组织的原始数据处理成结构化,例如表格形式的数据,预处理的数据对应有标签数据,用于反映其他组织机构的实际画像。

提取特征:根据总样本数据对预处理的数据提取特征;

随机森林验证:将提取的特征输入训练得到的预设的画像模型,得到画像结果,再使用画像结果和实际画像比较;

输出结论:将比较结果输出,其中,比较结果可以用于对图中虚线左半边部分得到的预设的画像模型进行修正。

对于反映组织机构内部数据的第一样本数据而言,其同样包括静态数据(以下称为第一子样本数据)和动态数据(以下称为第二子样本数据),其中,静态数据是指组织机构对应的样本数据是不随时间变化的数据,动态数据是指组织机构对应的样本数据是随时间变化的数据。

对于静态数据,可以使用分类树模型进行训练。具体的,根据第一样本数据和对应的标签数据对第一随机森林进行训练,得到第一分类结果,包括:

步骤a1、根据第一样本数据和对应的第一标签数据对多个待训练的分类树进行训练,得到多个第一分类子结果。

其中,每个第一待训练的分类树对应一个第一分类子结果。

对于根据第一样本数据和对应的第一标签数据对多个待训练的分类树进行训练的过程,可以参见现有技术中对分类树进行训练的过程,此处不再赘述。

步骤a2、将多个第一分类子结果中相同分类子结果最多的第一分类子结果,作为第一分类结果。

本实施例中,在确定分类树训练过程中的分支条件时,可以取同一层所有分支假设函数的基尼系数的平均。比较分裂前的基尼系数和分裂后的基尼系数减少了多少,基尼系数减少的越多,则选取该分裂规则。以数据集D为例,基尼系数反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此数据集D的基尼系数Gini(D)越小,则数据集D的纯度越高。

对于动态数据,可以使用回归树模型进行训练。具体的,根据第一样本数据和对应的第一标签数据对第一随机森林进行训练,得到第一分类结果,包括:

步骤b1、根据第二样本数据和对应的第一标签数据对多个待训练的回归树进行训练,得到多个第二分类子结果。

其中,每个第二待训练的分类树对应一个第二分类子结果。

对于根据第二样本数据和对应的第一标签数据对多个待训练的回归树进行训练的过程,可以参见现有技术中对回归树进行训练的过程,此处不再赘述。

步骤b2、将多个第二分类子结果的平均值,作为第一分类结果。

本实施例中,在确定回归树训练过程中的分支条件时,是取回归树同一层所有分支假设函数的均值平方差损失(MSE)作为第一分类结果。

其中,根据总样本数据和对应的总标签数据对第二随机森林进行训练,得到预设的画像模型,包括:

步骤c1、从总样本数据中随机选取n个样本。

其中,总样本数据包括N个样本,随机选取的n个样本中每个样本对应有K个属性。

步骤c2、从n个样本中每个样本的K个属性中随机选取k个属性。

步骤c3、根据n个样本和每个样本的k个属性,得到训练数据集;

步骤c4、重复执行m次上述步骤c1至步骤c3,得到m个训练数据集。

步骤c5、根据m个训练数据集,对m个待训练的决策树进行训练,得到m个训练结果。

步骤c6、通过投票表决法对m个训练结果进行投票表决,得到分类结果。

可选的,投票表决法包括:一票否决制、少数服从多数、加权多数等。

步骤c7、根据分类结果和对应的标签数据之间的差异,调整待训练的决策树的参数,直至达到收敛条件,得到预设的画像模型。

如图7所示,本实施例是从总样本数据(假设总样本数据包括N个数据点)中重采样选出n个样本,并且采用有放回的采样,也就是每次采样的总样本数据中包括样本数据点个数均为N),之后,在采样得到的每个样本上,对这n个样本建立分类器,其中,分类器可以选取ID3、C4.5、CART、SVM、LOGISTIC,重复以上两步m次,得到m个分类器,最后根据这m个分类器的投票结果,决定待画像的组织机构的第一数据、第二数据属于哪一类。

本实施例中采用有效放回的机制是因为如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,都是“片面的”,也就是说每棵树训练出来的结果都是有很大的差异的;而随机森林最后的分类取决于多棵树(弱分类器)的投票表决,这种表决应该是“求同”,因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的。

下面通过图8和图9对本实施例涉及到的系统架构和流程进行说明:

如图8所示,在本实施例中,若所有的功能由一个电子设备完成,则该电子设备包括:数据处理模块、大数据平台和对接应用模块;

其中,数据处理模块,用于对组织机构的原始数据进行数据处理,处理成结构化数据,其中,处理得到的数据包括组织机构的基础属性数据、运营倾向数据和外部数据;

大数据平台,包括数据计算模块、建模学习模块、画像存储模块和元数据存储模块;

其中,数据计算模块,可以采用Spark SQL或者Spark进行数据计算;

建模学习模块,使用python语言进行建模学习,得到预设的画像模型。

画像存储模块,使用Mongodb数据库进行存储训练得到的预设的画像模型;

元数据存储模块,用于存储数据处理模块处理完成的数据。

对接应用模块,包括数据处理单元、数据验证单元、数据探索单元和策略匹配单元;

其中,数据处理单元,用于将原始数据处理为结构化的数据,以及对表关系建模等;

数据验证单元,用于将输入预设的画像模型中得到的画像数据,和实际画像数据进行比对,以验证训练得到的随机森林模型是否需要修正。

数据探索单元,用于根据已有的数据,对未来数据进行假设和推演。

策略匹配单元,用于根据预设的画像模型输出的画像结果,对组织机构进行策略匹配。其中,画像结果和策略之间具有对应关系,在得到画像结果后,可以直接根据画像结构输出相匹配的策略。举例来说,捐赠机构根据养老机构的画像结果,输出对该养老机构是否捐赠,以及捐赠哪些项目等。

如图9所示,本实施例的组织机构的画像方法可以包括以下几个大的处理过程:

数据采集:包括采集组织机构的内部数据和外部数据,其中,内部数据包括组织机构的基本信息、工商信息、运营数据等;外部数据包括行业规模、人口基数、国内生产总值(GDP)数据等;

数据处理:包括对数据进行分类、聚焦、关联,以及特征提取和标签化等;其中,分类包括对原始数据进行归纳、整理等;聚焦包括将能够量化、评价(比如可以列出等级)的原始数据提取出来。将不好处理(无法判定评定标准)的原始数据边缘化、模糊化;关联包括以组织机构为单位,将具有相同特征的原始数据一起处理,在相同原始数据的基础上找出不同,以便于后续的特征提取和标签化。其中,数据处理可以理解为前述实施例介绍的对原始数据进行预处理,得到表格形式的数据。

数据模型:其包括使用数据处理得到的数据和预先训练得到的画像模型对组织机构进行画像;

策略分析:包括根据画像结果确定相应的策略,或者直接输出画像结果。

在本申请的一个可选的实施例中,本申请实施例还可以为用户提供对组织机构的基础信息进行修改的功能。具体如下:

获取用户输入的第一修改数据和/或第二修改数据,所述第一修改数据是基于所述第一数据进行修改得到的数据,所述第二修改数据是基于所述第二数据进行修改得到的数据;

将所述第一修改数据和/或第二修改数据输入预设的画像模型中,得到所述待画像的组织机构的画像修改结果;

展示所述待画像的组织机构的画像修改结果,所述待画像的组织机构的画像修改结果用于为所述待画像的组织机构的决策信息提供参考依据,所述决策信息包括资源分配信息和/或运营建议信息。

举例来说,用户可以在如图3B所示的展示页面上对组织机构的基础信息进行修改,从而得到修改后的基础信息对应的画像结果。在一个可选的示例中,用户可以根据画像结果在如图3B所示的展示页面上输入该组织机构在得到捐赠之后,在未来几年的基础信息,从而得到该组织机构在未来几年的运营建议。

图10为本申请实施例提供的组织机构的画像装置的结构示意图。该组织机构的画像装置具体可以是上述实施例中的第一数据分析服务器13、第二数据分析服务器14或终端设备15,或第一数据分析服务器13、第二数据分析服务器14、终端设备15的部件(例如芯片或者电路)。本申请实施例提供的组织机构的画像装置可以执行组织机构的画像方法实施例提供的处理流程,如图10所示,组织机构的画像装置100包括:获取模块101和画像模块102和展示模块103;其中,获取模块101,用于获取待画像的组织机构的第一数据和第二数据,第一数据包括待画像的组织机构的运营数据,第二数据包括所述待画像的组织机构所属行业的行业数据;画像模块102,用于将待画像的组织机构的第一数据和第二数据输入预设的画像模型中,得到所述待画像的组织机构的画像;展示模块103,用于展示所述待画像的组织机构的画像,所述待画像的组织机构的画像用于为所述待画像的组织机构的决策信息提供参考依据,所述决策信息包括资源分配信息和/或运营建议信息;其中,所述预设的画像模型是基于第一样本数据对随机森林进行训练,以及基于第二样本数据对决策树进行训练,并将基于第一样本数据对随机森林进行训练得到的训练结果和基于第二样本数据对决策树进行训练的训练结果进行融合得到的,所述第一样本数据包括多个组织机构的历史运营数据,所述第二样本数据包括多个组织机构所属行业的历史行业数据。

在一些实施例中,组织机构的画像装置100还包括:训练模块104,用于获取第一样本数据和第二样本数据,所述第一样本数据包括多个组织机构的历史运营数据,所述第二样本数据包括多个组织机构所属行业的历史行业数据;所述第一样本数据对应有第一标签数据,所述第二样本数据对应有第二标签数据,所述第一标签数据、第二标签数据分别用于表示对应的组织机构的实际画像;根据所述第一样本数据和对应的第一标签数据对第一随机森林进行训练,得到第一分类结果;根据所述第二样本数据和对应的第二标签数据对决策树进行训练,得到第二分类结果;根据所述第一样本数据和所述第二样本数据,得到总样本数据,以及根据所述第一分类结果和所述第二分类结果,得到总标签数据;根据所述总样本数据和对应的总标签数据对第二随机森林进行训练,得到所述预设的画像模型。

在一些实施例中,组织机构的画像装置100还包括:修正模块105,用于对预设的画像模型进行修正,其中,修正后的预设的画像模型用于对所述组织机构进行画像;其中,修正模块105对所述预设的画像模型进行修正,具体包括:获取其他组织机构的第一数据和第二数据,所述其他组织结构的第一数据包括所述其他组织机构的运营数据,所述其他组织机构的第二数据包括所述其他组织机构所属行业的行业数据;所述其他组织机构的第一数据对应有第三标签数据,所述其他组织机构的第二数据对应有第四标签数据,所述第三标签数据、第四标签数据用于表示所述其他组织机构的实际画像;根据所述总样本数据和总标签数据,对所述其他组织机构的第一数据和第二数据进行特征提取,得到与所述第一数据对应的第一画像特征和与所述第二数据对应的第二画像特征;比较所述第一画像特征和所述其他组织机构的第一数据对应的第三标签数据,以及比较所述第二画像特征和所述其他组织机构的第二数据对应的第四标签数据;根据比较结果对所述预设的画像模型进行修正,得到所述修正后的预设的画像模型。

在一些实施例中,所述第一样本数据包括第一子样本数据,所述第一子样本数据为静态数据,所述静态数据是指所述组织机构对应的样本数据是不随时间变化的数据;所述第一随机森林包括多个待训练的分类树;

其中,训练模块104根据所述第一样本数据和对应的标签数据对第一随机森林进行训练,得到第一分类结果,具体包括:

根据所述第一样本数据和对应的第一标签数据对所述多个待训练的分类树进行训练,得到多个第一分类子结果,其中,每个第一待训练的分类树对应一个第一分类子结果;

将所述多个第一分类子结果中相同分类子结果多的第一分类子结果,作为所述第一分类结果。

在一些实施例中,所述第一样本数据包括第二子样本数据,所述第二子样本数据为动态数据,所述动态数据是指所述组织机构对应的样本数据是随时间变化的数据;所述第一随机森林包括多个待训练的回归树;

其中,训练模块104根据所述第一样本数据和对应的标签数据对第一随机森林进行训练,得到第一分类结果,具体包括:

根据所述第二样本数据和对应的第一标签数据对所述多个待训练的回归树进行训练,得到多个第二分类子结果,其中,每个第二待训练的分类树对应一个第二分类子结果;

将所述多个第二分类子结果的平均值,作为所述第一分类结果。

在一些实施例中,训练模块104根据所述总样本数据和对应的标签数据对第二随机森林进行训练,得到所述预设的画像模型,具体包括:

从所述总样本数据中随机选取n个样本,所述n个样本中每个样本对应有K个属性;

从所述n个样本中每个样本的K个属性中随机选取k个属性;

根据所述n个样本和每个样本的k个属性,得到训练数据集;

重复执行m次上述步骤,得到m个训练数据集;

根据m个训练数据集,对m个待训练的决策树进行训练,得到m个训练结果;

通过投票表决法对所述m个训练结果进行投票表决,得到分类结果;

根据所述分类结果和对应的标签数据之间的差异,调整所述待训练的决策树的参数,直至达到收敛条件,得到所述预设的画像模型。

在一些实施例中,获取模块101,还用于获取用户输入的第一修改数据和/或第二修改数据,所述第一修改数据是基于所述第一数据进行修改得到的数据,所述第二修改数据是基于所述第二数据进行修改得到的数据;画像模块102,还用于将所述第一修改数据和/或第二修改数据输入预设的画像模型中,得到所述待画像的组织机构的画像修改结果;展示模块103,还用于展示所述待画像的组织机构的画像修改结果,所述待画像的组织机构的画像修改结果用于为所述待画像的组织机构的决策信息提供参考依据,所述决策信息包括资源分配信息和/或运营建议信息。

图10所示实施例的组织机构的画像装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图11为本申请实施例提供的电子设备的结构示意图。该电子设备具体可以是上述实施例中的第一数据分析服务器13、第二数据分析服务器14或终端设备15。本申请实施例提供的电子设备可以执行组织机构的画像方法实施例提供的处理流程,如图11所示,电子设备110包括:存储器111、处理器112、计算机程序和通讯接口113;其中,计算机程序存储在存储器111中,并被配置为由处理器112执行以上方法实施例的具体实施过程。

图11所示实施例的电子设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

另外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的组织机构的画像方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号