首页> 中国专利> 可信度分析模型的训练方法、可信度分析方法及相关装置

可信度分析模型的训练方法、可信度分析方法及相关装置

摘要

本发明提供的可信度分析模型的训练方法、可信度分析方法及相关装置,方法包括:获得多个用户各自对应的行为特征数据集;所述行为特征数据集中包含多个行为特征以及每个行为特征的特征值;根据所述多个行为特征各自对应的全部特征值,确定所述多个行为特征各自对应的置信度区间;根据所述多个行为特征各自对应的置信度区间以及所述行为特征数据集,训练初始的可信度分析模型的模型参数,得到训练后的可信度分析模型。与现有技术相比,本发明可以为后续获得准确的可信度分析模型提供可靠的训练数据,利用每个行为特征的置信度区间来训练可信度分析模型,可以提高模型的可信度和准确度。

著录项

  • 公开/公告号CN114064440A

    专利类型发明专利

  • 公开/公告日2022-02-18

    原文格式PDF

  • 申请/专利权人 恒生电子股份有限公司;

    申请/专利号CN202210051516.3

  • 发明设计人 刘洋;陈爱明;蔡忠伟;

    申请日2022-01-18

  • 分类号G06F11/34(2006.01);G06F21/12(2013.01);

  • 代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463;

  • 代理人张欣欣

  • 地址 310053 浙江省杭州市滨江区江南大道3588号恒生大厦11楼

  • 入库时间 2023-06-19 15:49:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-13

    发明专利申请公布后的驳回 IPC(主分类):G06F11/34 专利申请号:2022100515163 申请公布日:20220218

    发明专利申请公布后的驳回

  • 2022-03-08

    实质审查的生效 IPC(主分类):G06F11/34 专利申请号:2022100515163 申请日:20220118

    实质审查的生效

说明书

技术领域

本发明涉及网络安全技术领域,具体而言,涉及一种可信度分析模型的训练方法、可信度分析方法及相关装置。

背景技术

随着金融软件技术在各行业不断的深入应用和发展,在给行业带来便利的同时,也带来了软件使用的安全性挑战。

目前,针对用户在使用金融软件系统过程中的一些异常的、恶意的使用行为还没有较好办法进行识别,因此对于用户行为的可信度评估就变尤为必要了。现有的用户可信度分析方法单一固定、由于不能够度量用户行为特征之间关联关系,使得对于异常用户行为的挖掘不能够充分,评估结果不够准确、可信度不高。

发明内容

本发明的目的之一在于提供一种可信度分析模型的训练方法、可信度分析方法及相关装置,用以解决上述技术问题。

第一方面,本发明提供一种可信度分析模型的训练方法,所述方法包括:获得多个用户各自对应的行为特征数据集;所述行为特征数据集中包含多个行为特征以及每个行为特征的特征值;根据所述多个行为特征各自对应的全部特征值,确定所述多个行为特征各自对应的置信度区间;根据所述多个行为特征各自对应的置信度区间以及所述行为特征数据集,训练初始的可信度分析模型的模型参数,得到训练后的可信度分析模型。

第二方面,本发明提供一种可信度分析方法,所述方法包括:获得待分析用户在预设时间段内的行为日志数据集;根据所述行为日志数据集,确定所述待分析用户对应的行为特征数据集;所述行为特征数据集中包含多个行为特征以及每个行为特征的特征值;将所述行为特征数据集输入到训练后的可信度分析模型中,输出所述待分析用户的行为可信度;其中,所述可信度分析模型是根据多个用户的行为特征数据集以及所述多个行为特征各自对应的置信度区间训练而成。

第三方面,本发明提供一种可信度分析模型的训练装置,包括:获得模块,用于获得多个用户各自对应的行为特征数据集;所述行为特征数据集中包含多个行为特征以及每个行为特征的特征值;确定模块,用于根据所述多个行为特征各自对应的全部特征值,确定所述多个行为特征各自对应的置信度区间;训练模块,用于根据所述多个行为特征各自对应的置信度区间以及所述行为特征数据集,训练初始的可信度分析模型的模型参数,得到训练后的可信度分析模型。

第四方面,本发明提供一种可信度分析装置,包括:获取模块,用于获得待分析用户在预设时间段内的行为日志数据集;分析模块,用于根据所述行为日期数据集,确定所述待分析用户对应的行为特征数据集;所述行为特征数据集中包含多个行为特征以及每个行为特征的特征值;用于将所述行为特征数据集输入到训练后的可信度分析模型中,输出所述待分析用户对应的可信度分析结果;其中,所述可信度分析模型是根据多个用户的行为特征数据集以及所述多个行为特征各自对应的置信度区间训练而成。

第四方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法或者实现第二方面所述的方法。

第五方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法或者实现第二方面所述的方法。

本发明提供的可信度分析模型的训练方法、可信度分析方法及相关装置,方法包括:获得多个用户各自对应的行为特征数据集;所述行为特征数据集中包含多个行为特征以及每个行为特征的特征值;根据所述多个行为特征各自对应的全部特征值,确定所述多个行为特征各自对应的置信度区间;根据所述多个行为特征各自对应的置信度区间以及所述行为特征数据集,训练初始的可信度分析模型的模型参数,得到训练后的可信度分析模型。与现有技术相比,本发明通过获得多个用户的行为特征数据集来确定多个行为特征的置信度区间,通过多个行为特征来度量用户行为的可信度,具有一定的说服力,同时为后续获得准确的可信度分析模型提供可靠的训练数据,利用每个行为特征的置信度区间来训练可信度分析模型,可以提高模型的可信度和准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为一种应用环境示意图;

图2为本发明实施例提供的电子设备200的一种示意性结构框图;

图3为本发明实施例提供的可信度分析模型的训练方法的示意性流程图;

图4为本发明实施例提供的步骤S302的一种实施方式的示意性流程图;

图5为本发明实施例提供的可信度分析方法的示意性流程图;

图6为本发明实施例提供的可信度分析模型的训练装置600的一种功能模块图;

图7为本发明实施例提供的可信度分析装置700的一种功能模块图。

图标:102-终端;104-服务设备;200-电子设备;201-存储器;202-处理器;203-通信接口;600-可信度分析模型的训练装置;610-获得模块;620-确定模块;630-训练模块;700-可信度分析装置;710-获取模块;720-分析模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。

请参见图1,图1为一种应用环境示意图,在该应用环境中包括终端102和服务设备104,其中,终端102和服务设备104可以通信连接。

服务设备104可以为终端102提供各种类型的服务,包括但不限于是金融服务,用户在安装了服务型软件的终端102 (如:智能手机、平板电脑、台式机等)上通过身份认证后,可以在服务型软件上进行的一系列操作,包括但不限于是在软件上进行浏览、点击、跳转、转发、下载等一系列操作动作。服务设备104可以获得操作过程中产生的路径、动作、时间等的会话信息,进而根据获得会话信息进行用户行为分析,从而实现能够动态且实时的监控合法用户在服务型软件使用过程中做出的非法的、异常的行为,提升系统用户行为的可信性。

其中,终端102可以但不限于是:台式电脑、笔记本电脑或智能手机等终端设备,服务设备104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。

需要说明的是,本发明上述实施例中,在将用户操作过程中产生的用户行为特征数据提供给服务设备104之前,以及服务设备104收集训练样本之前,均需通过明示的形式获得终端102对应的用户同意,才能够将用户行为特征数据提供给服务设备104,以及服务设备104才能收集训练样本。

还需要说明的是,服务设备104在根据用户信息从数据库获取用户的用户行为特征数据以及在收集训练样本的过程中,均以公开形式向相关用户提供收集、使用及存储的说明,并获得用户授权。在收集训练样本的过程中,不包含与本实施例提供的可信度分析的服务无关的个人信息。

下面以金融软件为例,介绍本发明实施例提供的可信度分析模型的训练方法。

众所周知,随着金融软件技术在各行业不断的深入应用和发展,带来行业便利的同时,也带来了软件使用的安全性挑战,以至于用户对于金融软件系统安全性要求也越来越高。

其中,金融软件可以由不同的金融机构提供,金融机构可以包括但不限于银行、证券、保险、信托、基金等机构。

目前,针对金融软件系统的安全性威胁主要来自两个方面,一方面来自金融软件系统外部的攻击行为,这类型的攻击行为可以通过可信计算技术、网络隔离、防火墙等手段,得到有效的控制。另一方面来自软件系统自身的用户在使用系统过程中的一些异常的、恶意的使用行为,由于软件系统通过权限控制敏感操作和数据的行为较为单一,不能够防止合法用户利用自身权限做出敏感操作行为,易造成系统软件系统安全问题,不能及时制止。

为了解决上述问题,相关技术提出了针对金融软件系统的用户行为进行度量评估的技术方案,现有的评估方法主要是基于收集用户行为关键性指标,对比度量指标表,通过签名的方法标注软件用户行为实现度量评估。比如:对用户行为日志数据做预处理和统计分析,包括删除异常值、无效点击、特定属性排序、分割会话等,以及统计并用图表展示用户行为的数据指标,例如功能操作次数统计、功能时间间隔、会话序列长度等。

然而,上述评估方法单一固定、由于不能够度量用户行为特征之间关联关系,使得对于异常用户行为的挖掘不能够充分,评估结果不够准确、可信度不高。

为了解决相关技术存在的上述缺陷,本发明实施例提供了一种用于分析用户行为的可信度分析模型,通过该可信度分析模型可以实现对用户行为的可信性分析。

首先请参阅图2,图2为本发明实施例提供的电子设备200的一种示意性结构框图。电子设备200可以是训练神经网络模型以实现本发明实施例提供的可信度分析模型的设备,和/或,是运行训练完成的可信度分析模型以实现本发明实施例提供的可信度分析方法的设备,比如手机、个人电脑(personal computer,PC)、平板电脑、服务器等等。

电子设备200包括存储器201、处理器202和通信接口203,该存储器201、处理器202和通信接口203相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器201可用于存储软件程序及模块,如本发明实施例提供的可信度分析模型的训练装置600或可信度分析装置700对应的程序指令/模块,可以软件或固件(firmware)的形式存储于存储器201中或固化在电子设备200的操作系统(operating system,OS)中,处理器202通过执行存储在存储器201内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口203可用于与其他节点设备进行信令或数据的通信。

其中,存储器201可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器202可以是一种集成电路芯片,具有信号处理能力。该处理器202可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解,图2所示的结构仅为示意,电子设备200还可以包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

下面以图2所示的电子设备200作为执行主体为例,对本发明实施例中可信度分析模型的训练方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参见图3,图3为本发明实施例提供的可信度分析模型的训练方法的示意性流程图。

S301,获得多个用户各自对应的行为特征数据集;行为特征数据集中包含多个行为特征以及每个行为特征的特征值。

S302,根据多个行为特征各自对应的全部特征值,确定多个行为特征各自对应的置信度区间。

S303,根据多个行为特征各自对应的置信度区间以及行为特征数据集,训练初始的可信度分析模型的模型参数,得到训练后的可信度分析模型。

根据本发明实施例提供的可信度分析模型的训练方法,首先获得多个用户各自对应的行为特征数据集,然后根据行为特征数据集中多个行为特征各自对应的特征值,确定每个行为特征的置信度区间,进而基于确定的置信度区间和该行为特征数据集进行模型训练,得到训练完成的可信度分析模型,上述可信度分析模型具有结合多个行为特征对用户行为进行分析的效果,保证评估结果准确型、可信性。

下面对上述示例性步骤S301至S303进行详细介绍和说明。

在步骤S301中、获得多个用户各自对应的行为特征数据集。

在本发明实施例中,行为特征数据集中包含多个行为特征以及每个行为特征的特征值,多个行为特征指的是用来度量用户行为可信度的指标,本发明实施例中的多个行为特征可以分别为:

1.登录系统的次数:指用户通过登录页面访问软件系统的有效登录次数和无效登录次数;

2.不同IP地址类型次数:指用户使用不同的IP地址访问系统,每种IP地址对应的总访问次数;

3.不同浏览器类型次数:指用户使用不同的浏览器类型的访问系统,每种浏览器类型对应的总访问次数;

4.不同操作系统类型次数:指用户使用不同的操作系统访问系统,每种操作系统对应的总访问次数;

5.非工作时间登录系统的次数:指用户在工作日指定的以外时间,通过登录页面访问软件系统的有效次数和无效次数;

6.非工作时间不同IP地址类型次数:指用户在工作日指定的以外时间使用不同的IP地址类型访问系统,每种IP地址对应的总访问次数;

7.非工作时间不同浏览器类型次数:指用户在工作日指定的以外时间使用不同的浏览器访问系统,每种浏览器类型对应的总访问次数;

8.非工作时间不同操作系统类型次数:指用户在工作日指定的以外时间使用不同的操作系统访问系统,每种操作系统对应的总访问次数;

9.非工作时间访问系统的次数:指工作日指定的以外时间,用户访问系统的总次数;

10.未识别浏览器次数:指用户访问系统功能,确识别不了其客户端来源的总次数;

11.输入密码的错误次数:指用户登录系统输入密码不正确的总次数;

12.非法请求的次数:指用户访问自身权限范围以外的请求路径的总次数;

13.非法跳转的次数:指用户访问请求路径不是正常轨迹操作步骤的总次数;

14.请求特殊字符的次数:指用户在界面表单中发送请求,含有特殊字符的总次数;

15.敏感文件下载次数:指用户在有效的系统权限范围内,下载系统中指定为敏感文件的总次数;

16.敏感信息删除次数:指用户在有效的系统权限范围内,删除敏感信息的总次数;

17.敏感信息修改次数:指用户在有效的系统权限范围内,修改敏感信息的总次数;

18.敏感信息查询次数:指用户在有效的系统权限范围内,浏览查看敏感信息的总次数。

通过上述多个行为特征,实现了从多个角度对用户行为进行可信度分析的效果,保证评估结果准确型、可信性。

例如,在以当前时间点为起点的历史一周内,对5个用户的行为特征数据进行统计和量化,得到的这5个用户各自的行为特征数据集如表1所示。

针对上述多个行为特征,可以但不限于是通过经主成分分析得到或者根据测试验证预先定义的,此处不作限定。

表1

在一种可能的实施方式中,上述步骤S301可以通过以下方式实现:

a1,获得预设时间段内多个用户各自对应的行为日志数据集。

本实施例中,预设时间段可以根据实际需求自行定义,例如可以是一周或者是一个月等等,此处不作限定。

本发明实施例中,行为日志数据集至少包含用户进行一系列操作动作的过程中,产生的路径、动作、时间等的会话信息。为了能够收集用户在操作过程中产生的上述多个行为特征的特征值,在软件系统中,需要预先定义敏感操作和非敏感操作动作,进而可以通过JavaScript将需要收集行为日志数据的埋点配置到对应操作动作上,从而获得行为日志数据集。

因此,在一种可能的实施方式中,可以通过以下方式获得行为日志数据集:

a1-1,检测预置数据埋点是否上传有用户操作信息。

a1-2,若是,则根据用户操作信息,获取行为日志,并将获得的全部行为日志组成行为日志数据集。

可以理解的是,预置数据埋点可以是预先设置在应用程序客户端对应的程序代码中的数据埋点,本实施例中每一个数据埋点都是独立工作的,实际中可根据业务需求在客户端提供的不同服务所对应的关键操作流程的功能点中进行数据埋点的设置,从而通过数据埋点来记录用户的操作动作以及该操作动作产生的路径、动作、时间等的会话信息,实现了迅速、准确的得到需要的数据,节省处理时间的效果。

需要说明的是,在数据埋点的设置均以公开形式向相关用户提供收集、使用及存储的说明,并获得用户授权。

a2,根据预定义的多个行为特征,从多个用户各自对应的行为日志数据集中确定多个行为特征各自的特征值,并将多个行为特征和多个行为特征各自对应的特征值,组成特征数据集。

可以理解的是,获得行为日志数据集中至少包含上述多个行为特征的信息,因此可以依据预先定义的多个行为特征,基于用户维度,量化用户的行为日志数据集,即分析日志,统计上述多个行为特征在预设时间段内的操作记录中的特征值。

需要说明的是,上述用于存储行为特征数据或者行为日志数据的服务器的设置位置符合与上述数据相关行为的发生地所在国家/地区的法律法规要求,相关行为包括但不限于:授权、产生、使用、存储等。

在步骤S302中、根据多个行为特征各自对应的全部特征值,确定多个行为特征各自对应的置信度区间。

本实施例中,每个行为特征对应的置信度区间表征该行为特征的特征值的可信度范围,当该行为特征对应的特征值在该置信度区间内,则可以认为该行为特征是可信的,或者说该行为特征对应的用户行为是可信的,通过置信度区间,可以度量每个行为特征的可信度范围,实现了使可信度分析结果具有一定的说服力和理论依据的效果。

在一种可能的实施方式中,上述步骤S302可以通过以下方式实现,请参见图4,图4为本发明实施例提供的步骤S302的一种实施方式的示意性流程图:

S302-1,针对第一行为特征,从多个行为特征数据集中提取第一行为特征的特征值,并基于获得的第一行为特征的特征值确定第一行为特征对应的统计指标值;

其中,第一行为特征为多个行为特征中的任意一个。

在本发明实施例中,针对每个行为特征,可以从全部用户的行为特征数据集中得到该行为特征全部特征值,上述统计指标值为均值M和标准误差se,例如,假设获得1000个用户的行为特征数据集,针对“登录系统的次数”的这个行为特征,可以得到该行为特征对应的1000个特征值,则该行为特征的均值即为1000个用户各自对应的特征值之和除以1000,根据获得的均值和1000个用户各自对应的特征值即可获得标准误差。

S302-2,根据统计指标值以及预设的置信度阈值,确定第一行为特征的置信度区间。

在本发明实施例中,置信度阈值可以根据实际需求自行定义,例如,置信度阈值Y=95.5%,根据每个行为特征的均值M和标准误差se,利用高斯函数(公式如下所示),反向计算出每一个行为特征的置信区间[a,b]:

Y=y(a=M-2×se,b=M+2×se)×100%≈95.5%

应当理解,在该置信区间中的数据对应的行为特征为可信指标,否则不可信,这样量化后的数据集,便于后续训练学习用户行为可信度指标的特征,利用高斯函数对可信和非可信用户行为特征打标签,从而可以保证后续训练得到的可信度分析模型的准确度和可信度。

例如:继续以上述5个用户对应的行为特征数据集为例,针对上述行为特征1,即“登录系统的次数”,根据上述表1中第一列数据所示的5个特征值,计算得到该“登录系统的次数”均值为:50.6、标准误差为:25.7286,得到置信度区间为[-0.8572,102.0572]。基于该置信度区间,从上述表1的第一列数据中可以发现,User3由于其行为特征“登录系统的次数”特征值为133次,不在上述置信度区间[-0.8572,102.0572]内,因此可以确定User3的用户行为不可信。

S302-3,遍历多个行为特征,得到多个行为特征各自对应的置信度区间。

在步骤S303中、根据多个行为特征各自对应的置信度区间以及行为特征数据集,训练初始的可信度分析模型的模型参数,得到训练后的可信度分析模型。

本发明实施例中,初始的可信度分析模型可以但不限于是梯度提升树模型(eXtreme Gradient Boosting,简称XGBT)。XGBT模型是一种组合策略学习算法,其组合的个体学习算法模型为决策树(DT),由于它是一种串行化的学习算法,可以实现学习各个体学习算法模型之间的相关关系,能够有效评估行为特征的效果。

在一种可选的实施方式中,上述步骤S302可以通过以下方式实现:

b1,根据行为特征数据集以及多个行为特征各自对应的置信度区间,获得训练数据集和测试数据集;

b2,构建多个初始的可信度分析模型,并基于训练数据集对多个初始的可信度分析模型进行训练,得到多个待测试的可信度分析模型;

b3,基于测试数据集,对多个待测试的可信度分析模型进行测试,得到多个待测试的可信度分析模型各自对应的模型评估指标值,并基于模型评估指标值,确定出训练后的可信度分析模型。

本实施例中,可以将行为特征数据进行分割得到训练集和测试集,分割后的训练集和测试集的比例可以自行定义,例如可以为3:1。

上述模型评估指标值可以包括但不限于是准确率(Accuracy,计算公式如(1))、查准率(Precision,计算公式如(2))、查全率(Recall,计算公式如(3)),通过上述评价指标分析对比算法模型的优劣。其中,查准率和查全率是相互制约的,如果想要查准率提高,查全率则会下降,如果要查全率提高,查准率则会下降,我们需要找到二者之间的一个平衡。

其中,上述公式(1)、(1)和(3)中的TT、TU、FT和FU的含义如表2所示,表2中的数字“1”表征可信,数字“0”表征不可信:

表2

在训练过程中,通过调整可信度分析模型中特征树的数量、深度、训练轮次等参数,获取对比模型的模型评估指标值,得出最优的适用于本系统的可信度分析模型。

下面利用上述的训练方法完成的可信度分析模型,应用在用户行为的可信度分析的应用场景为例,对本发明实施例提供的一种可信度分析方法进行示例性说明。

请参见图5,图5为本发明实施例提供的可信度分析方法的示意性流程图,该方法可以包括:

S501,获得待分析用户在预设时间段内的行为日志数据集。

可以理解的是,上述获得行为日志数据集的实现方式可以参见上述内容中的步骤a1-1和步骤a1-2,此处不再赘述。

S502,根据行为日志数据集,确定待分析用户对应的行为特征数据集;行为特征数据集中包含多个行为特征以及每个行为特征的特征值。

S503,将行为特征数据集输入到训练后的可信度分析模型中,输出待分析用户的行为可信度。

其中,可信度分析模型是根据多个用户的行为特征数据集以及多个行为特征各自对应的置信度区间训练而成。

根据本发明实施例提供的可信度分析方法,首先获得待分析用户的行为日志数据集,进而根据行为日志数据集得到该待分享用户对应的行为特征数据集,进而将该行为特征数据集中的数据输入到预先训练完成的可信度分析模型中进行分析,输出该待分析用户的行为可信度,通过利用预先训练完成的可信度分析模型来进行用户行为的可信度分析,实现了提高分析速度和分析结果准确性的效果。

需要说明的是,上述可信度分析模型可以预先由模型训练设备训练完成,然后加载到执行上述可信度分析方法的设备中,以实现用户行为可信度分析的效果,或者,执行上述可信度分析方法的设备可以是具有模型训练功能,首先通过可信度分析模型的训练方法得到可信度分析模型,进而用来执行可信度分析的功能。

基于与本发明实施例提供的上述模型训练方法相同的发明构思,请参阅图6,图6为本发明实施例提供的可信度分析模型的训练装置600的一种功能模块图,该可信度分析模型的训练装置600包括:

获得模块610,用于获得多个用户各自对应的行为特征数据集;行为特征数据集中包含多个行为特征以及每个行为特征的特征值。

确定模块620,用于根据多个行为特征各自对应的全部特征值,确定多个行为特征各自对应的置信度区间。

训练模块630,用于根据多个行为特征各自对应的置信度区间以及行为特征数据集,训练初始的可信度分析模型的模型参数,得到训练后的可信度分析模型。

可以理解的是,获得模块610、确定模块620和训练模块630可以协同的执行图3中的各个步骤以实现相应的技术效果。

在可选地实施方式中,确定模块620,具体用于针对第一行为特征,从多个行为特征数据集中提取第一行为特征的特征值,并基于获得的第一行为特征的特征值确定第一行为特征对应的统计指标值;第一行为特征为多个行为特征中的任意一个;根据统计指标值以及预设的置信度阈值,确定第一行为特征的置信度区间;遍历多个行为特征,得到多个行为特征各自对应的置信度区间。

在可选地实施方式中,获得模块610,具体用于获得预设时间段内多个用户各自对应的行为日志数据集;根据预定义的多个行为特征,从多个用户各自对应的行为日志数据集中确定多个行为特征各自的特征值,并将多个行为特征和多个行为特征各自对应的特征值,组成行为特征数据集。

在可选地实施方式中,获得模块610,具体用于检测预置数据埋点是否上传有用户操作信息;若是,则根据用户操作信息,获取行为日志,并将获得的全部行为日志组成行为日志数据集。

在可选地实施方式中,训练模块630,具体用于根据行为特征数据集以及多个行为特征各自对应的置信度区间,获得训练数据集和测试数据集;构建多个初始的可信度分析模型,并基于训练数据集对多个初始的可信度分析模型进行训练,得到多个待测试的可信度分析模型;基于测试数据集,对多个待测试的可信度分析模型进行测试,得到多个待测试的可信度分析模型各自对应的模型评估指标值,并基于模型评估指标值,确定出训练后的可信度分析模型。

基于与本发明实施例提供的上述可信度分析方法相同的发明构思,请参阅图7,图7为本发明实施例提供的可信度分析装置700的一种示意性结构图,该可信度分析装置700包括:

获取模块710,用于获得待分析用户在预设时间段内的行为日志数据集。

分析模块720,用于根据行为日期数据集,确定待分析用户对应的行为特征数据集;行为特征数据集中包含多个行为特征以及每个行为特征的特征值;用于将行为特征数据集输入到训练后的可信度分析模型中,输出待分析用户对应的可信度分析结果。

可以理解的是,获取模块710、分析模块720可以协同的执行图5中的各个步骤以实现相应的技术效果。

在可选地实施方式中,获取模块710还可以用来执行上述步骤a1-1和步骤a1-2以实现相应的技术效果。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项的可信度分析模型的训练方法和/或可信度分析方法。该计算机可读存储介质可以是,但不限于,U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

应该理解到,在本发明所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号