首页> 中国专利> 应用于用户画像挖掘的大数据处理方法及大数据服务器

应用于用户画像挖掘的大数据处理方法及大数据服务器

摘要

本发明公开的应用于用户画像挖掘的大数据处理方法及大数据服务器,由于在从用户画像数据对应的用户操作行为的用户行为数据中提取出属性内容之后再进行用户兴趣偏好的挖掘,能够消除属性内容以外的数据信息对挖掘过程的噪声影响,抗噪声影响能力较强,且无需对用户行为数据进行预先整合,可节省行为数据整合操作耗费的时间,能够加快用户兴趣偏好的挖掘速度,并且,通过用户兴趣偏好与所述待挖掘的用户画像属性所对应的待挖掘的用户画像数据,能够准确确定待挖掘的用户画像属性在满足设定条件下的当前用户兴趣状态,这样可以基于较少的用户行为数据实现快速高效的用户画像挖掘和分析,能够适用于不同的互动网站场景。

著录项

  • 公开/公告号CN112905892A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 陈国荣;

    申请/专利号CN202110251560.4

  • 发明设计人 陈国荣;

    申请日2021-03-08

  • 分类号G06F16/9535(20190101);

  • 代理机构44663 广州博士科创知识产权代理有限公司;

  • 代理人马天鹰

  • 地址 518000 广东省深圳市南山区虚拟大学园产业化软件楼F205

  • 入库时间 2023-06-19 11:16:08

说明书

技术领域

本公开涉及大数据和用户画像分析技术领域,特别涉及应用于用户画像挖掘的大数据处理方法及大数据服务器。

背景技术

用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。用户画像可以理解为用户信息标签化,是指企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

大数据处理离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。当计算机具备上述能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。

然而,随着用户行为数据的不断增多,相关的用户画像处理技术需要依赖大量的用户行为数据,这样会降低用户画像处理的效率。

发明内容

为改善相关技术中存在的技术问题,本公开提供了应用于用户画像挖掘的大数据处理方法及大数据服务器。

本发明提供了一种应用于用户画像挖掘的大数据处理方法,应用于大数据服务器,包括:

根据在线互动网站的用户行为数据,得到在线互动网站信息对应的用户行为数据处理结果;

利用所述在线互动网站的用户行为数据得到待挖掘的用户画像属性,并基于所述待挖掘的用户画像属性的属性内容得到所述属性内容对应的用户兴趣偏好;

根据所述用户兴趣偏好与所述待挖掘的用户画像属性所对应的待挖掘的用户画像数据,确定所述待挖掘的用户画像属性是否满足设定条件。

优选的,根据在线互动网站的用户行为数据,得到在线互动网站信息对应的用户行为数据处理结果,包括:

获取连续多组在线互动网站的用户行为数据,并对第一组所述在线互动网站的用户行为数据进行处理,得到在线互动网站信息对应的用户行为数据处理结果,其中,所述在线互动网站信息对应的用户行为数据处理结果包括至少一个待挖掘的用户画像数据;

利用所述在线互动网站的用户行为数据得到待挖掘的用户画像属性,并基于所述待挖掘的用户画像属性的属性内容得到所述属性内容对应的用户兴趣偏好,包括:

对所述在线互动网站的用户行为数据进行挖掘,得到所述在线互动网站的用户行为数据中对应的所述待挖掘的用户画像数据的待挖掘的用户画像属性;

根据所述待挖掘的用户画像属性,得到所述待挖掘的用户画像属性的属性内容;

对连续多组所述在线互动网站的用户行为数据中的属性内容进行识别,得到所述属性内容对应的用户兴趣偏好。

优选的,所述对第一组所述在线互动网站的用户行为数据进行处理,得到在线互动网站信息对应的用户行为数据处理结果的步骤,包括:

从所述在线互动网站的用户行为数据中提取出互动网站页面的网页热点图分布数据,并确定所述互动网站页面的类别,其中,所述互动网站页面的类别包括企业服务类、游戏交互类、在线购物类和远程教育类;

根据所述互动网站页面的类别,从所述在线互动网站的用户行为数据中的多个用户画像数据中识别出所述待挖掘的用户画像数据;其中,所述待挖掘的用户画像数据与所述用户兴趣偏好对应,所述用户兴趣偏好的类别包括显性兴趣偏好、隐性兴趣偏好、品牌偏好或活跃程度偏好;

所述对所述在线互动网站的用户行为数据进行挖掘,得到所述在线互动网站的用户行为数据中对应的所述待挖掘的用户画像数据的待挖掘的用户画像属性的步骤,包括:

利用目标用户画像挖掘模型对所述在线互动网站的用户行为数据进行挖掘,得到所述待挖掘的用户画像数据中待挖掘的用户画像属性的画像属性特征信息;

利用预设画像属性分析模型对多组所述在线互动网站的用户行为数据中的所述待挖掘的用户画像属性进行分析,并利用预设画像筛选模型筛选所述待挖掘的用户画像属性的画像属性关联数据,为画像属性关联数据相同的所述待挖掘的用户画像属性分配同一用户画像属性标签;

判断所述待挖掘的用户画像属性是否处于预设画像属性列表;

若是,则保存所述待挖掘的用户画像属性的画像属性特征信息与所述待挖掘的用户画像属性的画像属性关联数据。

优选的,所述根据所述待挖掘的用户画像属性,得到所述待挖掘的用户画像属性的属性内容的步骤,包括:

对所述在线互动网站的用户行为数据进行拆分,得到至少一个待挖掘的用户行为数据片段,其中,每个所述待挖掘的用户行为数据片段为包括相应的所述待挖掘的用户画像属性的用户行为数据;

利用属性内容挖掘网络对所述待挖掘的用户行为数据片段进行挖掘,得到所述待挖掘的用户行为数据片段中所述待挖掘的用户画像属性的属性内容。

优选的,所述方法包括:

获取所述待挖掘的用户画像属性的画像属性特征信息,并根据所述待挖掘的用户画像属性的画像属性特征信息将所述在线互动网站的用户行为数据拆分为至少一个所述待挖掘的用户行为数据片段;

利用所述属性内容挖掘网络对所述待挖掘的用户行为数据片段进行挖掘,得到所述待挖掘的用户行为数据片段中所述待挖掘的用户画像属性的属性内容的画像属性特征信息;其中,所述属性内容包括动态属性内容或静态属性内容;

对所述属性内容挖掘网络输出的大数据挖掘结果进行筛分,得到所述待挖掘的用户画像属性的属性内容的关键画像属性特征信息。

优选的,所述对所述属性内容挖掘网络输出的大数据挖掘结果进行筛分,得到所述待挖掘的用户画像属性的属性内容的关键画像属性特征信息的步骤,包括:

判断所述属性内容挖掘网络输出的大数据挖掘结果中是否仅存在所述动态属性内容的画像属性特征信息或仅存在所述静态属性内容的画像属性特征信息;

若是,则以预设画像描述特征为参考,从所述大数据挖掘结果中筛选出与所述预设画像描述特征相匹配的画像属性特征信息作为所述动态属性内容/所述静态属性内容的关键画像属性特征信息。

优选的,所述对所述属性内容挖掘网络输出的大数据挖掘结果进行筛分,得到所述待挖掘的用户画像属性的属性内容的关键画像属性特征信息的步骤,包括:

判断所述属性内容挖掘网络输出的大数据挖掘结果中是否包含多个属性内容的画像属性特征信息,且是否同时存在所述动态属性内容的画像属性特征信息与所述静态属性内容的画像属性特征信息;

若是,则将所有所述动态属性内容的画像属性特征信息作为动态属性内容集合,将所有所述静态属性内容的画像属性特征信息作为静态属性内容集合;

对所述动态属性内容集合与所述静态属性内容集合进行处理,得到所述关键画像属性特征信息;

所述对所述动态属性内容集合与所述静态属性内容集合进行处理,得到所述关键画像属性特征信息的步骤,包括:

对所述动态属性内容集合与所述静态属性内容集合进行逐一判断;

判断当前动态属性内容的画像属性特征信息的重叠属性特征的全局特征区分度是否小于当前静态属性内容的画像属性特征信息的全局特征区分度,且所述当前动态属性内容的画像属性特征信息与所述当前静态属性内容的画像属性特征信息的交集是否为空集;

若是,则计算所述当前动态属性内容的画像属性特征信息的局部特征区分度与所述当前静态属性内容的画像属性特征信息的局部特征区分度的区分度比较结果,并进行保存;

将局部特征区分度的区分度比较结果最小的所述当前动态属性内容的画像属性特征信息与所述当前静态属性内容的画像属性特征信息作为所述关键画像属性特征信息。

优选的,所述对连续多组所述在线互动网站的用户行为数据中的属性内容进行识别,得到所述属性内容对应的用户兴趣偏好的步骤,包括:

根据所述待挖掘的用户画像属性的用户画像属性标签对多组所述在线互动网站的用户行为数据中所述待挖掘的用户画像属性的属性内容进行匹配,得到同一属性内容组成的用户行为属性内容序列;

对所述用户行为属性内容序列进行处理,得到所述用户兴趣偏好;

所述对所述用户行为属性内容序列进行处理,得到所述用户兴趣偏好的步骤,包括:

利用用户兴趣挖掘网络对所述用户行为属性内容序列进行识别,得到所述待挖掘的用户画像属性的属性内容在更新状态下的内容评价热度;

判断所述属性内容在更新状态下的内容评价热度是否大于第一预设内容评价热度;

若是,则判定所述待挖掘的用户画像属性的属性内容处于有效更新状态;

根据所述动态属性内容和/或所述静态属性内容的内容更新状态,确定所述用户兴趣偏好;

所述方法还包括:

对相差设定时段的同一属性内容的两个所述用户行为属性内容序列分别进行识别,得到相应的所述用户兴趣偏好;

判断两次识别出的所述用户兴趣偏好是否均为活跃程度偏好,且两次识别中属性内容在未更新状态下的内容评价热度是否均大于第二预设内容评价热度;若是,则判定所述用户兴趣偏好为活跃程度偏好。

优选的,所述方法还包括:

在确定所述待挖掘的用户画像属性满足所述设定条件时,生成所述在线互动网站的用户行为数据对应的业务服务推送策略。

本发明提供了一种大数据服务器,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果。

通过上述方案,本申请的有益效果是:先获取连续多组在线互动网站的用户行为数据,然后对第一组在线互动网站的用户行为数据进行处理,得到在线互动网站信息对应的用户行为数据处理结果,该在线互动网站信息包括至少一条待挖掘的用户画像数据;然后对在线互动网站的用户行为数据进行挖掘得到待挖掘的用户画像数据上的待挖掘的用户画像属性,通过对待挖掘的用户画像属性进行挖掘可得到待挖掘的用户画像属性的属性内容;然后对连续多组在线互动网站的用户行为数据中的属性内容进行识别,得到用户兴趣偏好,并可根据该用户兴趣偏好与待挖掘的用户画像数据,判断出待挖掘的用户画像属性是否满足设定条件;由于先从用户画像数据用户操作行为用户行为数据中提取出属性内容,然后再进行用户兴趣偏好的挖掘,能够消除属性内容以外的数据信息对属性内容状态的识别造成噪声影响,抗噪声影响能力较强;而且无需对多组用户行为数据进行预先整合,可节省行为数据整合操作耗费的时间,加快识别速度;还可以仅在挖掘出动态属性内容或静态属性内容中的一个时,便可判断出待挖掘的用户画像属性的当前用户兴趣状态,能够适用于不同的互动网站场景。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是本发明实施例提供的一种大数据服务器的硬件结构示意图。

图2是本发明实施例提供的一种应用于用户画像挖掘的大数据处理方法的流程图。

图3是本发明实施例提供的一种应用于用户画像挖掘的大数据处理装置的框图。

图4是本发明实施例提供的一种应用于用户画像挖掘的大数据处理系统的通信架构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在大数据服务器、计算机设备或者类似的运算装置中执行。以运行在大数据服务器上为例,图1是本发明实施例的实施应用于用户画像挖掘的大数据处理方法的大数据服务器的硬件结构框图。如图1所示,大数据服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述大数据服务器还可以包括用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述大数据服务器的结构造成限定。例如,大数据服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的应用于用户画像挖掘的大数据处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至大数据服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括大数据服务器10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

可以理解,图1所示的大数据服务器10以用于执行本发明实施例的应用于用户画像挖掘的大数据处理方法,该方法可以总结为如下内容:根据在线互动网站的用户行为数据,得到在线互动网站信息对应的用户行为数据处理结果;利用所述在线互动网站的用户行为数据得到待挖掘的用户画像属性,并基于所述待挖掘的用户画像属性的属性内容得到所述属性内容对应的用户兴趣偏好;根据所述用户兴趣偏好与所述待挖掘的用户画像属性所对应的待挖掘的用户画像数据,确定所述待挖掘的用户画像属性是否满足设定条件。这样一来,由于在从用户画像数据对应的用户操作行为的用户行为数据中提取出属性内容之后再进行用户兴趣偏好的挖掘,能够消除属性内容以外的数据信息对挖掘过程的噪声影响,抗噪声影响能力较强,且无需对用户行为数据进行预先整合,可节省行为数据整合操作耗费的时间,能够加快用户兴趣偏好的挖掘速度,并且,通过用户兴趣偏好与所述待挖掘的用户画像属性所对应的待挖掘的用户画像数据,能够准确确定待挖掘的用户画像属性在满足设定条件下的当前用户兴趣状态,这样可以基于较少的用户行为数据实现快速高效的用户画像挖掘和分析,能够适用于不同的互动网站场景。

请结合参阅图2,图2是本申请提供的上述应用于用户画像挖掘的大数据处理方法的总结内容的进一步实施例的流程示意图,图2所示的实施例可以包括以下S11-S15所描述的内容。

S11:获取连续多组在线互动网站的用户行为数据,并对第一组在线互动网站的用户行为数据进行处理,得到在线互动网站信息对应的用户行为数据处理结果。

在该实施例中,可以利用数据采集设备对当前在线互动网站的用户操作行为进行行为数据采集,得到多组在线互动网站的用户行为数据。由于不同在线互动网站的用户操作行为与数据采集设备一般都是互相对应的,因而可仅对第一组在线互动网站的用户行为数据进行识别与分析,从而得到在线互动网站的用户行为数据中包含的在线互动网站信息,而无需对每一组在线互动网站的用户行为数据都进行识别与分析。当然,基于不同在线互动网站的用户操作行为的业务挖掘需求,在用户操作行为或数据采集设备对应的网页热点图分布数据可变时,也可以设置为对每一组在线互动网站的用户行为数据都进行识别与分析。

进一步地,该在线互动网站信息包括至少一个待挖掘的用户画像数据,该待挖掘的用户画像数据包括显性用户画像数据或隐性用户画像数据,可以理解地,基于不同在线互动网站的用户操作行为的业务挖掘需求,该待挖掘的用户画像数据还可以为关联用户画像数据;待挖掘的用户画像属性可以为具有多维度的用户兴趣画像的动态用户画像属性,例如,用户的网站注册状态、活跃登录地、用户访问网站渠道等。

一般而言,多组在线互动网站的用户行为数据可以理解为多个在线互动网站各自对应的用户行为数据,比如,多组在线互动网站的用户行为数据可以包括在线互动网站1对应的用户行为数据1、在线互动网站2对应的用户行为数据2、在线互动网站3对应的用户行为数据3、在线互动网站4对应的用户行为数据4或在线互动网站5对应的用户行为数据5等,在此不作限定。

S12:对在线互动网站的用户行为数据进行挖掘,得到在线互动网站的用户行为数据中对应的待挖掘的用户画像数据的待挖掘的用户画像属性。

在完成在线互动网站识别的基础上,可对每一组在线互动网站的用户行为数据进行大数据挖掘,确定在线互动网站的用户行为数据中的待挖掘的用户画像数据上是否具有待挖掘的用户画像属性,如果待挖掘的用户画像数据上具有待挖掘的用户画像属性,可确定待挖掘的用户画像属性的具体网页热点图分布数据,如果待挖掘的用户画像数据上没有待挖掘的用户画像属性,则对下一组在线互动网站的用户行为数据进行处理。一般而言,大数据挖掘可以采用常见的数据挖掘模型实现,比如卷积神经网络和树模型等,在此不作限定。

S13:根据待挖掘的用户画像属性,得到待挖掘的用户画像属性的属性内容。

在确定在线互动网站的用户行为数据中的待挖掘的用户画像属性后,可进一步进行数据热点挖掘,得到该待挖掘的用户画像属性中属性内容的网页热点图分布数据。具体地,该属性内容可以为业务互动界面属性内容,属性内容包括动态属性内容或静态属性内容。可以理解,网页热点图分布数据可以是可视化的图数据,用于对网页的不同热点信息和热点数据进行汇总、存储或记录。

S14:对连续多组在线互动网站的用户行为数据中的属性内容进行识别,得到属性内容对应的用户兴趣偏好。

可以理解,待挖掘的用户画像数据与用户兴趣偏好对应,该用户兴趣偏好的类别包括显性兴趣偏好、隐性兴趣偏好、品牌偏好或活跃程度偏好。其中,不同用户的用户兴趣偏好的类别可以存在些许差异,在此不作限定。

在挖掘得到属性内容后,可通过对多组在线互动网站的用户行为数据中的属性内容进行分析,判断出该属性内容的内容变化状态,并根据该属性内容的内容变化状态,生成用户兴趣偏好,即该用户兴趣偏好包括待挖掘的用户画像属性的属性内容的更新状态。

在一具体的实施例中,可根据挖掘出的动态属性内容和/或静态属性内容的内容变化状态,通过统计用户浏览网站后的浏览信息来确定用户兴趣偏好,具体可分为以下两种情况:动态属性内容与静态属性内容都存在以及动态属性内容与静态属性内容仅存在一个。

S15:根据用户兴趣偏好与待挖掘的用户画像属性所对应的待挖掘的用户画像数据,确定待挖掘的用户画像属性是否满足设定条件。

在具体实施的过程中,可根据实际业务需求来判断哪种情况属于满足设定条件。例如,在一种情况下,当用户兴趣偏好为显性兴趣偏好,但待挖掘的用户画像属性不属于显性用户画像时,判定待挖掘的用户画像属性的行为满足设定条件。

又例如,在另一种情况下,当用户兴趣偏好为隐性兴趣偏好,但待挖掘的用户画像属性不属于隐性用户画像时,判定待挖掘的用户画像属性的行为满足设定条件。

再例如,在又一种情况下,当用户兴趣偏好为活跃程度偏好,但待挖掘的用户画像属性属于显性用户画像数据或隐性用户画像数据时,判定该待挖掘的用户画像属性满足设定条件。

可以理解,关于设定条件的设计可以根据实际情况进行调整,在此不作限定。

在判断出待挖掘的用户画像属性没有与设定的处于更新状态的业务互动界面属性内容匹配,而出现满足设定条件的情况时,可保留待挖掘的用户画像属性的相关业务行为数据,并记录待挖掘的用户画像属性的画像属性关联数据。

可以理解地,可以对显性用户画像数据与隐性用户画像数据同时进行挖掘,也可仅对一条用户兴趣画像数据(包括显性用户画像数据或隐性用户画像数据)进行挖掘,即仅对一条满足设定条件的用户兴趣画像数据进行解析,也可以仅分析一个业务互动界面属性内容的内容变化状态。例如,可以仅分析隐性用户画像数据是否有未更新的业务互动界面属性内容对应的用户画像属性,或者只挖掘该隐性用户画像数据中待挖掘的用户画像属性的历史业务互动界面属性内容,而不需要考虑当前业务互动界面属性内容的内容变化状态。

本实施例提供了一种应用于用户画像挖掘的大数据处理方法,先获取连续多组在线互动网站的用户行为数据,然后对第一组在线互动网站的用户行为数据进行处理,得到包含待挖掘的用户画像数据的在线互动网站信息;再对在线互动网站的用户行为数据进行挖掘得到待挖掘的用户画像属性,然后进一步挖掘得到待挖掘的用户画像属性中的属性内容;然后对连续多组在线互动网站的用户行为数据中的属性内容进行识别得到用户兴趣偏好,再根据用户兴趣偏好与待挖掘的用户画像数据,确定待挖掘的用户画像属性是否满足设定条件;由于在从用户画像数据对应的用户操作行为的用户行为数据中提取出属性内容之后再进行用户兴趣偏好的挖掘,能够消除属性内容以外的数据信息对挖掘过程的噪声影响,抗噪声影响能力较强,且无需对多组用户行为数据进行预先整合,可节省行为数据整合操作耗费的时间,能够加快用户兴趣偏好的挖掘速度,而且可以仅在挖掘出动态属性内容或静态属性内容中的一个时,便可判断出待挖掘的用户画像属性的当前用户兴趣状态,能够适用于不同的互动网站场景。

在上述基础上,以下是本申请提供的应用于用户画像挖掘的大数据处理方法另一实施例,该方法可以包括以下内容。

S20:获取连续多组在线互动网站的用户行为数据,并从在线互动网站的用户行为数据中提取出互动网站页面的网页热点图分布数据,并确定互动网站页面的类别。

可采用网页划分方法对互动网站页面进行页面浏览信息的划分和识别,得到互动网站页面的网页热点图分布数据与互动网站页面的类别,该互动网站页面的类别包括企业服务类、游戏交互类、在线购物类和远程教育类,远程教育类包括显性标签与隐性标签。在识别出互动网站页面之后,可根据识别的结果确定需要更新业务互动界面属性内容的用户画像数据(即待挖掘的用户画像数据)与预设画像属性列表,并可根据不同的待挖掘的用户画像数据或预设画像属性列表制定不同的用户兴趣偏好参考信息,以判定生成的用户兴趣偏好是否符合相应的用户兴趣偏好参考信息。

S21:根据互动网站页面的类别,从在线互动网站的用户行为数据中的多个用户画像数据中识别出待挖掘的用户画像数据。

在判断出互动网站页面的类别后,可从在线互动网站的用户行为数据所包含的多个用户画像数据中确定出待挖掘的用户画像数据;例如,在线互动网站的用户行为数据中包括3个用户画像数据:用户画像数据d1-用户画像数据d3,对该在线互动网站的用户行为数据进行划分后,可识别得到互动网站页面w31-w33,通过对互动网站页面w31-w33进行识别,可识别出互动网站页面w31为显性标签,互动网站页面w32为关联标签,互动网站页面w33为隐性标签。

S22:利用目标用户画像挖掘模型对在线互动网站的用户行为数据进行挖掘,得到待挖掘的用户画像数据中待挖掘的用户画像属性的画像属性特征信息。

可利用目标用户画像挖掘模型对采集到的用户操作行为中的动态用户画像属性进行挖掘,获得待挖掘的用户画像属性的画像属性特征信息,该画像属性特征信息用于指示在线互动网站的用户行为数据中可能包括待挖掘的用户画像属性的关键特征信息;进一步地,为了保证大数据挖掘结果的准确性和速度,目标用户画像挖掘模型可以选择训练好的前向神经网络,或者也可以使用其它非卷积神经网络(Convolutional NeuralNetworks,CNN)的挖掘算法,只要能够获取待挖掘的用户画像属性的画像属性特征信息就可以,或者也可采用手动筛选的方式来得到画像属性特征信息,在此不作限定。

S23:利用预设画像属性分析模型对多组在线互动网站的用户行为数据中的待挖掘的用户画像属性进行分析,并利用预设画像筛选模型识别待挖掘的用户画像属性的画像属性关联数据,为画像属性关联数据相同的待挖掘的用户画像属性分配同一用户画像属性标签。

在获取到待挖掘的用户画像属性的画像属性特征信息之后,可使用预设画像属性分析模型将不同组中的待挖掘的用户画像属性进行关联,并赋予每个待挖掘的用户画像属性唯一的用户画像属性标签(ID,Identity document),同时可使用预设画像筛选模型来识别待挖掘的用户画像属性的用户描述信息。

在一个具体的实施例中,由于仅关注待挖掘的用户画像属性的业务互动界面属性内容的更新情况,在获得待挖掘的用户画像属性本身的信息之后,可根据对在线互动网站的用户行为数据识别的结果进一步判断待挖掘的用户画像属性是否处于预设画像属性列表;若待挖掘的用户画像属性处于预设画像属性列表,则保存待挖掘的用户画像属性的画像属性特征信息与待挖掘的用户画像属性的画像属性关联数据,以进行后续处理;若待挖掘的用户画像属性不处于预设画像属性列表,则可不做任何处理。

S24:对在线互动网站的用户行为数据进行拆分,得到至少一个待挖掘的用户行为数据片段。

可获取待挖掘的用户画像属性的画像属性特征信息,并根据待挖掘的用户画像属性的画像属性特征信息将每组在线互动网站的用户行为数据拆分为至少一个待挖掘的用户行为数据片段,即每个待挖掘的用户行为数据片段为包括相应的待挖掘的用户画像属性的用户行为数据。

因为属性内容一般对应于画像属性特征信息的热点特征,因而待拆分数据信息可以以原始画像属性特征信息为参考,将数据拆分长度扩大至原来的j倍以保证属性内容的完整性,例如,j设定为3,即待挖掘的用户行为数据片段的数据长度大于对应的待挖掘的用户画像属性的画像属性特征信息的数据长度,且待挖掘的用户行为数据片段的热点特征与对应的待挖掘的用户画像属性的画像属性特征信息的热点特征相同。

进一步地,可采用手动筛选的方式标注出动态属性内容与静态属性内容的内容关联路径,得到属性内容在待挖掘的用户行为数据片段中的网页热点图分布数据以及属性内容的画像属性特征信息的信息,该属性内容的画像属性特征信息的信息包括画像属性特征信息的时序特征、场景特征以及对象特征,属性内容的画像属性特征信息的时序特征可以为该画像属性特征信息的热点属性的历史时序特征与当前时序特征。

S25:利用属性内容挖掘网络对待挖掘的用户行为数据片段进行挖掘,得到待挖掘的用户行为数据片段中待挖掘的用户画像属性的属性内容。

可利用训练好的属性内容挖掘网络对待挖掘的用户行为数据片段进行挖掘,得到待挖掘的用户行为数据片段中待挖掘的用户画像属性的属性内容的画像属性特征信息,完成对属性内容的挖掘。

在一具体的实施例中,以前向神经网络为例,可将该模型的输出类别修改为两类,使用构建的属性内容挖掘数据集训练该网络即可得到属性内容挖掘网络;在应用阶段,可利用获取到的待挖掘的用户画像属性的画像属性特征信息,将待挖掘的用户画像属性逐一拆分出来输入到该属性内容挖掘网络中进行属性内容挖掘;同样地,待拆分数据信息的场景特征需要以原始画像属性特征信息的场景特征为参考进行特征扩充。

由于挖掘出来的结果可能不太准确,为了降低属性内容误检对最终挖掘结果的影响,可采用S26所示的步骤对误检结果进行筛分。

S26:对属性内容挖掘网络输出的大数据挖掘结果进行筛分,得到待挖掘的用户画像属性的属性内容的关键画像属性特征信息。

在一个具体的实施例中,对于大数据挖掘结果中仅有动态属性内容或者仅有静态属性内容的情况,可判断属性内容挖掘网络输出的大数据挖掘结果中是否仅存在动态属性内容的画像属性特征信息或仅存在静态属性内容的画像属性特征信息;若属性内容挖掘网络输出的大数据挖掘结果中仅存在动态属性内容/静态属性内容的画像属性特征信息,则以预设画像描述特征为参考,从大数据挖掘结果中筛选出与预设画像描述特征相匹配的画像属性特征信息作为动态属性内容/静态属性内容的关键画像属性特征信息;例如,利用属性内容挖掘网络进行挖掘,得到两个画像属性特征信息:画像属性特征信息A与画像属性特征信息B,通过计算画像属性特征信息A与画像属性特征信息B的相同特征信息与预设画像描述特征之间的匹配度,可得到关键画像属性特征信息为画像属性特征信息B。

进一步地,预设画像描述特征可以为根据经验得到的大部分属性内容的关联网页热点图分布数据,其可以根据在线互动网站中的网页热点图分布数据及网页热度数据进行调整,可将预设画像描述特征设置在待挖掘的用户行为数据片段的具有画像标签的片段集里面。

在另一具体的实施例中,由于每个用户行为数据的关键业务互动界面属性内容一般只有两个,因而当用户行为数据的大数据挖掘结果存在两个以上的关键业务互动界面属性内容时,可判断属性内容挖掘网络输出的大数据挖掘结果中是否包含多个属性内容的画像属性特征信息,且是否同时存在动态属性内容的画像属性特征信息与静态属性内容的画像属性特征信息;若属性内容挖掘网络输出的大数据挖掘结果中包含多个属性内容的画像属性特征信息,且同时存在动态属性内容的画像属性特征信息与静态属性内容的画像属性特征信息,则将所有动态属性内容的画像属性特征信息作为动态属性内容集合,将所有静态属性内容的画像属性特征信息作为静态属性内容集合;对动态属性内容集合与静态属性内容集合进行处理,得到关键画像属性特征信息。

进一步地,对动态属性内容集合与静态属性内容集合进行逐一判断,即从动态属性内容集合与静态属性内容集合中依次各取一个画像属性特征信息组成全局画像属性特征信息,对于每一组全局画像属性特征信息可进行如下操作:

判断当前动态属性内容的画像属性特征信息的重叠属性特征的全局特征区分度是否小于当前静态属性内容的画像属性特征信息的全局特征区分度,且当前动态属性内容的画像属性特征信息与当前静态属性内容的画像属性特征信息的交集是否为空集;若当前动态属性内容的画像属性特征信息的重叠属性特征的全局特征区分度小于当前静态属性内容的画像属性特征信息的全局特征区分度,且当前动态属性内容的画像属性特征信息与当前静态属性内容的画像属性特征信息的交集为空集,则表明当前在挖掘的动态属性内容与静态属性内容没有交叉数据信息且动态属性内容与静态属性内容的相对网页热点图分布数据正常(即动态属性内容对应静态属性内容的热点内容),此时可计算当前动态属性内容的画像属性特征信息的局部特征区分度与当前静态属性内容的画像属性特征信息的局部特征区分度的区分度比较结果,并进行保存;如果动态属性内容的画像属性特征信息的重叠属性特征的全局特征区分度大于或等于静态属性内容的全局特征区分度,或者当前动态属性内容的画像属性特征信息与当前静态属性内容的画像属性特征信息的交集不为空集,则表明挖掘到的画像属性特征信息不正常,需舍弃该组全局画像属性特征信息。

在依次逐一判断完所有属性内容对应的画像属性特征信息后,可将局部特征区分度的区分度比较结果最小的当前动态属性内容的画像属性特征信息与当前静态属性内容的画像属性特征信息作为关键画像属性特征信息。

S27:根据待挖掘的用户画像属性的用户画像属性标签对多组在线互动网站的用户行为数据中待挖掘的用户画像属性的属性内容进行匹配,得到同一属性内容组成的用户行为属性内容序列。

在提取用户行为属性内容序列之前,可将不同组中的属性内容进行匹配;具体地,属性内容匹配可以间接地通过用户画像属性匹配来实现,经过S23的预设画像属性分析模型的处理,每组待挖掘的用户画像数量都拥有了唯一的标签,拥有同一标签的待挖掘的用户画像属性所对应的动态/静态属性内容即为不同时刻的同一属性内容;通过提取连续多组在线互动网站的用户行为数据中的同一属性内容便形成了用户行为属性内容序列。

在进行属性内容数据信息提取时,为了防止因属性内容的画像属性特征信息不精确而出现提取到的属性内容不完整的问题,可以以属性内容的画像属性特征信息为参考,将属性内容的画像属性特征信息维度和场景特征维度各扩展至原来的i倍,以作为待拆分数据信息进行拆分,即用户行为属性内容序列中每个用户行为属性内容的数据长度大于对应的属性内容的画像属性特征信息的数据长度,且用户行为属性内容的热点特征与对应的属性内容的画像属性特征信息的热点特征相同,i可设置为2。

S28:对用户行为属性内容序列进行处理,得到用户兴趣偏好。

可构建基于长短期记忆网络(Long Short Term Memory,CNN-LSTM)结构的用户兴趣挖掘网络,利用该用户兴趣挖掘网络对待挖掘的用户画像属性的属性内容的内容变化状态进行识别。

在一个具体的实施例中,该用户兴趣挖掘网络包括内容特征提取层和属性内容识别层,内容特征提取层用来提取输入的用户行为属性内容序列中每组用户行为属性内容的行为属性特征;属性内容识别层用于接收每组用户行为属性内容的特征,并对其进行基于时序的模型拟合,然后输出用户行为属性内容序列的识别结果,即属性内容是处于更新状态还是处于未更新状态。

进一步地,内容特征提取层是一个全卷积神经网络层,其包括噪声内容剔除层、3个具有相同模型参数的卷积核以及特征输出层,可输出提取到的特征。属性内容识别层由LSTM单元和全连接网络组成,输入数据通过LSTM单元内置的输入门、遗忘门以及输出门处理后,能够建立时序上的联系;每个LSTM单元可接收内容特征提取层提取的对应组的特征,LSTM单元的数量与输入的用户行为属性内容序列的长度相同。进一步地,由于内容特征提取层输出的是特征图,而LSTM单元要求输入数据为向量,因而将内容特征提取层输出的特征图形变换为向量后再输入至LSTM单元,最后一个LSTM单元与全连接层连接,第二个全连接层的神经元个数可以为2,这样可以用于输出该用户行为属性内容序列的状态,即更新状态或者未更新状态。

基于训练好的用户兴趣挖掘网络,在处理时,可先将所有提取到的动态用户行为属性内容进行动态转换来匹配静态用户行为属性内容,或者将所有提取到的静态用户行为属性内容进行动态转换来匹配动态用户行为属性内容,由于对于用户兴趣挖掘网络来说,仅需要训练识别一个场景的业务互动界面属性内容,因而通过这种方式能够在一定程度上降低处理的复杂程度。

在一具体的实施例中,由于间歇性属性内容具有属性内容容易丢失以及属性内容的网页热点图分布数据不明显等特征,导致识别困难,挖掘误差较高;在进行关键业务互动界面属性内容的内容变化状态识别时,可将关键业务互动界面属性内容分为间歇性属性内容以及非间歇性属性内容。

可利用用户兴趣挖掘网络对用户行为属性内容序列进行识别,得到待挖掘的用户画像属性的属性内容在更新状态下的内容评价热度;然后判断属性内容在更新状态下的内容评价热度是否大于第一预设内容评价热度;若属性内容在更新状态下的内容评价热度大于第一预设内容评价热度,则判定待挖掘的用户画像属性的属性内容更新;若属性内容在更新状态下的内容评价热度小于或等于第一预设内容评价热度,则判定所述待挖掘的用户画像属性的属性内容处于有效更新状态;然后根据所述动态属性内容和/或所述静态属性内容的内容更新状态,确定用户兴趣偏好。

进一步地,在只有动态属性内容更新时,判定用户兴趣偏好为显性兴趣偏好;在只有静态属性内容更新时,判定用户兴趣偏好为隐性兴趣偏好;在动态属性内容与静态属性内容均更新时,判定用户兴趣偏好为双闪偏好;在动态属性内容与静态属性内容均未更新时,判定用户兴趣偏好为活跃程度偏好。

在挖掘误差较高时,为了降低挖掘误差,可采用二次挖掘的方法进行挖掘,即对相差设定时段的同一属性内容的两个用户行为属性内容序列分别进行挖掘,得到相应的用户兴趣偏好;然后判断两次挖掘出的用户兴趣偏好是否均为活跃程度偏好,且两次挖掘中属性内容在未更新状态下的内容评价热度是否均大于第二预设内容评价热度;若两次挖掘出的用户兴趣偏好均为活跃程度偏好,且两次挖掘过程中属性内容在未更新状态下的内容评价热度均大于第二预设内容评价热度,则判定用户兴趣偏好为活跃程度偏好,即待挖掘的用户画像属性未更新属性内容,该第二预设内容评价热度可以与第一预设内容评价热度相同。

S29:根据用户兴趣偏好与待挖掘的用户画像属性所对应的待挖掘的用户画像数据,确定待挖掘的用户画像属性是否满足设定条件。

可判断用户兴趣偏好的类别与相应的待挖掘的用户画像数据的远程教育类是否相同;若用户兴趣偏好的类别与相应的待挖掘的用户画像数据的远程教育类相同,则判定该待挖掘的用户画像属性未满足设定条件;若用户兴趣偏好的类别与相应的待挖掘的用户画像数据的远程教育类不同,则判定该待挖掘的用户画像属性满足设定条件;例如,用户兴趣偏好的类别为活跃程度偏好,而此时待挖掘的用户画像属性处于隐性用户画像数据,则判定该待挖掘的用户画像属性为满足设定条件。

本实施例可先从在线互动网站的用户行为数据中挖掘出待挖掘的用户画像属性,并获取待挖掘的用户画像属性的画像属性关联数据,为相同的待挖掘的用户画像属性分配同一用户画像属性标签;然后利用属性内容挖掘网络获取待挖掘的用户画像属性中的属性内容,利用用户画像属性标签将不同组中的属性内容关联起来以构建用户行为属性内容序列,并对用户行为属性内容序列进行挖掘,确定待挖掘的用户画像属性处于用户兴趣画像数据时是否更新业务互动界面属性内容,从而判定待挖掘的用户画像属性是否满足设定条件,而且可通过对属性内容的大数据挖掘结果进行筛分,能够降低属性内容挖掘的挖掘误差,提高大数据挖掘的准确率。

在一种选择性的实施例中,在上述内容的基础上,该方法还可以包括:生成所述在线互动网站的用户行为数据对应的业务服务推送策略。如此设计,能够基于用户行为数据实现业务服务推送策略的制定,从而基于不同的用户行为数据实现针对性的业务服务推送。

在一些选择性的实施例中,上述步骤“生成所述在线互动网站的用户行为数据对应的业务服务推送策略”,进一步可以包括以下内容。

(1)获取来自第一关联互动网站的第一组用户行为评价内容以及来自第二关联互动网站的第二组用户行为评价内容,其中,所述第一组用户行为评价内容为所述第一关联互动网站在设定时长区间内对目标在线互动事项进行多次用户业务跟踪所得到的用户行为评价内容,所述第二组用户行为评价内容为所述第二关联互动网站在所述设定时长区间内对所述目标在线互动事项进行多次用户业务跟踪所得到的用户行为评价内容,所述第一关联互动网站和所述第二关联互动网站的用户业务跟踪策略不同。

(2)基于所述第一关联互动网站记录所述第一组用户行为评价内容的记录时段与所述第二关联互动网站记录所述第二组用户行为评价内容的记录时段,对所述第一组用户行为评价内容中包括的用户行为评价内容与所述第二组用户行为评价内容中包括的用户行为评价内容进行业务需求分析,得到业务需求分析结果。

在一些选择性的实施例中,在基于所述第一关联互动网站记录所述第一组用户行为评价内容的记录时段与所述第二关联互动网站记录所述第二组用户行为评价内容的记录时段,对所述第一组用户行为评价内容中包括的用户行为评价内容与所述第二组用户行为评价内容中包括的用户行为评价内容进行业务需求分析,得到业务需求分析结果之前,所述方法还包括:接收来自所述第一关联互动网站的第一组网站识别数据以及来自所述第二关联互动网站的第二组网站识别数据;将接收所述第一组网站识别数据中包括的每个网站识别数据的时段确定为所述第一关联互动网站记录所述第一组用户行为评价内容中包括的对应的用户行为评价内容的记录时段,以及,将接收所述第二组网站识别数据中包括的每个网站识别数据的时段确定为所述第二关联互动网站记录所述第二组用户行为评价内容中包括的对应的用户行为评价内容的记录时段。

在一些选择性的实施例中,将接收所述第一组网站识别数据中包括的每个网站识别数据的时段确定为所述第一关联互动网站记录所述第一组用户行为评价内容中包括的对应的用户行为评价内容的记录时段,包括:在所述第一组网站识别数据包括所述第一关联互动网站按照获取所述第一组用户行为评价内容中包括的每个用户行为评价内容的顺序确定并发送的对应的第一行为评价等级信息的情况下,将接收所述第一行为评价等级信息的时段确定为记录所述第一组用户行为评价内容中包括的与所述第一行为评价等级信息对应的用户行为评价内容的时段;将接收所述第二组网站识别数据中包括的每个网站识别数据的时段确定为所述第二关联互动网站记录所述第二组用户行为评价内容中包括的对应的用户行为评价内容的记录时段包括:在所述第二组网站识别数据包括所述第二关联互动网站按照获取所述第二组用户行为评价内容中包括的每个用户行为评价内容的顺序确定并发送的对应的第二行为评价等级信息的情况下,将接收所述第二行为评价等级信息的时段确定为记录所述第二组用户行为评价内容中包括的与所述第二行为评价等级信息对应的用户行为评价内容的时段。

在一些选择性的实施例中,基于所述第一关联互动网站记录所述第一组用户行为评价内容的记录时段与所述第二关联互动网站记录所述第二组用户行为评价内容的记录时段,对所述第一组用户行为评价内容中包括的用户行为评价内容与所述第二组用户行为评价内容中包括的用户行为评价内容进行业务需求分析包括:基于接收所述第一行为评价等级信息的时段与接收所述第二行为评价等级信息的时段对所述第一行为评价等级信息和所述第二行为评价等级信息进行关联,以将接收时段相差最小的第一行为评价等级信息和第二行为评价等级信息进行关联;按照所述第一行为评价等级信息和所述第二行为评价等级信息的关联结果,对所述第一组用户行为评价内容中包括的与所第一行为评价等级信息对应的用户行为评价内容与所述第二组用户行为评价内容中包括的与所述第二行为评价等级信息对应的用户行为评价内容进行对应业务需求分析。

(3)通过所述业务需求分析结果生成所述在线互动网站的用户行为数据对应的业务服务推送策略;其中,所述在线互动网站与所述第一关联互动网站以及所述第二关联互动网站之间共享用户行为数据。

如此,通过执行上述内容,首先获取的用户行为评价内容,其次基于第一关联互动网站记录户行为评价内容的记录时段,并对用户行为评价内容中包括的用户行为评价内容进行业务需求分析,得到业务需求分析结果,然后通过业务需求分析结果生成在线互动网站的用户行为数据对应的业务服务推送策略。这样一来,通过业务需求分析结果能够有针对性地向用户提供所需要的服务,进而能够提高推送效率。

应当理解,本领域技术人员能够在上述内容的启示下结合现有技术知晓相关技术术语的含义,并且通过上述技术特征的前后逻辑关系从现有技术中获取相关技术来毫无疑义地实施上述技术方案,因此,上述技术方案对本领域技术人员而言是清楚、完整的。

在上述基础上,请结合图3,本发明还提供了一种应用于用户画像挖掘的大数据处理装置300的框图,所述装置包括以下功能模块。

结果获得模块310,用于根据在线互动网站的用户行为数据,得到在线互动网站信息对应的用户行为数据处理结果。

偏好获得模块320,用于利用所述在线互动网站的用户行为数据得到待挖掘的用户画像属性,并基于所述待挖掘的用户画像属性的属性内容得到所述属性内容对应的用户兴趣偏好。

画像挖掘模块330,用于根据所述用户兴趣偏好与所述待挖掘的用户画像属性所对应的待挖掘的用户画像数据,确定所述待挖掘的用户画像属性是否满足设定条件。

在上述基础上,请结合图4,基于上述同样的发明构思,本发明还提供了一种应用于用户画像挖掘的大数据处理系统40,所述系统包括相互通信的大数据服务器10及业务交互终端20,大数据服务器10根据在线互动网站的用户行为数据,得到在线互动网站信息对应的用户行为数据处理结果;利用所述在线互动网站的用户行为数据得到待挖掘的用户画像属性,并基于所述待挖掘的用户画像属性的属性内容得到所述属性内容对应的用户兴趣偏好;根据所述用户兴趣偏好与所述待挖掘的用户画像属性所对应的待挖掘的用户画像数据,确定所述待挖掘的用户画像属性是否满足设定条件。

关于上述装置实施例和系统实施例的描述可以参阅对图2所示的方法实施例的描述,在此不作赘述。

进一步地,还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号