首页> 中国专利> 一种基于用户购买行为的用户特征预测方法

一种基于用户购买行为的用户特征预测方法

摘要

本发明公开了一种基于用户购买行为的用户特征预测方法,该方法包括:采集目标用户特征信息、历史订单信息以及订单商品信息,并利用订单商品信息从公开知识图谱获取商品相关的三元组知识,构建知识子图,利用图卷积神经网络聚合实体近邻局部特征,充分学习实体的表示向量;在用户特征预测模型中根据不同的商品特征以及不同的具有相似购买行为用户的特征学习到目标用户与不同商品以及相似购买行为用户的相似度,充分根据用户间以及用户实体间的相似度学习其特征向量,满足用户的个性化需求。本发明提高了用户特征预测的准确性,从而可以更准确地预测用户特征,构造更完整的用户画像。

著录项

  • 公开/公告号CN112487199A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN202011331045.9

  • 申请日2020-11-24

  • 分类号G06F16/36(20190101);G06F16/9535(20190101);G06F40/289(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06Q30/06(20120101);

  • 代理机构33240 杭州君度专利代理事务所(特殊普通合伙);

  • 代理人朱亚冠

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及一种用户特征预测方法,更具体地说,本发明涉及一种基于用户历史购买记录的用户特征预测方法。

背景技术

现如今,人们在生活中都会接触各式各样的网络平台。这些网络平台除了能够给用户提供相关服务之外,用户也会在这些网络中留下“足迹”,这些“足迹”除了用户的个人属性、发布内容、收藏、购买等真实可见的直接数据外,还存在着大量用户的间接数据,如点击数据、关注关系等行为数据。利用用户留在网络中的数据,构建出准确、全面、有效的用户在互联网中的虚拟画像,进而推动推荐系统性能的提升对平台具有重要意义。

现存的用户画像预测方法大多根据文本、关系、用户行为(浏览、点击、购买)等信息抽取用户特征,对用户画像进行推断。由于构建用户画像的目的不同,有许多不同的用户画像预测方法被提出,常用的如基于机器学习的用户画像预测方法、数据统计分析方法的用户模型、基于加权关键字的用户向量空间模型等。

在电子商务领域,用户历史购买行为往往蕴藏了大量的用户兴趣信息。对于用户画像来说,通过用户历史购买行为进行特征预测是十分必要的。虽然上述许多用户画像预测方法对用户行为记录进行挖掘,大大提升了用户画像准确性,提升了推荐系统准确性,但是上述工作都忽略了用户选择一个项目时,是否更加偏重于项目的某个隐性特征,例如某用户是华为品牌爱好者,那么其购买商品时可能会更加注重商品品牌是否是华为,或者说某用户是喜欢观看成龙主演的电影,那么他在选择电影时可能会优先选择成龙主演的电影。上述的“品牌”、“主演”都是隐藏在项目背后的特征,可以称之为项目隐性特征,还有一些其他的隐性特征,如商品的“功效”、“类型”、“价格”、“代言人”等等或者电影的“导演”、“制片人”、“类型”等等。项目的隐性特征在网络平台中可能存在稀疏性问题,可以利用项目在公开知识图谱中的特征来进行缓解。此外,上述大多数没有挖掘用户之间以及项目之间的关联,大多将用户特征预测作为一个分类任务,且用户各个特征相对独立,造成用户之间以及项目之间的关联特征有一定程度的损失,无法有效地学得一个用户的表示向量用作用户特征预测。

本发明利用知识图谱对用户历史购买商品特征进行补充,提出了基于图卷积神经网络的学习用户高阶结构特征的用户画像预测方法,构建了完整的基于用户购买行为的用户特征预测模型。

发明内容

本发明的一个目的是针对现有技术的不足,提供一种基于用户历史购买记录的用户特征预测方法,基于用户产生的电商数据,利用知识图谱扩充商品特征以及图卷积网络充分对用户历史购买记录进行挖掘,以提升用户画像完整度。

本发明所采用的技术方案如下:

步骤1:采集目标用户特征信息、历史订单信息、订单商品信息;

步骤2:对步骤1采集得到的订单商品信息中的商品名称进行分词,提取商品名称中包含一定信息的实体,构建商品名称中包含所有实体的实体集合;

步骤3:构建知识子图;

步骤4:构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵;

步骤5:构造基于图卷积神经网络的用户特征预测模型并进行训练,模型参数收敛后得到最佳参数模型。

本发明的另一个目的是提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的方法。

本发明的又一个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。

本发明提供的技术方案包含以下有益效果:

本发明通过采集用户历史购买行为,获取其相关知识图谱信息,对商品特征进行扩充,弥补了电商数据中商品特征稀缺的问题;

本发明利用商品及其相关知识图谱三元组构建知识子图,利用图卷积网络充分学习知识子图结点特征,尽可能地保留图本身的结构特征,避免训练过程造成的特征损失,获得能够充分表示实体及其局部近邻特征的表示向量;此外,根据用户交互实体和用户近邻用户表示向量与用户自身表示向量的相似度获得不同的权重,符合用户偏好,对个性化推荐具有重要意义。

附图说明

图1为本发明所涉及的流程图;

图2为模型结构图;

图3为商品包含实体关联图;

具体实施方式

下面结合附图,对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示,其中:

步骤1:采集目标用户特征信息、历史订单信息、订单商品信息;

目标用户特征信息包括用户画像信息,如性别、年龄;

历史订单信息包括订单用户编号、购买商品编号;

订单商品信息包括商品名称;

步骤2:对步骤1中订单商品信息中的商品名称进行分词,提取商品名称中包含一定信息的实体,构建商品名称中包含所有实体的实体集合S(e);

所述实体可以是品牌名、商品名等;

步骤3:构建知识子图

在公开知识图谱中查找步骤2获得的实体集合S(e)中的各个实体e

公开知识图谱中存在若干条实体相关的三元组特征,其组织形式为(头实体,关系,尾实体),例如电影《功夫》存在一条三元组特征为(《功夫》,导演,周星驰)。

实体的三元组特征拓展具体如下:

(1)初始化:迭代次数H=1;

(2)将

(3)更新迭代次数H=H+1,将上一轮迭代得到的三元组特征尾实体作为头实体,继续在公开知识图谱查找与该头实体相关的三元组特征,直至迭代次数达到最大迭代次数。

步骤4:构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵

将步骤3获得的所有实体拓展后的知识图谱三元组作为知识子图

(1)根据历史订单信息,构建用户邻接矩阵

(2)根据知识子图

(3)根据知识子图

图3为商品包含实体关联图;

步骤5:根据步骤4中得到的知识子图

如图2所述的基于图卷积神经网络的用户特征预测模型包括输入层、嵌入层、图卷积层、聚合层、全连接层、输出层:

(1)输入层的输入为用户、用户交互过的实体,构建用户交互实体集合N

(2)嵌入层将用户、用户交互过的实体进行向量化表示,并根据用户邻接矩阵

(3)图卷积层对嵌入层输出实体特征向量进行局部近邻特征学习,分别从实体邻接矩阵

a)从实体邻接矩阵

b)根据用户对实体间不同关系的相似度迭代聚合近邻实体特征,近邻实体表示向量计算公式如下:

其中,

α

α

其中u表示用户u的嵌入向量,r

对于任意实体e

其中α

c)使用加和聚合对实体e的嵌入向量v与近邻实体表示向量

其中W、b分别表示权重矩阵和偏移向量,σ表示激活函数。

图卷积层训练完毕后,每个实体的嵌入向量都包含其本身以及近邻实体及关系的特征。

(4)聚合层:对嵌入层输出的用户嵌入向量、近邻用户嵌入向量以及图卷积层输出的具有近邻结构特征的实体嵌入向量进行聚合,得到输入用户最终的嵌入向量,具体如下:

a)根据用户u的嵌入向量u与用户u交互实体集合N

其中

β

β

其中,g(·)表示向量内积计算。

对于任意交互实体e

其中β

b)根据用户u的嵌入向量u与用户u的近邻用户集合N

其中,

γ

γ

同样,g(·)表示向量内积计算。

对于任意近邻用户u

其中γ

c)对用户交互实体表示向量

其中

d)将用户u的嵌入向量u与

其中u

(5)全连接层:全连接层将聚合层输出的输入用户最终的嵌入向量转化为与预测特征种类数相同维度的输出向量。

o=Wu

其中,o表示用户输出向量,u

(6)输出层:输出层利用softmax函数将用户的输出向量做归一化处理,将输出向量转化为用户对应各个类别的概率分布,并获取其中最大值所在索引作为模型输出的输入用户预测标签。

a)对于输出向量o,进行softmax归一化操作,得到用户输出向量对维度特征的概率表示,softmax函数对用户输出向量o的操作如下:

其中,o′

根据得到的表示用户特征概率分布的输出向量o′中的最大值对应的维度作为用户预测标签,例如:

其中,在第0维到第4维中第1维值最大,则用户u的预测标签值为1。

将用户真实标签与用户预测标签带入损失函数计算模型损失,并通过反向传播得到最优参数模型。

整个模型的反向传播过程采用softmax交叉熵损失函数,其公式为:

上述公式中i代表第i个类型,y′

本发明性能评估分别采用盘石电商数据集、MovieLens-1M电影数据集以及京东电商数据集。其中,模型在三个数据集上都进行了性别预测二分类性能评估;在MovieLens-1M电影数据集以及京东电商数据集上进行了模型年龄预测多分类性能评估。下表为三个数据集进行知识图谱实体筛选后的数据量情况:

其中三个数据集分别采用了CNDB-pedia中文知识图谱、MicrosoftSatori以及zhishi.me中文知识图谱对商品名称的实体集合进行三元组特征拓展。各个数据集的用户特征分布情况如下:

(1)性别方面:

a)盘石数据集男性用户占比为42%,女性用户占比为58%;

b)MovieLens-1M电影数据集中男性用户占比72%,女性用户占比28%;

c)京东电商数据集中男性用户占比44%,女性用户占比56%。

(2)年龄方面:

a)MovieLens-1M电影数据集中年龄小于25岁的用户占22%,25岁至34岁的用户占35%,35岁至50岁的用户占29%,50岁以上的用户占15%;

b)京东电商数据集中年龄小于26岁的用户占14%,26岁至35岁的用户占55%,36岁至55岁的用户占30%,55岁以上的用户占1%。

下表为本发明在上述三个数据集上性别预测实验结果:

下表为本发明在上述三个数据集上年龄预测实验结果:

上述性别预测及年龄预测实验结果表中,逻辑回归与支持向量机为传统的机器学习分类器,LightGBM为微软提出的基于梯度提升决策树的高效分类模型,异构知识图卷积网络(HKGCN)即为本发明中的基于图卷积神经网络的用户特征预测模型。实验采用准确率Accuracy以及macro-F1作为用户特征预测性能评价指标。Accuracy是广泛用于分类问题的评价指标,以TP、FP、TN、FN分别代表真正例、假正例、真反例以及假反例,准确率Accuracy为:

即分类器预测真正例和真反例在整个数据集中占的比例,表示预测准确性。

macro-F1是机器学习中常用的衡量二分类模型的评价指标F1-score的变体,F1-score评价指标公式如下:

其中,precision以及recall分别表示分类精确率和召回率,分别评价模型正例分类是否准确以及分类器判别的正例占全部正例的比例,从上式可以看出F1-score是结合评价分类器精确率及召回率的评价指标。

由于传统F1-score多用于评价二分类,实验中年龄预测为多分类问题故采用macro-F1作为评价指标,macro-F1为各个类F1-score的平均值,即:

其中,F1-score

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号