首页> 中国专利> 一种基于用户历史行为序列的广告点击率预测方法

一种基于用户历史行为序列的广告点击率预测方法

摘要

本发明公开了一种基于用户历史行为序列的广告点击率预测方法,该方法包括:采集目标用户特征信息、广告信息以及用户历史行为信息,构建广告相关图,并运用图嵌入方法对用户历史行为信息数据进行增强表示,学习得到能充分表达广告特征的表示向量;在点击率预估模型中加入自注意力机制层,能够更直接地学习到用户历史行为之间的内部相关性,减少了对外部信息的依赖。在多个公开的亚马逊商品点击数据集以及盘石公司广告点击数据集上的实验显示,本发明提供的技术方案提高了点击率预测的准确性,从而可以更准确地向用户展示其感兴趣的广告。

著录项

  • 公开/公告号CN112288471A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN202011154969.6

  • 申请日2020-10-26

  • 分类号G06Q30/02(20120101);

  • 代理机构33240 杭州君度专利代理事务所(特殊普通合伙);

  • 代理人朱亚冠

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-06-19 09:43:16

说明书

技术领域

本发明涉及一种广告点击率预测方法,更具体地说,本发明涉及一种基于用户历史行为序列的广告点击率预测方法。

背景技术

互联网广告是在网络发展浪潮下涌现的新型广告运作方式,随着近年来互联网产业的日趋成熟以及用户群体的不断扩大,互联网广告带来的收益也在持续攀升。相比传统媒体广告,互联网广告拥有许多天然的优势。第一,即时交互性。广告主的广告信息发布与消费者的广告信息接收已实现即时同步,消费者可以浏览自己偏好的广告内容;第二,宣传广泛性。互联网世界性的覆盖面,让它拥有了更广阔的宣传空间;第三,类别多样性。互联网广告在尺寸大小、技术手段、用户读取形式上有着非常多的类别,这是传统媒体广告做不到的;第四,易于统计性。互联网广告展示、浏览、点击等相关数据利用计算机统计起来非常轻松,较传统媒体也更为精确;第五,投放针对性。这是互联网广告占有绝对优势的天然特性,它可以通过对每个消费者浏览历史、个人信息、购买行为的长期积累和深度分析,深入了解用户偏好,精确投放与之匹配的广告信息。

广告点击率预测算法是使在线广告精准投放规模化的核心手段,广告点击率预测的准确性不仅关乎着用户是否能获得良好的体验,也关系着广告主与媒介商能否取得更多的经济效益。由于点击率预估问题的实质是判断用户在某场景下是否会点击某广告,因此可将其看做是对样本进行“点击”与“不点击”的二类划分。对于二分类问题,目前常见的解决方案主要分为基于传统机器学习与深度学习的解决方案。传统的机器学习模型包含逻辑回归、梯度决策树、因子分解机等方法,它们具有求解简单、可解释性强的优点,但需要人工进行特征工程。比较有代表性的深度学习模型有谷歌公司提出的Wide&Deep模型,Deep&Cross模型以及华为公司提出的DeepFM模型等。Wide&Deep模型由一个线性结构与一个深度神经网络结构并联构成,模型Wide部分的线性模型接收来自手工提取的特征用于提高模型对特定规则的记忆能力,模型Deep部分的深度神经网络提取的高阶抽象特征则用于提高模型的泛化能力,两者相结合有效的均衡了模型在泛化能力和记忆能力上的表现;Deep&Cross模型是将深度神经网络和深度交叉网络相结合,模型的Deep部分用于提取高阶抽象特征,模型的Cross部分用于提取解释性较好的高阶交叉特征,两种高阶特征提取方式相结合,在可解释性与泛化能力上取得了良好的效果。DeepFM模型是在Wide&Deep模型的基础上,结合FM模型提出的,相比Wide&Deep模型,DeepFM增加了FM模型的二阶交互特征的引入,且DeepFM模型不需要进行额外的人工特征工程,简化了特征处理的工作。

现有的深度神经网络模型虽然大大减少了特征工程的工作量,但也存在一些问题:现有模型只对输入的原始特征进行隐式的交互建模,并未考虑到用户历史行为特征。而用户历史行为中往往蕴含着大量的用户兴趣信息,对于点击率预测模型来说,通过用户行为数据来发掘潜在的用户兴趣是很有必要的。本发明主要针对用户历史行为信息进行建模,构建广告相关图并通过图嵌入方法,训练得到能充分表达广告特征的时序向量。并提出加入自注意力层的点击率预估模型,通过自注意机制更直接地学习到用户历史行为之间的内部相关性,进而提升广告点击率预估的准确性。

发明内容

为了解决上述问题,本发明从用户角度出发,提供了一种基于用户历史行为的广告点击率预测方法。

本发明所采用的技术方案如下:

一种基于用户历史行为序列的点击率预测方法,该方法采用以下步骤实现:

步骤1:获取目标用户特征信息、广告信息以及用户历史行为信息;

步骤2:构建广告相关图,并运用图嵌入方法对用户历史行为信息数据进行增强表示,结合用户特征信息和广告信息编码构建数据集,用于模型训练;

步骤3:利用数据集训练基于自注意力机制层与多层全连接神经网络的点击率预估模型HDSAN(Hybrid Deep Self-Attention Neural Network);

步骤4:通过前向传播算法和反向传播算法对数据进行轮询训练,实现权重参数更新,得到最优参数模型。

一种设备,其特征在于至少一个处理器,以及与所述至少一个处理器通信的存储器;其中存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行上述一种基于用户历史行为序列的广告点击率预测方法。

本发明提供的技术方案包含以下有益效果:

1.本发明通过采集用户历史行为信息,并构建广告相关图,运用图嵌入方法对用户历史行为信息数据进行增强表示,,得到广告的时序向量,弥补了现有模型未考虑广告时序信息的不足;

2.本发明提出加入自注意力机制层的点击率预估模型,通过自注意力机制更直接地学习到用户历史行为之间的内部相关性,减少了对外部信息的依赖。

附图说明

图1为本发明所涉及的流程图;

图2为本发明训练广告时序向量的过程图;

图3为基于自注意力机制的点击率预估模型图。

具体实施方式

下面结合附图,对本发明的具体实施方案作进一步详细描述。其具体步骤描述如图1所示,其中:

步骤1:采集目标用户特征信息、广告信息以及用户历史行为信息。

所述目标用户特征信息包括用户性别、年龄、地址、职业、兴趣、爱好;

所述广告信息包括广告类型(如图片、flash、图文等)、广告所属行业、广告位置、广告位尺寸、广告受众;

所述用户历史行为信息包括用户历史点击与未点击过的广告,以及产生行为的时序信息;

步骤2:构建广告相关图,并运用图嵌入方法对用户历史行为信息数据进行增强表示,结合用户特征信息和广告信息编码构建数据集,用于HDSAN模型训练。

2.1用户历史行为信息图嵌入增强表示

2.1.1根据用户历史行为信息中的时序信息构建所有用户对应的广告相关图。广告相关图是以广告作为节点,边由用户点击广告的顺序产生,边的权重为用户点击顺序在数据集中出现的次数,如图2所示;

2.1.2在广告相关图上,每次随机以一个广告节点为起点,沿着边进行随机游走,生成一条随机广告序列,总计进行x轮随机游走,得到x条随机广告序列,x为正整数,如图2所示;

2.1.3通过词嵌入方法Word2vec对上一步生成的随机广告序列进行训练,得到用户历史行为序列中每个广告A

2.2将用户特征信息、广告信息进行独热编码,得到用户特征向量、广告信息向量,作为HDSAN模型嵌入层的输入;具体是:

2.2.1获取用户特征向量

对于用户特征共有m1个,对m1个用户特征的独热编码进行拼接,得到用户特征向量:H

其中U

2.2.2获取广告信息向量

对于广告信息共有m2个,对m2个广告信息的独热编码进行拼接,得到广告信息向量:

H

其中T

2.3根据广告是否被点击构建数据集的输出项标签,被点击则标签为1,否则为0。数据集中每条样本由用户历史点击序列、用户特征信息、广告信息以及该广告是否被点击的标签组成。最后对数据集按照7:3的比例划分训练集与测试集。

步骤3:利用数据集训练基于自注意力机制层与多层全连接神经网络的点击率预估模型HDSAN(Hybrid Deep Self-Attention Neural Network),如图3所示。

所述HDSAN模型包括嵌入层、自注意力机制层、全连接层、输出层。

所述嵌入层,将用户特征向量G

所述自注意力机制层,根据用户历史行为序列中每个广告的时序向量计算广告间相关性,并根据相关性权值对广告时序向量做线性变换,最终得到用户历史行为的表示向量,具体是:

1)对于用户历史行为序列[A

其中Q、K、V表示用户历史行为的时序向量矩阵,矩阵的每一行是序列中一个广告的时序向量;Q=K=V,Q∈R

2)将用户历史行为序列中的每一个广告的时序向量与序列中其他广告的时序向量做Attention,做Attention的方式为求向量内积,通过计算内积得到向量间的相似度,为了防止相似度结果过大,需要做一个缩放,也就是除以向量的维度d,最后再通过softmax将相似度进行归一化,得到最终的注意力权值W

其中W

3)将用户历史行为序列中所有广告时序向量间的注意力权值组成注意力矩阵W

其中,n为用户历史行为序列中广告的个数,W

4)利用注意力权值矩阵的注意力权值与所有广告的时序向量做加权和,作为单个广告A

其中n为用户历史行为序列中广告的个数。

5)将用户历史行为序列中的所有广告的表示向量进行求和,作为整个用户历史行为序列的表示向量e

其中n为用户历史行为序列中广告的个数。

第三层和第四层为全连接层,将用户历史行为表示向量e

a

a

其中l为当前层深度,σ为激活函数,W

y

第五层为输出层,将前馈神经网络的输出,输入到sigmoid函数中,最终输出0-1之间的点击率预估值

步骤4:HDSAN模型通过前向传播算法和反向传播算法对数据进行轮询训练,实现权重参数更新,得到最优参数模型。在反向传播中,本发明采用logloss作为损失函数,其公式为:

上述公式中n为样本数目,i表示第i个样本,它的真实label为y

实验结果:

在三个数据集上对比了本发明模型与其他模型的效果:

1)Amazon Electronic数据集:该数据集包含来自Amazon电子类产品评论数据,包含192403个用户,63.001件货物,801个品类,1689188条样本。

2)Amazon Books数据集:该数据集包含来自Amazon图书类产品评论数据,包含603668个用户,367982件货物,1600个品类,603668条样本。

3)盘石广告数据集:盘石信息科技有限公司是中国领先的专注于广告投放的企业。在该数据集中,一条训练样本包含广告的特征(广告定向性别、广告定向行业、广告定向年龄),和媒介网站上广告位的特征(网站访问量、网站所属行业、网站用户性别比例)。

本发明采用AUC作为评估点击率预估模型效果的度量标准。AUC是一个广告点击率预测领域广泛使用的度量标准,它是指随机抽取一个正样本A和一个负样本B,并且在模型预测结果中正样本排在负样本前面的概率。计算公式如下:

其中,M为数据集中正样本个数,N为数据集中负样本个数,

表1实验结果

实验结果表明,本发明提出的一种基于用户历史行为序列的广告点击率预测方法比其他先进模型的推荐精度有较大提升。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号