首页> 中国专利> 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法

一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法

摘要

本发明涉及一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法,与现有技术相比解决了无法挖掘出潜在用户影响力的缺陷。本发明包括以下步骤:媒体信息和用户信息的特征提取;基于网络传播影响力进行建模;划分出潜在影响力人群;推送效果评估。本发明在预测媒体传播范围时不仅能够考虑用户与媒体信息,还能考虑媒体信息在用户之间的传播效应,能够更加准确的分析和预测媒体信息在网络中的真实影响力。

著录项

  • 公开/公告号CN105005918A

    专利类型发明专利

  • 公开/公告日2015-10-28

    原文格式PDF

  • 申请/专利权人 金鹃传媒科技股份有限公司;

    申请/专利号CN201510447319.3

  • 发明设计人 金琦;李焱;黄牧;范红;黄甜甜;

    申请日2015-07-24

  • 分类号G06Q30/02(20120101);

  • 代理机构34115 合肥天明专利事务所;

  • 代理人张祥骞;奚华保

  • 地址 230041 安徽省合肥市濉溪路251号

  • 入库时间 2023-12-18 11:38:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-17

    授权

    授权

  • 2015-11-25

    实质审查的生效 IPC(主分类):G06Q30/02 申请日:20150724

    实质审查的生效

  • 2015-10-28

    公开

    公开

说明书

技术领域

本发明涉及数据预测推荐技术领域,具体来说是一种基于用户行为数据和 潜在用户影响力分析的在线广告推送方法及其推送评估方法。

背景技术

传统的网络在线广告推送系统,仅会根据产品选择出最有可能购买该产品 的用户,然后向这些用户推送广告信息。然而,传统的广告系统忽略了广告信 息在被推送到这些用户后的传播过程和途径。对于一个在线广告营销系统而 言,一个最基本的标准就是:根据待营销的产品,选择向一组潜在用户推广该 产品,最终购买该产品的用户最多,同时产生的收益也最大。因此,若在产 品广告投放过程中,即能预测出那些最有可能购买该产品的用户,也能推荐出 能够使广告信息进一步传播更远的用户,则预测推送效果会更好。这就需要从 技术框架权衡这两方面的重要性,解决广告投放过程中的种子用户选取问题, 使广告的投放效果更好,产品能被更多的用户所知所买。

发明内容

本发明的目的是为了解决现有技术中无法挖掘出潜在用户影响力的缺陷, 提供一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推 送评估方法来解决上述问题。

为了实现上述目的,本发明的技术方案如下:

一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推 送评估方法,包括以下步骤:

媒体信息和用户信息的特征提取,根据媒体信息库和用户行为数据库,采 用概率主题模型和隐马尔科夫模型,提取出媒体信息的特征和用户的喜好特征 信息;

基于网络传播影响力进行建模,根据用户之间的网络,建立一个影响力传 播模型,模拟用户之间的信息传播效应;

划分出潜在影响力人群,根据已提取的媒体信息特征和用户喜好特征,估 算待发布媒体信息会影响到的用户,以这些用户为初始用户,划分出相应的潜 在影响力人群,针对潜在影响力人群进行在线广告推送;

推送效果评估,利用通过多重影响力计算方法,计算待发布信息通过用户 集合S对所用网络用户的影响力。

所述的媒体信息和用户信息的特征提取包括以下步骤:

根据媒体信息库C,对于媒体的音频信息使用隐马尔科夫模型识别音频信息 的文字内容,并扩充入媒体的文字描述信息中;

根据媒体信息库C,对媒体的文字描述信息使用概率主题模型进行主题分 类,

定义并提取主题数为n个,即为[d1,d2,…,dn],

定义并提取视频i的主题描述Oi,即Oi=[o1,o2,…,on],其中,on表示视频i 在第n个主题上的分布概率;

通过网页爬虫技术来抓取网站上的用户行为数据,利用概率主题模型获取 用户u对这n个主题的喜好程度,记为Pu=[u1,u2,…,un]。

所述的基于网络传播影响力进行建模包括以下步骤:

根据社交网络信息,将用户当成网络的节点,将用户之间的链接关系当成 网络的边;

使用带权重的有向图G=<V,E,T>来表示社交网络,其中:

V为节点集合,每个节点代表一个用户个体;

E为所有有向边集合,代表一种朋友或链接关系;

T为用户之间影响力传播概率矩阵,Tij表示节点i到节点j的影响力传播概 率;

计算节点之间的影响力传播概率,其包括以下步骤:

根据用户对媒体信息的行为记录,通过概率主题模型获得用户u所看媒体 信息库C中各个主题[d1,d2,…,dn]的喜好程度,

记为Duc=[du1,du2,…,dun],其中dui∈[0,1]表示用户u对主题i的喜好程度;

采用相似度计算方法来计算两个用户喜好特性的相似度,其计算公式如 下:

sim(i,j)=Dic*Djc|Dic|*|Djc|

其中,Dic为用户i对各个主题的喜好程度,Dic=[di1,di2,…,din];

Djc为用户j对各个主题的喜好程度,Djc=[dj1,dj2,…,djn];

计算用户之间的影响力传播概率Tij,其计算公式如下:

Tij=sim(i,j)ΣkN(j)sim(j,k)

其中,N(j)表示用户j的入度邻居节点。

所述的划分出潜在影响力人群包括以下步骤:

抽取待发布媒体信息m在各个主题的相关度Om,即Om=[om1,om2,…,omn];

根据用户i对各个主题的喜好程度Pi=[i1,i2,…,in],采用余弦相似度方法来 计算该待发布媒体信息m对每个用户i的潜在影响力,其计算公式如下:

inf(i)=Om*Pi|Om|*|Pi|;

根据所有用户的inf(i)值,选取K个最大值所对应的用户集合S,用户集合 S作为潜在影响力人群进行在线广告推送。

所述的推送效果评估包括以下步骤:

建立一个n*K的影响力矩阵F0

其中fij表示待发布媒体通过第j个潜在影响用户对用户i的影响力,

若,则fij=0;

若i∈S且i=j,则fij=1;

若i∈S且i≠j,则fij=0;

多重影响力传播计算,通过公式F=T*F进行一次迭代计算,

其中,T为用户之间的影响力传播概率矩阵;

重置待发布媒体对潜在用户的影响力inf(i);

重复进行多重影响力传播计算和重置inf(i),直至矩阵F收敛;

输出矩阵F,计算待发布媒体的整体影响力A和待发布媒体对用户i的影响 力B,其中:

待发布媒体的整体影响力A=矩阵F中所有非零值的和;

待发布媒体对用户i的影响力B=矩阵F中第i行fi的和。

有益效果

本发明的一种基于用户行为数据和潜在用户影响力分析的在线广告推送方 法及其推送评估方法,与现有技术相比在预测媒体传播范围时不仅能够考虑用 户与媒体信息,还能考虑媒体信息在用户之间的传播效应,能够更加准确的分 析和预测媒体信息在网络中的真实影响力。本发明首先采用基于用户兴趣主题 的影响力传播概率计算方法,能够更加真实的反应用户之间的影响力传播概 率;其次,考虑了用户之间的级联传播效应,提出了潜在影响用户估计方法和 多重影响力计算方法,能够快速计算一组用户的自身影响力,并能够计算这组 用户所能产生的级联效应,更准确的分析并预测信息在网路中的传播范围。本 发明所推荐的一组用户能够导致更多用户购买该产品,可以在Windows或Linux 服务器上实现,可采用mysql数据库存储数据,采用Java语言实施编码,并通 过前台页面展示给客户使用,适用于在线广告系统、个性化推荐系统等。

附图说明

图1为本发明的方法流程图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以 较佳的实施例及附图配合详细的说明,说明如下:

如图1所示,本发明所述的一种基于用户行为数据和潜在用户影响力分析 的在线广告推送方法及其推送评估方法,使用概率主题模型、隐马尔科夫模型 和自然语言处理等技术,结合历史媒体信息和用户行为数据库信息,通过网络 影响力传播模型,对于待发布的媒体信息(包括其视频、图片、语音及文字), 进行比较和分析,能够在媒体信息发布之前,准确预测其潜在影响力范围和相 应的影响人群。其包括以下步骤:

第一步,媒体信息和用户信息的特征提取。根据媒体信息库和用户行为数 据库,采用概率主题模型和隐马尔科夫模型,提取出媒体信息的特征和用户的 喜好特征信息。其主要为数据获取和特征提取环节,具体包括以下步骤:

(1)根据媒体信息库C,对于媒体的音频信息使用隐马尔科夫模型识别音 频信息的文字内容,并扩充入媒体的文字描述信息中,以扩充媒体的描述信息。 隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立 于20世纪70年代。隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接 观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度 分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态 序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐 马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识 别,取得重大成功。到了90年代,HMM还被引入计算机文字识别和移动通信 核心技术“多用户的检测”。HMM在文字识别、生物信息科学、故障诊断等 领域也开始得到应用。

(2)根据媒体信息库C,对媒体的文字描述信息使用概率主题模型进行主 题分类。概率主题模型是一种非监督的生成模型,可以用于从文本中提取潜在 的主题。Latent dirichlet allocation(LDA)是一种常用的概率主题模型, 由David M.Blei等人于2002年提出。LDA模型是基于“词袋”假设的,在该 假设中,每个文档可以表示成一个各个词汇出现次数的向量。LDA模型对文档定 义了一个完整的生成过程。在该过程中,对于一个文档,首先从该文档的主题 分布中选取一个主题,然后再从对应主题的词汇分布中,选取一个单词。在LDA 模型中,文档可以看成是由不同比例的主题混合而成,而主题则是对词汇表中 的词汇的概率分布。利用LDA模型,我们可以对文本集合进行分析,从而找出 文本集合隐含的主题,以及文本集合中各个文本对于各个主题的比例。概率主 题模型是一种非监督模型,不需对数据进行标注,因此应用十分广泛。近年来, 随着社交网络的兴起,概率主题模型也常常被用来分析社交网络中的文本,发 现社交文本中的主题。

利用概率主题模型将所有视频信息进行主题分类后,能够定义并提取主题 数为n个,即为[d1,d2,…,dn]。同时,每个视频i都可以描述n个主题,同理, 定义并提取视频i的主题描述Oi,即Oi=[o1,o2,…,on],其中,on表示视频i在第 n个主题上的分布概率。

(3)通过网页爬虫技术来抓取网站上的用户行为数据,利用概率主题模型 获取用户u对这n个主题的喜好程度,记为Pu=[u1,u2,…,un]。

在此,视频i的主题描述Oi和用户u对这n个主题的喜好程度Pu,均用于 在划分出潜在影响力人群中作为基础数据而使用。

第二步,基于网络传播影响力进行建模。根据用户之间的网络,建立一个 影响力传播模型,模拟用户之间的信息传播效应。其具体包括以下步骤:

(1)根据社交网络信息,将用户当成网络的节点,将用户之间的链接关系 当成网络的边,则边(i,j)表示用户i关注了用户j。

(2)使用带权重的有向图G=<V,E,T>来表示社交网络,其中:

V为节点集合,每个节点代表一个用户个体;

E为所有有向边集合,代表一种朋友或链接关系;

T为用户之间影响力传播概率矩阵,Tij表示节点i到节点j的影响力传播概 率。

(3)计算节点之间的影响力传播概率,节点之间的影响力传播概率通常不 能直接得到,虽然可以通过很多方法来计算它,比如随机赋予一个0到1之间 的实数值,让Tij等于节点j的出度分之一,但是这些赋值方法在实际的应用中 会有很大的偏差,并不能真实的反应节点之间的影响力传播概率。在此采用基 于用户兴趣主题的影响力传播概率计算方法。其具体步骤如下:

A、根据用户对媒体信息的行为记录,通过概率主题模型获得用户u所看 媒体信息库C中各个主题[d1,d2,…,dn]的喜好程度,

记为Duc=[du1,du2,…,dun],其中dui∈[0,1]表示用户u对主题i的喜好程度。

B、采用相似度计算方法来计算两个用户(用户i和用户j)喜好特性的相 似度,可以使用余弦相似方法或Jaccard相似性计算方法,在此使用余弦相似方 法来计算,其计算公式如下:

sim(i,j)=Dic*Djc|Dic|*|Djc|

其中,Dic为用户i对各个主题的喜好程度,Dic=[di1,di2,…,din];

Djc为用户j对各个主题的喜好程度,Djc=[dj1,dj2,…,djn]。

C、计算用户之间的影响力传播概率Tij,其计算公式如下:

Tij=sim(i,j)ΣkN(j)sim(j,k)

其中,N(j)表示用户j的入度邻居节点。

从而,获得合理的用户两两之间的影响力传播概率,基于用户之间的影响 力传播概率,快速计算网络影响力的传播范围。

第三步,划分出潜在影响力人群。根据已提取的媒体信息特征和用户喜好 特征,估算待发布媒体信息会影响到的用户,以这些用户为初始用户,划分出 相应的潜在影响力人群,针对潜在影响力人群进行在线广告推送。即根据待发 布的媒体信息特征与用户的喜好特征,估计出每个用户“喜欢”这个媒体信息 的程度。然后,选取最“最喜欢”这个媒体信息的K个用户作为该待发布媒体信 息的潜在影响用户。其具体步骤如下:

(1)抽取待发布媒体信息m在各个主题的相关度Om,即Om=[om1,om2,…, omn],相关度Om即视频m在各个主题上的分布概率,来源于第一步中视频i的 主题描述Oi

(2)同理,通过第一步中用户u对这n个主题的喜好程度Pu获取用户i对 各个主题的喜好程度Pi=[i1,i2,…,in]。采用余弦相似度方法来计算该待发布媒体 信息m对每个用户i的潜在影响力,其计算公式如下:

inf(i)=Om*Pi|Om|*|Pi|.

(3)根据所有用户的inf(i)值,选取K个最大值所对应的用户集合S,此用 户集合S作为潜在影响力人群进行在线广告推送。

至此,完成了针对用户行为数据和潜在用户影响力分析的在线广告推送, 其考虑用户的喜好程度也考虑了媒体信息在用户之间的传播效应(潜在用户的 影响力对其好友进行扩散的可能性)。相对于其他传统方法而言,本技术更能 够真实的模拟媒体信息影响力的传播过程,能够更加准确的分析和预测媒体信 息的影响力传播范围。并且采用了基于用户兴趣主题的影响力传播概率计算方 法能够真实的计算用户与用于之间的影响力传播概率,比随机的传播概率值等 方法能够更好的模拟影响力传播过程。

第四步,推送效果评估。利用通过多重影响力计算方法,计算待发布信息 通过用户集合S对所用网络用户的影响力。以这K个用户为种子节点集合,按 照用户间的影响力传播效应和多重影响力计算方法,计算出该待发布媒体信息 通过这K个潜在影响用户在整个网络中所达到的影响力。其具体步骤如下:

(1)建立一个n*K的影响力矩阵F0

其中fij表示待发布媒体通过第j个潜在影响用户对用户i的影响力,即该待 发布媒体信息m对每个用户i的潜在影响力inf(i)。

若,则fij=0,即若用户i不属于用户集合S中的潜在用户,那么S中的 潜在用户对用户i的初始影响力为0。

若i∈S且i=j,则fij=1,即用户集合S中的潜在用户对自己的影响力初始为 1。

若i∈S且i≠j,则fij=0,即用户集合S中的潜在用户j对S中的其他用户i 的初始影响力为0。

若用户i为用户集合S中的潜在影响用户j,则将其保留在影响力矩阵F0中, 若用户i并不属于用户集合S中的潜在影响用户j,则相应也不存在影响力估算 的问题。

(2)多重影响力传播计算,通过公式F=T*F进行一次迭代计算,其中, T为用户之间的影响力传播概率矩阵。

(3)重置待发布媒体对潜在用户的影响力inf(i)。为了不使待发布媒体对潜 在影响用户的影响力逐渐变弱,我们在此重置了待发布媒体对潜在用户的影响 力为初始矩阵中对应的值。这样待发布媒体的整个影响力就以K个潜在用户为 中心不断的向外传播“能量”,影响其他网络用户。

(4)重复进行多重影响力传播计算和重置inf(i),即重复以上步骤(2)和 步骤(3),直至矩阵F收敛。

(5)输出矩阵F,计算待发布媒体的整体影响力A和待发布媒体对用户i 的影响力B,其中:

待发布媒体的整体影响力A=矩阵F中所有非零值的和;

待发布媒体对用户i的影响力B=矩阵F中第i行fi的和。

多重影响力计算方法既能模拟影响力的传播过程,又比传统影响力模型的 计算方法速度更快,占用系统资源更少,更能适合大规模数据的网络计算。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有 各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明 要求的保护范围由所附的权利要求书及其等同物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号