首页> 中国专利> 一种基于分布式计算的互联网信息投放渠道优化系统

一种基于分布式计算的互联网信息投放渠道优化系统

摘要

本发明提供了一种基于分布式计算的互联网信息投放渠道优化系统,其中数据收集模块收集用户行为;数据预处理模块进行数据清理、集成、归约,将收集到的用户行为信息简单化,规范化;训练模块针对训练集中的数据,用类E-M算法进行迭代运算,得到概率累加模型中的参数;再将测试集中的数据带入概率累加模型,从而完成对各个投放渠道的贡献预测以及对于用户是否转化的预测;对贡献度高的网站或推荐类型进行信息投放,并投放给那些最有可能发生转化的用户。同时,本发明使用Hadoop平台进行分布式计算,将消耗大量资源的复杂计算通过分布到多节点上进行计算,从而实现了多节点并行处理。

著录项

  • 公开/公告号CN104133837A

    专利类型发明专利

  • 公开/公告日2014-11-05

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN201410289052.5

  • 发明设计人 张娅;魏逸;王宇晨;

    申请日2014-06-24

  • 分类号G06F17/30(20060101);

  • 代理机构31236 上海汉声知识产权代理有限公司;

  • 代理人郭国中

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-07

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20181116 变更前: 变更后: 变更前:

    专利申请权、专利权的转移

  • 2018-11-06

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20181017 变更前: 变更后:

    专利申请权、专利权的转移

  • 2017-10-31

    授权

    授权

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140624

    实质审查的生效

  • 2014-11-05

    公开

    公开

说明书

技术领域

本发明涉及互联网技术领域,具体地是一种基于分布式计算的互联网信息投放渠道优化系统。 

背景技术

在过去的十几年中,互联网得以爆炸式发展,越来越多的人选择上网社交、游戏、购物,互联网信息推荐也成为了推广产品的一个非常良好的途径。这也使得各企业可以从中获得大量的网络数据来跟踪推荐效果和投资回报率。 

信息投放渠道贡献度研究的目的就是量化不同渠道对于用户转化行为影响的大小。通过量化各渠道的贡献度,可以比较不同市场渠道的价值,这些市场渠道包括电子邮件、联盟营销、显示广告、搜索广告、社会媒体等,公司也可依据这些数据来决定未来对于不同投放渠道的投资力度,以求用最小的成本获得大众对于信息最大的关注度。 

在现有技术中,互联网信息投放渠道贡献度预测的系统通常有三种:1、基于单源归因模型的互联网信息投放渠道贡献度预测系统:此种系统中所用模型将所有贡献都给了众多事件中的一个事件,如基于最后点击法(last-click)的系统、基于第一次点击法(first-click)的系统等。这种系统被认为是非常不准确的,因为它忽略了那些事实上对于转化行为产生了影响的事件。2、基于分数归因模型的互联网信息投放渠道贡献度预测系统:此种系统中所用模型包括相同权重,客户信用,U型曲线三种方式。相同权重就是给予所有投放渠道相同的权重。客户信用就是根据以往投放的效果,人为地猜测并赋予不同的权重。U型曲线是将全部权重给第一次转化和最后一次转化,不考虑中间信息投放效果的影响。显然,此系统的说服力也是不足的,事实上它们对于贡献度的评估效果也并不良好。3、基于概率分布模型的互联网信息投放渠道贡献度预测系统:根据用户所关注过的信息对用户转化行为的影响,给予这些渠道不同的贡献度,然后对这些渠道的贡献度进行整理、排序,以完成投放渠道贡献度评估。显然这种系统给予的预测才更精确,更合理。 

发明内容

针对现有技术的不足,本发明的目的在于提供一种基于分布式计算的互联网信息投放渠道优化系统,通过用户的浏览行为优化信息投放渠道的选择,更加准确地实现互联网信息推荐,满足用户需求。 

为实现上述目的,本发明采用了以下技术方案: 

本发明提供一种基于分布式计算的互联网信息投放渠道优化系统,该系统包括:数据收集模块、数据预处理模块、训练模块、信息投放渠道贡献度预测模块及转化率预测模块,其中: 

数据收集模块,该模块通过web服务器收集用户行为数据:将收集到的用户行为分为两部分,一部分记录了某些用户的全部浏览行为,另一部分记录了同一信息不同渠道的访问特征; 

数据预处理模块,该模块是对服务器收集的用户行为数据进行清理、集成、归约,将收集到的用户行为信息简单化,规范化; 

训练模块,该模块的输入为训练集,并用类E-M算法进行迭代运算,迭代至概率累加模型中的用户影响强度因子和影响随时间衰减的因子这两参数收敛,完成对这两个参数的参数估计。 

信息投放渠道贡献度预测模块,该模块的输入为测试集,构建信息投放渠道m贡献度,再根据每个信息投放渠道m的所属网站或类型进行加和,得出各网站和各类型的贡献度;最后根据各网站和各类型的贡献度,由高到低进行排序,选用排名靠前的网站或类型来进行信息推送,以此来获取更好的投放效果; 

转化率预测模块,该模块的输入为测试集,利用生存函数给每一个用户进行评分,预测出最有可能发生转化行为的用户,并向这部分用户推送互联网信息。 

基于Hadoop平台的分布式计算,以上所有模块中涉及到计算部分,均在Hadoop平台进行,我们将复杂的计算分布到多个节点上进行,实现了多任务的并行处理,减少了任务间的等待,使得资源分配更加合理,运算速度得到极大地提升。 

与现有技术相比,本发明具有以下有益效果: 

本发明所提出的基于分布式计算的互联网信息投放渠道优化系统,可以大大提高对于信息投放渠道贡献度预测的准确性,从而方便选取最有效的网站或类型来投放信息;并且选出了最可能发生转化的用户人群,使信息推荐更有针对性。因此,能够以最小的 成本换取最好的推荐效果。另外,本发明的数据处理都是基于Hadoop平台的,实现了多台电脑的并行处理,大大降低了处理大数据时对于电脑运算能力及内存的要求,同时,极大提高了运算速度。 

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显: 

图1是本发明一实施例中基于服务器的信息投放模型图; 

图2是本发明一实施例中基于分布式计算的互联网信息投放渠道优化系统; 

图3是本发明一实施例中分布式计算框架图; 

图4是本发明一实施例中本系统与现有系统的性能比较图。 

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。 

如图1所示,本发明中基于服务器的信息投放模型图,图中明确显示了用户信息收集,用户描述文件的形成,以及本发明构建的推荐模块都是存储于服务器,并由服务器进行处理的。而用户所用的客户机是不负责存储、处理用户信息的。 

如图2所示,本发明中基于分布式计算的互联网信息投放渠道优化系统包括: 

数据收集模块,使用web服务器收集用户行为,将收集到的用户行为分为两部分:网页浏览报文、信息点击报文。其中,网页浏览报文记录了某些用户的全部浏览行为,它可以反映此用户浏览网页的相关特征;信息点击报文记录了同一信息不同渠道的访问特征,它反映对于信息投放渠道的点击历史及特征。 

数据预处理模块,对服务器收集的用户行为数据进行数据清理、集成、归约。 

训练模块,输入训练集中数据,基于最大似然估计法,用类E-M算法进行迭代运算,从而完成对概率累加模型的参数估计; 

信息投放渠道贡献度预测模块及转化率预测模块,调用从训练集中得到的参数,将测试数据带入,从而完成对信息投放渠道贡献度的预测以及对用户是否转化的预测。 

如图3所示,本发明中分布式计算框架图显示了基于Hadoop平台的分布式计算。基于分布式计算的互联网信息投放渠道优化系统中所有模块中涉及到计算部分,均在Hadoop平台进行,我们将复杂的计算分布到多节点上进行,实现了并行处理,从而节省了大量的系统资源,且极大地加快了运算速度。 

如图4所示,本实施例提供一种基于分布式计算的互联网信息投放渠道优化系统,并使用真实数据集进行训练及测试。本实施例选取当前互联网信息投放贡献度预测领域运用最广泛的基于最后点击法的系统以及基于逻辑回归的系统进行比较。实验结果表明,本发明无论是在预测不同渠道的贡献度的准确度上,还是在预测用户可能发生转化行为的准确度上,都优于前面两种系统。最终本发明还能给出最可能发生转化行为的前N用户以及最有效的信息投放渠道。 

本实施例是将所述方法应用于互联网中信息投放渠道的优化,该系统包括: 

1、数据收集模块 

该模块基于web服务器,采用行为跟踪的方法记录下某些用户的全部浏览行为;采用日志挖掘的方法,记录下同一信息不同渠道的访问特征;完成对于用户信息的收集,并将用户信息存储于web服务器。 

2、数据预处理模块 

该模块进行数据清理、集成、归约。其中,数据清理主要采取忽略元祖及去除冗余的方法,这是因为在收集到的数据中,没有值的数据所占比例非常小;数据集成主要是统一所收集到的数据的单位;数据规约主要进行数量规约,将点击时间转化为模型参数,并最终形成包含用户ID、信息投放渠道、时间和点击这四个域的数据集;再将此数据集中的一部分提取出来,作为训练集;其余数据集中的数据作为测试集。至此,可以形成规范的用户信息,也方便接下来对于数据的应用。 

3、训练模块 

该模块负责用训练集中的数据进行训练,完成对概率累加模型的参数估计。 

训练模块首先根据实际信息投放的情形作出如下假设: 

(1)每次信息展示会对用户的转化产生一个影响力; 

(2)每次信息展示对用户的转化的影响力随时间衰减; 

(3)同一个信息对所有用户的影响力和衰减速度一致; 

(4)不同渠道投放的信息的影响力可线性叠加; 

(5)用户的瞬时转化概率与影响力成正比。 

基于以上假设,训练模块可以建立概率累加模型,即用户行为条件强度函数λu(t): 

λu(t)=Σtiu<taadiuwadiuexp(-wadiu(t-tiu)),t<Tu0,otherwise

其中:其中:记用户为集合{1,…,U},信息渠道为集合{1,…,n},观察到的用户行为为集合{C1,......,Cu},用户u的行为记录的结构为其中是用户u第i次行为的信息投放渠道id,是用户u第i次行为的时间,xu是用户转化结果(xu=1表示用户转化,xu=0则反),l_u是用户u行为的总次数,如果用户u转化了,则tu代表转化时间,否则代表观察时间窗口节点。α为不同渠道投放的信息对用户影响强度因子,ω为影响随时间衰减的因子,k是信息投放渠道id,a_k,w_k分别代表信息投放渠道k的影响强度因子和影响随时间衰减的因子,Tu代表转化时间或观察时间窗口节点。 

然后为表示用户转化率,建立生存函数Su(t): 

Su(t)=exp(-0tλu(v)dv)

接着通过类EM算法: 

L(Θ)=ΣXu=1(log(Σiaadiuwadiuexp(-wadiu(Tu-tiu))))+Σu(-Σiaadiu(1-exp(-wadiu(Tu-tiu))))ΣXu=1Σipiulog(aadiuwadiuexp(-wadiu(Tu-tiu))piu)-Σu(Σiaadiu(1-exp(-wadiu(Tu-tiu))))=Q(Θ|Θ(t))

其中E-step: 

piu=aadiuwadiuexp(-wadiu(Tu-tiu))Σtiu<Tuaadiuwadiuexp(-wadiu(Tu-tiu)),Xu=10,Xu=0

M-step: 

Qak=0,Qwk=0可得: 

ak=ΣXu=1Σadiu=kpiuΣuΣadiu=k(1-exp(-wadiu(t)(Tu-tiu)))

wk=ΣXu=1Σadiu=kpiuΣuΣadiu=k(piu(Tu-tiu)+ak(t)(Tu-tiu)exp(-wadiu(t)(Tu-tiu)))

即可完成训练过程。 

4、信息投放渠道贡献度预测模块 

该模块负责将测试集带入已完成训练过程的概率累加模型,得到各个不同信息投放渠道的贡献度。 

信息投放渠道m的贡献度可写为: 

contribution(m)=ΣXu=1Σadiu=maadiuwadiuexp(-wadiu(Tu-tiu))Σtiu<Tuaadiuwadiuexp(-wadiu(Tu-tiu))/ΣXu=11

再根据每个信息投放渠道m的所属网站或类型进行加和,得出各网站和各类型的贡献度。最后,选取贡献度高的网站或类型来进行信息推送,以保证选取的推送渠道的高效性。 

5、转化率预测模块 

该模块负责预测用户转化行为是否会发生。该模块利用1-S(Tu)对每个用户进行评分,然后对用户分数进行由低到高的排序,选出分数最高的前N个用户,认为他们是可能发生转化行为的用户。随后,对这些被预测会发生转化行为的用户进行信息推送,使信息推荐更有针对性,从而提高了推送效果。 

6、基于Hadoop平台的分布式计算。将数据集中的数据通过编程分配到多个不同的mapper当中,形成一批中间结果<key,value>,而reducer则可以对中间结果进行处理,将具有相同key的项进行合并。最后将合并结果作为输出,得到本次迭代的结果α,ω。再将此结果作为参数重新输入mapper中,实现参数估计的迭代运算。这样,就将一个复杂的任务分成很多更细粒度的子任务。而这些子任务能够在空闲的处理节点之间调度,使处理速度越快的节点处理越多的任务,从而避免处理速度慢的节点延长整个任务的完成时间,以达到提高运算速度的效果。同时,能够避免任务间的等待,节约系统资源。 

实施效果 

上述技术方案,使用的是真实的数据集。 

首先,本发明根据F1分数来评估系统的好坏。 

其中,F1分数的方法如下: 

F=2×R×PP+R

其中,P是准确率,等于(预测结果与实际相符的ID数)/(预测结果的总ID数)R是召回率,等于(预测结果与实际相符的有转化的ID数)/(测试集中有转化的ID 总数)。 

通过图4中(a),可明显看出本发明F1分数的得分要高于最后点击法与逻辑回归,这也就说明,本发明对于前N可能发生转化行为用户预测的准确度,要远远高于后两种系统。 

随后,以准确率作为横坐标,召回率作为纵坐标,对3种系统进行了比较。从图4中(b)中可以看出,在相同召回率的情况下,本发明的准确率要高于其余两种系统。更值得一提的是,在召回率达到0.9左右的时候,本发明的效果出奇的好,也就是说,在覆盖几乎所有数据的条件下,本发明的实用性是极其良好的。 

从以上测试可以看出,本发明的基于分布式计算的互联网信息投放渠道优化系统,能够有效的提高不同信息投放渠道贡献度预测的准确度以及用户转化预测准确度,从而更好的展现预测效果,满足用户的需求。本发明的数据处理都是基于Hadoop平台,实现了多台电脑的并行处理,大大降低了处理大数据时对于电脑运算能力及内存的要求,同时,极大提高了运算速度。 

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号