首页> 中国专利> 基于流式数据的自动化层级探索方法和装置

基于流式数据的自动化层级探索方法和装置

摘要

本发明涉及数据探索方法领域,具体涉及基于流式数据的自动化层级探索方法和装置,该方法基于流式计算框架,包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端用户行为数据、通过用户行为数据触发新物品候选集更新;新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前一较低层级新物品候选集。本发明通过对线上实时流式数据进行处理,监控新物品候选集的曝光次数来自动触发候选集的更新,解决定时更新导致的曝光不均的问题;设置若干不同层级的新物品候选集,解决了新物品不同曝光次数下置信度相同的问题。

著录项

  • 公开/公告号CN113111085A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 达而观信息科技(上海)有限公司;

    申请/专利号CN202110377785.4

  • 申请日2021-04-08

  • 分类号G06F16/2455(20190101);G06F16/23(20190101);G06F16/9535(20190101);G06F16/2457(20190101);

  • 代理机构31105 上海智力专利商标事务所(普通合伙);

  • 代理人周涛

  • 地址 201203 上海市浦东新区亮秀路112号B座301、303、304室

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及数据探索方法领域,具体涉及基于流式数据的自动化层 级探索方法和装置。

背景技术

随着互联网技术和社会化网络的发展,每天都会有大量的信息比如 文字资讯、图片、视频、商品、广告等发布到互联网上。从推荐系统或 计算广告系统的角度来看,系统每时每刻都面临大量的新老用户、新老 物品以及大量的用户行为数据。

对于已知静态属性或有行为数据的用户或物品,需要对其进行建模、 刻画其画像,然后在推荐中加以利用(Exploitation);而对于新的用户 或物品,需要对其兴趣或者适用群体进行探索(Exploration),当然老 的用户或物品也是需要探索的。

探索(Exploration)和利用(Exploitation)问题在推荐系统 和计算广告领域是一个常见的问题,一般通过多臂老虎机模型(计算 机领域算法模型)来解决。它解决的问题是:一个人看到一排老虎机, 在不清楚老虎机吐钱的概率并且在足够多的尝试机会前提下,选择哪 个老虎机可以做到收益最大化。这里的老虎机类比推荐或广告中的物 品,每一次摇臂尝试类比于物品曝光,吐钱就类比用户点击。现实中, 探索机会是有限的,每一次物品曝光都是珍贵的,但是现实中老虎机 远远不止那一排老虎机的数量,此外还会有不断加入新物品的情况。

实际中可行的探索方法是基于定时任务的探索方法是定时从海量新 增的物品中挖掘“质量较高”的物品随机的曝光给用户,然后将经过线 上流量检验的优质物品推广给更多的用户群体,而新物品候选集的更新 频率一般是通过定时任务来控制的,比如利用crontab设置该新物品的 候选集每10分钟更新一次。

但是这种定时更新新物品候选集的方式会存在两大问题:

一、新物品探索不均,不管什么应用或者产品,它的流量在一天中 存在流量高峰、流量低谷,也就意味着通过定时任务控制新物品候选集 的更新势必会带来曝光不均的问题;

二、新物品置信度不高,出现该问题的原因在于探索不均,对于一 个物品而言曝光1000次被用户点击100次与另外一个物品曝光100次被 用户点击10次点击率是一样的,但是这两个物品的点击率是不等价的, 前者的置信度实际更高。

发明内容

随着Apache Storm,Spark Streaming以及Apache Flink等主流 的流式框架的成熟,对于实时的流式数据处理也在更多的项目中落地, 为了解决上述技术问题,本发明提供了一种基于流式数据的自动化层级 探索方法和装置,能够在小流量下快速探索出优质、高置信度的新物品, 本发明的技术目的是通过以下技术方案实现的:

基于流式数据的自动化层级探索方法,该方法基于流式计算框架, 包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、 将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端 用户行为数据、监控新物品候选集的曝光次数触发新物品候选集更新; 新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前 一较低层级新物品候选集。

进一步地,为每个层级的新物品候选集的样本设定曝光阈值,每个 层级的新物品候选集内的曝光次数达到设定阈值后对新物品候选集内的 样本全部进行更新。

进一步地,较低层级新物品候选集内样本的曝光阈值小于较高层级 新物品候选集内样本的曝光阈值。

进一步地,较低层级新物品候选集的样本容量大于较高层级新物品 候选集的样本容量。

进一步地,为存在下一较高层级新物品候选集的较低层级新物品候 选集设定升级阈值,收集用户行为数据统计较低层级新物品候选集内样 本曝光结果是否达到升级阈值,达到则该样本进入下一较高层级的新物 品候选集。

进一步地,较高层级新物品候选集的升级阈值高于较低层级新物品 候选集的升级阈值。

基于流式数据的自动化层级探索装置,该装置包括:

物品候选集模块,用以采集候选物品形成物品候选集;

新物品生成模块,用以从物品候选集模块中获取候选物品来构建新 物品候选集;

物品推送模块,用以将新物品生成模块中生成的候选物品推送给终 端或由终端主动获取该模块提供的新物品;

流式计算模块,用以采集终端流式的用户行为数据,通过其实时计 算能力触发新物品生成模块更新新物品候选集;

新物品候选集层级管理模块,用以对层级的新物品候选集进行管理, 包括控制新物品候选集的层级数、每一层级新物品候选集的候选物品数 量、曝光阈值、升级阈值。

相比现有技术,本发明的有益效果在于:

1、基于流式数据的自动化层级探索方法通过对流式数据的监控,通 过对线上实时流式数据进行处理,监控新物品候选集的曝光次数来自动 触发候选集的更新,解决定时更新导致的曝光不均的问题;

2、设置若干不同层级的新物品候选集,每个层级的新物品候选集内 的新物品曝光次数是一样的,解决了新物品不同曝光次数下置信度相同 的问题,且通过层级的探索方式使得优质物品能够获取更多流量,低质 的物品无法继续占有后续流量,节约了流量,减少不必要的流量消耗。

附图说明

图1是本发明中基于流式数据的自动化层级探索应用流程示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案进行进一步描述:

基于流式数据的自动化层级探索装置,该装置包括:

物品候选集模块,该模块主要负责候选物品(样本)的采集,比如 通过产品中用户原创内容(UGC)、与第三方共享内容、爬虫爬取等,通 过不断采集新的候选物品补充物品候选集,保持用户的活跃度和粘性, 从而使产品带来更大的价值;

新物品生成模块,该模块主要是从物品候选集模块中不断获取新的 物品来构建新物品候选集来推荐给产品用户;其中挑选新物品的方法比 如新物品是否是原创、是否适合于目标用户等;

物品推送模块,该模块主要负责将新物品生成模块中生成的候选物 品推送给终端或由终端主动获取该模块提供的新物品,是一般推荐系统 接入产品的两种模式,被动接受或主动获取;

流式计算模块,该模块主要是采集终端流式的用户行为数据,并通 过其实时计算能力触发新物品生成模块层级更新新物品候选集;

新物品候选集层级管理模块,用以对层级的新物品候选集进行管理, 包括控制新物品候选集的层级数、每一层级新物品候选集的候选物品数 量、曝光阈值、升级阈值。

基于流式数据的自动化层级探索方法,该方法基于流式计算框架, 包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、 将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端 用户行为数据、读取用户行为数据来监控新物品候选集的曝光次数触发 新物品候选集更新;新物品候选集包括若干不同层级,较高层级新物品 候选集的样本来自前一较低层级新物品候选集。

物品候选集的创建比如通过爬虫网络不断获取大量新物品信息,新 物品信息作为样本形成物品候选集,新物品信息可以是图片、视频、商 品、广告等;本实施例中新物品候选集包括三个层级,如图1所示:一 级新物品候选集、二级新物品候选集、三级新物品候选集,二级新物品 候选集的层级高于一级新物品候选集的层级,三级新物品候选集的层级高于二级新物品候选集的层级。

针对三个层级的新物品候选集分别设定曝光阈值,曝光阈值指物品 推荐给用户看到的次数;三个层级新物品候选集的样本容量也不同,为 一级新物品候选集的和二级新物品候选集分别设定升级阈值,升级阈值 是指对曝光结果的统计;比如一级新物品候选集设定样本容量为2048, 曝光阈值为20,升级阈值为4,也就是说一级新物品候选集每次容纳2048 个样本,每个样本有20次曝光机会,每个样本曝光后统计用户的行为数 据,比如一个用户对该物品产生了偏好行为,如观看、停留时间、点击 等;比如一次点击则统计结果为1次,若有4次点击则统计结果为4次, 则该样本达到升级阈值4,进而该样本可以进入二级新物品候选集;当 一级新物品候选集内的2048个样本曝光了20次以后,一级新物品候选 集进行更新,重新从物品候选集获取2048个全新的样本。

二级新物品候选集曝光阈值大于一级新物品候选集的曝光阈值,三 级新物品候选集的曝光阈值大于二级新物品候选集的曝光阈值;一级新 物品候选集内样本容量大于二级新物品候选集内样本容量,二级新物品 候选集内样本容量大于三级新物品候选集样本容量。

当生成的新样品候选集生成后会曝光给用户,用户可以随机获取新 物品候选集内的候选物品(样本),新物品候选集内的候选物品曝光次数 达到该层级新物品候选集的曝光次数后即可触发新样品候选集更新,通 过这种方式避免了定时更新导致的曝光不均的问题;通过流式计算服务 读取终端用户的实时行为数据,根据用户的偏好推选出更加优质的候选 物品。

本实施例只是对本发明的进一步解释,并不是对本发明的限制,本 领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创 造性的修改,但是只要在本发明的权利要求范围内都受到专利法的保护。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号