首页> 中国专利> 一种在业务开发中基于特征脚本化的算法实现的控制方法及装置

一种在业务开发中基于特征脚本化的算法实现的控制方法及装置

摘要

本发明公开了一种在业务开发中基于特征脚本化的算法实现的控制方法,包括如下步骤:a:在适配页面中基于业务策略需求选取并配置一个或多个脚本化特征类型;b:跳转适配页面并将一个或多个脚本化特征类型执行写入操作;脚本化特征类型至少包括特征类型名称、特征类型描述、特征类型数据源说明、特征生产脚本以及特征生产参数;所述特征生产脚本从特征类型数据源说明中按照特征生产参数执行特征提取,并将提取的特征写入一个或多个存储系统中,特征生产参数至少包括特征数据源,生产资源配置,存储位置配置,生产方式配置。本发明操作简单、使用方便、能高效的对接不同业务的不同特征生产,并针对性的实现不同的特征服务,具有极高的商业价值。

著录项

  • 公开/公告号CN112364229A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 上海二三四五网络科技有限公司;

    申请/专利号CN202011368934.2

  • 发明设计人 沈振雷;李多海;

    申请日2020-11-30

  • 分类号G06F16/951(20190101);G06F16/9535(20190101);G06F16/958(20190101);G06F16/28(20190101);G06F9/455(20060101);G06Q30/06(20120101);

  • 代理机构

  • 代理人

  • 地址 200137 上海市浦东新区杨高北路528号14幢1-5层

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明属于推荐算法技术应用领域,具体地,涉及一种在业务开发中基于特征脚本化的算法实现的控制方法及装置。

背景技术

在当前环境下,为了更好的对用户群体、用户类型进行筛选,为了更好的、有针对性的服务于精准人群,很多商家、平台甚至公司无时不刻的开发着新的业务,用以抢占、服务新的市场、用户、客体,而这些业务中,大多数都需要用到推荐算法,而推荐算法又要用到很多特征,这些特征主要包括用户特征和物料特征两大类。推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,目前应用推荐算法比较好的地方主要是网络。所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。推荐算法已经应用到了各个领域的网站中,包括图书、音乐、视频、新闻、电影、地图等等。而电子商务的应用近年来逐渐普及,Amazoncom,ebay.com,Staples.com,当当网,豆瓣图书,淘宝网等都使用了电子商务推荐系统,推荐系统不止给这些互联网商家带来了巨大的附加利益,同时也提高了用户满意度,增加了用户黏性。

过去这些特征开发维护,耗费了大量人力,主要有以下几方面问题:1、有很多特征,各业务上实现逻辑大体相似,但是由于都是不同的人根据业务高度定制化的,难以通用,因此基本上新业务接入,都要重新开发一套,导致重复开发,且维护量大;2、特征生产后,需要专门写与所述特征生产相对应的上线逻辑,把特征写到Redis,开发繁琐,且容易出错。此外,Redis需要大量内存,存储有限,在用户体量较大的业务上很快就成为瓶颈,导致无法生产更多特征。

而目前,并没有一种能够解决上述技术问题的技术方案,具体地,并没有一种在业务开发中基于特征脚本化的算法实现的控制方法及装置。

发明内容

针对现有技术存在的技术缺陷,本发明的目的是提供一种在业务开发中基于特征脚本化的算法实现的控制方法及装置,根据本发明的一个方面,提供了一种在业务开发中基于特征脚本化的算法实现的控制方法,其将多维度的多个特征脚本化后适配于推荐算法,包括如下步骤:

a:在适配页面中基于业务策略需求选取并配置一个或多个脚本化特征类型;

b:跳转所述适配页面并将一个或多个脚本化特征类型执行写入操作;

其中,所述脚本化特征类型至少包括特征类型名称、特征类型描述、特征类型数据源说明、特征生产脚本以及特征生产参数;

其中,所述特征生产脚本从特征类型数据源说明中按照特征生产参数执行特征提取,并将提取的特征写入一个或多个存储系统中,所述特征生产参数至少包括特征数据源,生产资源配置,存储位置配置,生产方式配置。

优选地,所述脚本化特征类型根据业务场景数据所用的推荐算法所需的特征确定。

优选地,在所述步骤b之后,还包括:从不同的特征数据源中提取不同的特征,所述特征随特征数据源变化而不同。

优选地,在所述步骤a之后,还包括:启动定时调度,并周期性的完成与所配置的一个或多个脚本化特征类型相对应的特征生产。

优选地,在所述步骤b中,所述写入操作为:

写入Hive和Cassandra数据仓库;或者

写入Redis。

优选地,在所述步骤b之后,还包括步骤:

c.将写入后的一个或多个特征用于模型训练,并确定与所述一个或多个脚本化特征类型相适应的推荐算法;和/或

c′.通过API单个查询实时获取以实现推荐算法模型的在线预测。

优选地,在所述步骤a中,所述脚本化特征类型的名称包括视频标签特征相对应的特征类型和/或用户关键字特征相对应的特征类型和/或用户信息流行为兴趣特征相对应的特征类型和/或用户浏览网页兴趣特征相对应的特征类型和/或物品分类和关键字特征相对应的特征类型。

优选地,与所述视频标签特征相对应的特征类型描述为根据用户历史视频浏览记录以及视频标签,统计用户视频兴趣标签;与所述视频标签特征相对应的数据源为用户行为数据表以及物品详情表。

优选地,与所述用户关键字特征相对应的特征类型描述为根据用户浏览的新闻提取用户关键字,统计用户视频兴趣标签;与所述用户关键字特征相对应的数据源为用户行为数据表以及物品关键词表。

优选地,与所述用户信息流行为兴趣特征相对应的特征类型为根据用户历史行为统计兴趣分布,与所述用户信息流行为兴趣特征相对应的数据源为用户行为数据表以及物品类目及关键词表。

优选地,与所述用户浏览网页兴趣特征相对应的特征类型为使用用户PC浏览器浏览日志按照爬取建立的类别-关键词映射关系进行关键词匹配,计算得到类别得分;与所述用户浏览网页兴趣特征相对应的数据源为用户浏览器日志数据表。

优选地,与所述物品分类和关键字特征相对应的特征类型为根据物品名称和内容对物品进行分类并提取关键词;与所述物品分类和关键字特征相对应的数据源为物品内容表。

根据本发明的另一个方面,提供了一种在业务开发中基于特征脚本化的算法实现的控制装置,其采用所述的控制方法,包括:

第一处理装置:在适配页面中基于业务策略需求选取并配置一个或多个脚本化特征类型;

第二处理装置:跳转所述适配页面并将一个或多个脚本化特征类型执行写入操作。

优选地,还包括:

第一确定装置,将写入后的一个或多个脚本化特征类型进行模型训练,并确定与所述一个或多个脚本化特征类型相适应的推荐算法;和/或

第三处理装置,通过API单个查询实时获取以实现推荐算法模型的在线预测。

本发明公开了一种在业务开发中基于特征脚本化的算法实现的控制方法,其将多维度的多个特征脚本化后适配于推荐算法,包括如下步骤:a:在适配页面中基于业务策略需求选取并配置一个或多个脚本化特征类型;b:跳转所述适配页面并将一个或多个脚本化特征类型执行写入操作。本发明将定制化的特征提取脚本,抽象成通用的特征类型。只需要一次开发,通过简单的参数和数据源配置,就可以适配不同的业务生产相应的特征,减少重复开发特征提取的工作量和维护成本。设计统一的特征服务,配置特征生产时只要勾选上线选项特征就可以自动完成上线工作,采用Hive和cassandra数据仓库代替先前的redis,避开了线上redis存储不足的限制。此设计极大的提高了特征上线效率,同时也减少了特征上线的风险。通过特征服务进行访问获取,通过Hive数据仓库进行模型训练,提供模型服务,调取服务接口,查询相关信息数据。本发明操作简单、使用方便、能高效的对接不同业务的不同特征生产,并针对性的实现不同的特征服务,具有极高的商业价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1示出了本发明的具体实施方式的,一种在业务开发中基于特征脚本化的算法实现的控制方法的具体流程示意图;

图2示出了本发明的第一实施例的,一种在业务开发中基于特征脚本化的算法实现的控制方法的具体流程示意图;以及

图3示出了本发明的另一具体实施方式的,一种在业务开发中基于特征脚本化的算法实现的控制装置的模块连接示意图。

具体实施方式

为了更好的使本发明的技术方案清晰地表示出来,下面结合附图对本发明作进一步说明。

图1示出了本发明的具体实施方式的,一种在业务开发中基于特征脚本化的算法实现的控制方法的具体流程示意图,本领域技术人员理解,本发明旨在公开一种将目前市场上现有的大多数特征进行提炼,并将提炼后的特征脚本化后融入到一种常规的算法实现中,适配于推荐算法,进而在针对不同的业务需要进行不同的特征生产时,可以直接基于需要配置的参数完成脚本化特征类型的配置,最后执行写入,从而替代了传统意义上需要人工配置,人工开发、人工写入,大大提高了推荐算法的实现效率,降低了人工成本。本发明旨在保护这样的一种配置模式、脚本化特征的参数配置以及如何实现基于脚本化特征完成特征生产、写入等等的控制方法,如图1所示,图1公开了一种在业务开发中基于特征脚本化的算法实现的控制方法,其将多维度的多个特征脚本化后适配于推荐算法,包括如下步骤:

首先,进入步骤S101,在适配页面中基于业务策略需求选取并配置一个或多个脚本化特征类型,所述的适配页面可以为网页页面、程序编辑页面、弹窗页面等等,所述业务策略需求即为操作人员根据不同的业务需求而主动或被动确定的策略需求,操作人员可以根据业务描述人为创建业务策略需求,也可以是用户编辑完成后直接用于引导的业务策略需求,而一个或多个脚本化特征类型则是需要进行配置的主体内容,通过所述一个或多个脚本化特征类型的不同参数的配置可以实现不同的业务实现。

所述脚本化特征类型至少包括特征类型名称、特征类型描述、特征类型数据源说明、特征生产脚本以及特征生产参数,即实际上,我们需要基于所述脚本化特征类型的特征类型名称、特征类型描述、特征类型数据源说明、特征生产脚本以及特征生产参数这五个方面进行参考、配置进而实现不同业务的不同算法实现,在本发明所记载的具体实施方式中,所述脚本化特征类型包括但不限于视频标签特征相对应的特征类型和/或用户关键字特征相对应的特征类型和/或用户信息流行为兴趣特征相对应的特征类型和/或用户浏览网页兴趣特征相对应的特征类型和/或物品分类和关键字特征相对应的特征类型。本领域技术人员理解,视频标签特征相对应的特征类型、用户关键字特征相对应的特征类型、用户信息流行为兴趣特征相对应的特征类型、用户浏览网页兴趣特征相对应的特征类型、物品分类和关键字特征相对应的特征类型是本发明在命名特征类型时所自定义的名称,也可以将其命名为其他名称,这不属于行业规范或通用习惯,一般来说,脚本化特征类型包括物品特征和物品特征所确定的特征类型,但这并不影响本发明技术方案的实施,在此不予赘述。

进一步地,与所述视频标签特征相对应的特征类型描述为根据用户历史视频浏览记录以及视频标签,统计用户视频兴趣标签;与所述视频标签特征相对应的数据源为用户行为数据表以及物品详情表,其中,所述用户行为数据表包括用户ID、内容ID、行为类型、行为详情、日期,所述物品详情表包括内容ID、内容类型、内容标签、内容时长、日期分区。与所述视频标签特征相对应的脚本资源为User_video_tags.py。

进一步地,与所述用户关键字特征相对应的特征类型描述为根据用户浏览的新闻提取用户关键字,统计用户视频兴趣标签;与所述用户关键字特征相对应的数据源为用户行为数据表以及物品关键词表,所述物品关键词表由Text_feature特征产生,用户行为数据表包含用户ID、内容ID、行为类型、日期,所述物品关键词表包含内容ID、内容类型、内容关键字、内容关键字及得分、日期分区;与所述用户关键字特征相对应的脚本资源为User_keyword.py。

进一步地,与所述用户信息流行为兴趣特征相对应的特征类型为根据用户历史行为统计兴趣分布,与所述用户信息流行为兴趣特征相对应的数据源为用户行为数据表以及物品类目及关键词表,其中用户行为数据表包含用户ID、内容ID、行为类型、日期),物品类目及关键词表包含内容ID、类目;与所述用户信息流行为兴趣特征相对应的脚本资源:Calc_user_preference.py。

进一步地,与所述用户浏览网页兴趣特征相对应的特征类型为使用用户PC浏览器浏览日志按照爬取建立的类别-关键词映射关系进行关键词匹配,计算得到类别得分;与所述用户浏览网页兴趣特征相对应的数据源为用户浏览器日志数据表,所述用户浏览器日志数据表包含用户ID、网址、网址标题、日期;与所述用户浏览网页兴趣特征相对应的脚本资源为User_browser_log_label.py。

进一步地,与所述物品分类和关键字特征相对应的特征类型为根据物品名称和内容对物品进行分类并提取关键词;与所述物品分类和关键字特征相对应的数据源为物品内容表,所述用户行为表包括用户ID、内容ID、行为类型、日期;与所述物品分类和关键字特征相对应的脚本资源为Item_stats.py。

进一步地,上述描述中的所述特征生产脚本从特征类型数据源说明中按照特征生产参数执行特征提取,并将提取的特征写入一个或多个存储系统中,所述特征生产参数至少包括特征数据源,生产资源配置,存储位置配置,生产方式配置。

进一步地,所述脚本化特征类型根据业务场景数据所用的推荐算法所需的特征确定,在本发明中并不限定所述脚本化特征类型,即在实际的业务场景数据中需要哪些特征,即确定这样的脚本化特征类型。

需要理解的是,在通常情况下,所述脚本化特征类型是固定的,不会变化,变化的只是特征,即在步骤S102之后,从特征数据源中提取特征,随特征源数据变化,然而,在S101之前的脚本化特征类型根据数据源结构开发且固定下来的,一般不会进行增减,但在一个优选地实施例中,为了更好的实现脚本化开发,在所述步骤S101之前,还包括:从特征数据源中提取脚本化特征类型,所述脚本化特征类型随特征数据源变化而更新,即在这样的实施例中,本发明还公开了一种如何确定脚本化特征类型的方法,即对所述适配页面中的脚本化特征类型进行确定或者更新至少包括周期性确定当前状态下的所述脚本化特征类型,并将当前状态下的所述脚本化特征类型与上一次状态下的所述脚本化特征类型比对后,所述上一次状态下的所述脚本化特征类型所缺少的脚本化特征类型作为更新目标进行更新。

本领域技术人员理解,在所述步骤S102之后,还包括:从不同的特征数据源中提取不同的特征,所述特征随特征数据源变化而不同,即由于脚本化特征类型是脚本,是固定的,在这样的脚本化状态下,可以根据不同的特征数据源以及业务参数,生产不同的特征,并将其进行模型训练。

进一步地,在所述步骤S101之后还包括:启动定时调度,并周期性的完成与所配置的一个或多个脚本化特征类型相对应的特征生产,在本发明所给出的实现方式中,每隔一段时间会完成与所配置的一个或多个脚本化特征类型相对应的特征生产,而这样做的好处是自动化的完成特征生产,提高工作效率,而在其他的实施例中,也可以不启动所述定时调度,这都不影响本发明的具体实施方案,在此不予赘述。

然后,进入步骤S102,跳转所述适配页面并将一个或多个脚本化特征类型执行写入操作,所述适配页面即为进行业务策略需求选取并配置一个或多个脚本化特征类型的页面,在完成配置后,可以选择完成递交、完成配置等页面跳转按钮、跳转框,从而实现页面的跳转,进一步地,将一个或多个脚本化特征类型执行写入操作,本发明优选地将一个或多个脚本化特征类型写入Hive和Cassandra数据仓库,采用Hive和cassandra数据仓库代替先前的Redis,避开了线上Redis存储不足的限制。此设计极大的提高了特征上线效率,同时也减少了特征上线的风险。通过特征服务进行访问获取,通过Hive数据仓库进行模型训练,提供模型服务,调取服务接口,查询相关信息数据。然而在其他实施例中,也可以将一个或多个脚本化特征类型写入Redis。

最后,进入步骤S103,将写入后的一个或多个特征用于模型训练,并确定与所述一个或多个脚本化特征类型相适应的推荐算法,本步骤即给出了一种用以实现推荐算法的算法实现的确定方法。

图2示出了本发明的第一实施例的,一种在业务开发中基于特征脚本化的算法实现的控制方法的具体流程示意图,作为本发明的第一实施例,其主要用以实现推荐算法模型的在线预测,结合图2所示,所述步骤S201以及步骤S202可以参考前述步骤S101以及步骤S102,在所述步骤S203中,通过API单个查询实时获取以实现推荐算法模型的在线预测,即在跳转所述适配页面并将一个或多个脚本化特征类型执行写入操作后,通过API单个查询实时获取以实现推荐算法模型的在线预测。

图3示出了本发明的另一具体实施方式的,一种在业务开发中基于特征脚本化的算法实现的控制装置的模块连接示意图,本发明公开了一种在业务开发中基于特征脚本化的算法实现的控制装置,其采用所述的控制方法,包括第一处理装置1:在适配页面中基于业务策略需求选取并配置一个或多个脚本化特征类型,所述第一处理装置1的工作原理可以参考前述步骤S101,在此不予赘述。

进一步地,所述控制装置还包括第二处理装置2:跳转所述适配页面并将一个或多个脚本化特征类型执行写入操作,所述第二处理装置2的工作原理可以参考前述步骤S102,在此不予赘述。

进一步地,所述控制装置还包括第一确定装置3,将写入后的一个或多个脚本化特征类型进行模型训练,并确定与所述一个或多个脚本化特征类型相适应的推荐算法,所述第一确定装置3的工作原理可以参考前述步骤S103,在此不予赘述。

进一步地,所述控制装置还包括第三处理装置4,通过API单个查询实时获取以实现推荐算法模型的在线预测,所述第三处理装置4的工作原理可以参考前述步骤S203,在此不予赘述。

需要说明的是,上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同,在此不再赘述。综上所述,本发明的技术方案,为用户提供了基于业务策略需求选取并配置一个或多个脚本化特征类型的适配页面,跳转所述适配页面并将一个或多个脚本化特征类型执行写入操作。该技术方案节约了开发时间并提高了效率。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实施例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

此外,本领域技术人员理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域技术人员理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号