首页> 中国专利> 一种基于决策树与推荐方法的模型优选方法

一种基于决策树与推荐方法的模型优选方法

摘要

本发明提供了一种基于决策树与推荐方法的模型优选方法,包括:步骤Step1:为信息处理系统配置至少两种待推荐的数据信息集合,并建立对应的评价指标特征集;步骤Step2:获取至少一个样本数据,所述至少一个样本数据中的每一个样本数据包括数据信息集合的选择标签和评价指标特征集;步骤Step3:根据特征子集特征属性在各棵决策树中作为分裂节点时的的基尼指数的平均改变量来计算其权重;步骤Step4:计算在特征子集Ui下推荐用户与各用户之间的相似度,并预测特征子集Ui下推荐用户对数据信息集合Oi的评分;步骤Step5:生成推荐结果,本发明可提高推荐内容的预测的准确性,使数据模型的选择和更加快速高效。

著录项

  • 公开/公告号CN113326432A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 温州大学;

    申请/专利号CN202110627025.4

  • 发明设计人 徐曰旺;张笑钦;王文哲;刘丽颖;

    申请日2021-06-04

  • 分类号G06F16/9535(20190101);G06K9/62(20060101);G06Q10/06(20120101);G06Q30/06(20120101);

  • 代理机构11671 北京阳光天下知识产权代理事务所(普通合伙);

  • 代理人李满红

  • 地址 325035 浙江省温州市瓯海经济开发区东方南路38号温州市国家大学科技园孵化器

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本发明涉及内容推荐技术领域,尤其涉及到一种基于决策树与推荐方法的模型优选方法。

背景技术

互联网技术的发展,导致信息快速增长和膨胀,如何对信息进行快速有效地筛选,从而将适合用户的个性化内容,例如,商品、广告、新闻资讯和APP等等,准确地推荐推荐给用户,是未来信息服务行业发展需要解决的一个重要问题。然而,传统的推荐算法有许多,但它们都存在一定程度的不足,如基于人口统计学的推荐算法是根据系统用户的基本信息(年龄、性别、兴趣等),在这些信息大致相同的情况下,就把相似用户喜爱的商品推荐给当前用户,没有考虑个人的偏好,文化程度等因素的差异,也没有考虑到时间变化、空间、地位不同造成的用户兴趣爱好的变化,目前推荐模型众多,不同推荐模型解决问题的能力各有差异,选择怎样的推荐模型来解决当前产品的特征组合问题,以进一步提升个性化内容推荐的准确性,仍然是一个具有挑战性的难题。

综上所述,提供一种可提高推荐内容的预测的准确性,使数据模型的选择和更加快速高效的基于决策树与推荐方法的模型优选方法,是本领域技术人员急需解决的问题。

发明内容

本方案针对上文提到的问题和需求,提出一种基于决策树与推荐方法的模型优选方法,其由于采取了如下技术方案而能够解决上述技术问题。

为实现上述目的,本发明提供如下技术方案:一种基于决策树与推荐方法的模型优选方法,包括:步骤Step1:根据不同的信息应用场景,为信息处理系统配置至少两种待推荐的数据信息集合,并从信息处理系统设定的评价指标中选定评价指标,建立对应的评价指标特征集;

步骤Step2:获取至少一个样本数据,所述至少一个样本数据中的每一个样本数据包括数据信息集合的选择标签和评价指标特征集,所述评价指标特征集包括若干个特征子集U,每个特征子集包括m个特征,m≥2;

步骤Step3:根据根据特征子集特征属性在各棵决策树中作为分裂节点时的的基尼指数的平均改变量来计算其权重,进而选择决策特征属性,并基于所述决策特征属性的不同取值生成决策树的分支集合;

步骤Step4:根据所述若干个特征子集U计算在特征子集U

步骤Step5:根据特征子集U

进一步地,基于用户评价指标参数和不同情境属性建模参数模拟出多组建模参数,并对每组建模参数建立一个数据信息集合。

更进一步地,所述分支集合包括至少两个分支,所述至少两个分支分别指示特征子集不同的属性,所述每个特征子集的属性与所述每个特征子集对应的分支所指示的属性一致。

进一步地,所述根据特征子集中特征属性在各棵决策树中作为分裂节点时的的基尼指数的平均改变量来计算其权重,进而选择决策特征属性包括:首先根据G(n)=1-∑

进一步地,搜索推荐用户相似的一系列用户,并根据所述一系列用户对各数据信息集合的评分预测推荐用户对各数据信息集合的评分,确定一个评分阈值,将预测评分大于阈值的各数据信息集合推荐给用户。

进一步地,所述计算在特征子集U

更进一步地,获取推荐用户与各用户之间的相似度集合,并对集合中的相似度进行降序排列,选择推荐用户的最近用户集合,在最近用户集合上根据公式

进一步地,所述根据特征子集U

从上述的技术方案可以看出,本发明的有益效果是:本发明提高了行政单位部门的信息管理效率,提高了调控和协调能力,避免了信息孤岛情况的发生。

除了上面所描述的目的、特征和优点之外,下文中将结合附图对实施本发明的最优实施例进行更详尽的描述,以便能容易地理解本发明的特征和优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,其中,附图仅仅用于展示本发明的一些实施例,而非将本发明的全部实施例限制于此。

图1为本发明一种基于决策树与推荐方法的模型优选方法的步骤示意图。

图2为本实施例中特征属性的权重计算过程的步骤示意图。

图3为本发明一种基于决策树与推荐方法的模型优选方法的过程示意图。

具体实施方式

为了使得本发明的技术方案的目的、技术方案和优点更加清楚,下文中将结合本发明具体实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种可提高推荐内容的预测的准确性,使数据模型的选择和更加快速高效的基于决策树与推荐方法的模型优选方法。如图1至图3所示,该系统包括:步骤Step1:根据不同的信息应用场景,为信息处理系统配置至少两种待推荐的数据信息集合,并从信息处理系统设定的评价指标中选定评价指标,建立对应的评价指标特征集。并基于用户评价指标参数和不同情境属性建模参数模拟出多组建模参数,并对每组建模参数建立一个数据信息集合,该数据信息集合为推荐内容数据集合。评价指标可以是用户偏好特征属性、天气、时间等其它情境属性。

步骤Step2:获取至少一个样本数据,所述至少一个样本数据中的每一个样本数据包括数据信息集合的选择标签和评价指标特征集,所述评价指标特征集包括若干个特征子集U,每个特征子集包括m个特征,m≥2。

在本实施例中,选取一定时间段内来源于淘宝网多名用户的消费记录数据,并将该消费记录数据分为训练集样本数据和测试集样本数据,对数据进行预处理,剔除原始数据集中的异常数据,例如,有的用户对各项商品仅仅是点击,而没有其他行为,这类用户所产生的数据往往影响数据分析的结果,可以将用户数据中没有收藏、添加购物车以及购买行为的用户删除。然后,提取特征,即最大限度地从原始数据中提取合理特征,使得提取的特征能够训练出高性能的预测模型,需要基于用户维度的特征、基于商品维度的特征以及基于遗忘规律的特征,基于用户维度的特征,可以搜索推荐用户相似的一系列用户,并根据所述一系列用户对各数据信息集合的评分预测推荐用户对各数据信息集合的评分,确定一个评分阈值,将预测评分大于阈值的各数据信息集合推荐给用户。例如,用户点击过什么物品、收藏或购买过什么物品、给什么物品打过什么样的分数等用户行为相关的特征。构建体现用户消费习惯的特征,挖掘出用户购物习惯;基于商品维度的特征,基于用户的特征选取反应的是用户的个人习惯,与此对应的,基于商品维度的特征选取则是计算物品的属性。构建体现物品属性的特征,尽量挖掘出什么样的品牌受用户追捧,会被用户购买,例如,总点击量、总收藏量、总添加购物车量、最近的点击时间、最近的收藏时间等等;因为用户的兴趣是动态变化的,用户近期访问和评分的商品更能反应用户当前的兴趣爱好,更能影响用户当前的购买决策,而早期访问的商品对于用户当前可能产生兴趣的商品的影响作用较小,即用户的访问行为和评分的重要性会随着时间不断衰减。用户的消费行为可以认为是遵循艾宾浩斯遗忘规律。并采用z-score标准化方法对连续型数据进行处理。

步骤Step3:根据特征子集特征属性在各棵决策树中作为分裂节点时的的基尼指数的平均改变量来计算其权重,进而选择决策特征属性,并基于所述决策特征属性的不同取值生成决策树的分支集合。所述根据特征子集中特征属性在各棵决策树中作为分裂节点时的的基尼指数的平均改变量来计算其权重,进而选择决策特征属性包括:a.首先根据G(n)=1-∑

本实施例采用利用GBDT算法计算各情境属性的权重结果,该计算结果不仅考虑了特征属性对用户偏好的影响,而且考虑了各特征属性之间的关系,其由是多颗决策树的组合,每次迭代都在减少残差的梯度方向新建立一颗决策树,通过迭代不断提高系统的泛化能力,梯度提升决策树由多棵决策树组成,根据梯度提升树的生成规则,生成决策树,对于二元梯度提升分类树,损失函数为F(y,f(x))=log(1+exp(-yf(x)),其中,y∈{-1,1},损失函数的负梯度为

步骤Step4:根据所述若干个特征子集U,计算在特征子集U

获取推荐用户与各用户之间的相似度集合,并对集合中的相似度进行降序排列,选择推荐用户的最近用户集合,在最近用户集合上根据公式

步骤Step5:根据特征子集U

在本实施例中,根据GBDT算法计算各特征属性对用户偏好的影响程度,即特征属性在推荐系统的权重,然后结合用户与数据信息集合评分信息和情境化用户选择类别偏好信息来确定不同偏好情境下用户的最近用户集合,并根据最近用户预测用户在当前评价指标特征下对数据信息集合的评分,然后将情境属性权重融入到预测评分计算中,可避免传统基于情境的推荐方法中把所有特征属性看作等权重的弊端,提高预测评分的准确度。

所述根据特征子集U

应当说明的是,本发明所述的实施方式仅仅是实现本发明的优选方式,对属于本发明整体构思,而仅仅是显而易见的改动,均应属于本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号