法律状态公告日
法律状态信息
法律状态
2020-08-14
授权
授权
2018-07-31
实质审查的生效 IPC(主分类):G06F17/30 申请日:20171218
实质审查的生效
2018-07-06
公开
公开
技术领域
本发明涉及一种细分选择行为偏好的算法,应用于零售业、交通出行、企业管理等涉及个人或集体选择和决策的众多领域。
背景技术
在数据资源日渐丰富的背景下,众多行业都越来越需要通过收集个人行为数据来预测人的行为从而使行业得到更好发展,例如购物行为、出行行为等。选择行为偏好分析方法已得到广泛应用,通过收集个人或组织的选择行为数据,构建行为偏好模型,模拟决策过程,实现行为预测。
多项逻辑特模型(Multinomial Logit Model)是行为偏好模型中最为常用的一个,其数学形式简洁,易于实施应用。该模型假定人们在选择时以效用最大化为决策规则,将效用定义为决策相关要素的函数;通过估计要素参数,使得模型与实际选择行为最大程度贴合,得到可以进一步应用的效用函数。例如在购物行为分析中,收集消费者的购物行为数据,分析得到商品的价格、质量、品牌等决策相关要素在效用中的权重,进一步用来预测新产品的市场占有率。
现有多项逻辑特模型分析将所有对象纳入单个模型,得到唯一的效用函数。然而,现实中个体行为与偏好存在不同程度的异质性,单一模型难以完整、精细地把握,进而造成对偏好理解和行为预测的偏差,给行业决策带来负面效果。现有方法解决这种异质性的措施,或主观地将人群分类并建立相应的模型,或对模型结构进行数学改进,但因模型复杂度增加而应用性较差。需要一种方法能够有效地以个人偏好为依据,对人群进行细分,同时能够避免分类过程中的主观性,易于实施应用的方法。
发明内容
本发明的目的是:一种细分选择行为偏好的算法。基于多项逻辑特模型估计的模型参数,作为选择行为偏好的表征;根据模型参数的相似度,先将样本分解为若干最低限度可解(模型可解前提下,样本量最小)的子样本,再对这些子样本进行聚类,选取合适的分类数量,最终获得细分的选择行为偏好类型。
本发明所采用的技术方案是:
一种细分选择行为偏好的算法,步骤如下:
步骤1:用全样本数据Ω0拟合模型,得到模型参数集B0={β10...βg0...βG0},βg0(g=1...G)为变量的参数;
步骤2:取出全样本中的一个样本Ri(通常为某个人的选择行为数据),用剩下的样本Ωi拟合模型,得到参数Bi={β1i...βgi...βGi};计算B0与Bi的距离r0i,定义为各参数距离之和;每对参数之间的距离包括两部分,相对差异z0ig和可信度c0ig(公式1)。
相对差异的分子为参数值之差的绝对值,分母为参数绝对值之和,以消除不同参数之间尺度不一的影响(公式2)。
可信度基于对参数间差异的t检验,δgi是参数的标准误(公式3),p(·)是以t0ig为临界值,以Ω0的模型自由度df0和Ωi的模型自由度dfi之和为参数的双尾检验概率;该概率越小,说明参数间差异的统计显著度越大,即可信度越高(公式4)。
c0ig=1-p(t0ig,df0+dfi)(4)
步骤3:对所有样本执行步骤2,比较后得到最大r0i对应的一个样本(或者说“最不合群”的样本),将其放入数据集
步骤4:将其余的数据作为Ω0重复执行步骤(1)—(3),直至模型无解,即得到一个最低限度可解的子样本;
步骤5:将
步骤6:将所有通过步骤(1)—(5)获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤(7),逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量c,采用贝叶斯信息标准(BIC),根据各类模型的似然数LLc、参数数量kc和以及样本总量n,取BIC最小时的分类作为最优分类(公式5)。
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的行为偏好效用函数。
本发明的优点是:
(1)挖掘选择行为数据中的异质性,相比于多项逻辑特模型,可获得更加精准的不同类型个人或组织的选择行为偏好模型;
(2)解决了因数据过少无法拟合模型的问题,用“先分后聚”的方法对最小可解子样本进行聚类;
(3)方法适用性、延展性好,可应用于利用选择模型的众多领域和具体问题,亦可嵌入其他类型模型。
附图说明
图1为本发明细分选择行为偏好算法的流程示意图。
具体实施方式
本发明基于选择行为数据和多项逻辑特模型估计模型参数,作为选择行为偏好的表征,根据模型参数的相似度,采用等级聚类算法,获得细分的选择行为偏好类型。本发明的算法挖掘选择行为数据中的异质性,可获得更加精准的不同类型个人或组织的选择行为偏好模型。
下面结合附图和具体实例对本发明进行详细说明,该实例为游客选择停留目的地。
如附图所示,算法步骤如下:
首先,收集游客在参观展会时的展园选择行为数据,构建多项逻辑特模型如下:
Vn=(λA+μAT)An+(λD+μDT)Dn+(λN+μNT)Nn+(λH+μHT+νHTa)Hn
其中,λ、μ、ν为参数,自变量定义见表1。
表1自变量说明
步骤1:用全样本数据Ω0拟合模型,得到模型参数B0(见表2);
表2总体模型参数
步骤2:取出全样本中的一个游客的选择行为样本Ri,用剩下其他游客的样本Ωi拟合模型,得到参数Bi;计算B0与Bi的距离r0i;
步骤3:对所有样本执行步骤2,比较后得到对应最大r0i的一个样本,将其放入数据集
步骤4:将其余的数据作为Ω0重复执行步骤(1)—(3),直至模型无解,即得到一个最低限度可解的子样本。该子样本由若干个游客样本组成;
步骤5:将
步骤6:将所有通过步骤(1)—(5)获得的子样本拟合模型;
步骤7:以r0i为指标计算所有子样本之间的距离,将最相似的两个子样本归为一类,将该类作为一个子样本拟合模型;
步骤8:重复步骤(7),逐级聚类得到分类树,直至所有子样本归为一类;
步骤9:选择合适的分类数量,采用贝叶斯信息标准,取BIC最小时的分类作为最优分类,得到6类;
步骤10:对每个类的样本拟合多项逻辑特模型,得到细分的游客停留目的地选择行为偏好效用函数(表3)。
表3细分的游客停留目的地选择行为偏好参数
注:*0.05,**0.01,***0.001。
机译: 偏好分析设备,一种分析方法,一种存储方式,一种信息提供系统,一种信息提供服务服务器,一种信息提供方法和一种偏好分析算法,特别是用于计算用户的当前权益和偏好
机译: 存储用户对包装内容的使用历史的偏好信息管理设备,计算该使用历史的分数,并将计算结果作为偏好信息输出,以及存储用户对包装内容和其他内容的用户历史的偏好信息管理设备,并以这样一种方式计算使用历史记录的分数,即认为打包内容的使用历史记录比其他内容的使用历史记录更有价值,并输出计算结果作为偏好信息
机译: 具有字符替换拼写检查算法的拼写检查功能以及相关的手持电子设备,该字符替换拼写检查算法基于彼此替换的字符的接近性来应用偏好