首页> 中国专利> 一种细分选择行为偏好的算法

一种细分选择行为偏好的算法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种细分选择行为偏好的算法。基于选择行为数据和离散选择模型估计模型参数，作为选择行为偏好的表征。首先用蒙特卡洛算法将数据分解为若干最低限度可解的子样本。分解的依据为模型参数的相似度，综合考虑两个模型参数的相对差异以及差异的可信度。接着用等级聚类算法，以该相似度作为距离指标，将所有最低限度可解子样本逐级归类。最后根据贝叶斯信息标准确定合适数量的模型，获得细分的选择行为偏好类型。本发明算法挖掘选择行为数据中的异质性，相比于基础的离散选择模型算法，可获得更加精准的不同类型个人或集体的选择行为偏好和模型，为相关应用获得更为精确的、有针对性的行为预测结果奠定基础。

著录项

公开/公告号CN108255949A

专利类型发明专利
公开/公告日2018-07-06

原文格式PDF
申请/专利权人同济大学;
展开▼

申请/专利号CN201711361053.6
发明设计人朱玮;魏晓阳;
展开▼

申请日2017-12-18
分类号
代理机构上海科律专利代理事务所(特殊普通合伙);
代理人叶凤
地址 200092 上海市杨浦区四平路1239号
入库时间 2023-06-19 05:48:18

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-14

授权

授权
2018-07-31

实质审查的生效 IPC(主分类):G06F17/30 申请日:20171218

实质审查的生效
2018-07-06

公开

公开

说明书

技术领域

本发明涉及一种细分选择行为偏好的算法，应用于零售业、交通出行、企业管理等涉及个人或集体选择和决策的众多领域。

背景技术

在数据资源日渐丰富的背景下，众多行业都越来越需要通过收集个人行为数据来预测人的行为从而使行业得到更好发展，例如购物行为、出行行为等。选择行为偏好分析方法已得到广泛应用，通过收集个人或组织的选择行为数据，构建行为偏好模型，模拟决策过程，实现行为预测。

多项逻辑特模型(Multinomial Logit Model)是行为偏好模型中最为常用的一个，其数学形式简洁，易于实施应用。该模型假定人们在选择时以效用最大化为决策规则，将效用定义为决策相关要素的函数；通过估计要素参数，使得模型与实际选择行为最大程度贴合，得到可以进一步应用的效用函数。例如在购物行为分析中，收集消费者的购物行为数据，分析得到商品的价格、质量、品牌等决策相关要素在效用中的权重，进一步用来预测新产品的市场占有率。

现有多项逻辑特模型分析将所有对象纳入单个模型，得到唯一的效用函数。然而，现实中个体行为与偏好存在不同程度的异质性，单一模型难以完整、精细地把握，进而造成对偏好理解和行为预测的偏差，给行业决策带来负面效果。现有方法解决这种异质性的措施，或主观地将人群分类并建立相应的模型，或对模型结构进行数学改进，但因模型复杂度增加而应用性较差。需要一种方法能够有效地以个人偏好为依据，对人群进行细分，同时能够避免分类过程中的主观性，易于实施应用的方法。

发明内容

本发明的目的是：一种细分选择行为偏好的算法。基于多项逻辑特模型估计的模型参数，作为选择行为偏好的表征；根据模型参数的相似度，先将样本分解为若干最低限度可解(模型可解前提下，样本量最小)的子样本，再对这些子样本进行聚类，选取合适的分类数量，最终获得细分的选择行为偏好类型。

本发明所采用的技术方案是：

一种细分选择行为偏好的算法，步骤如下：

步骤1：用全样本数据Ω₀拟合模型，得到模型参数集B₀＝{β₁₀...β_g0...β_G0}，β_g0(g＝1...G)为变量的参数；

步骤2：取出全样本中的一个样本R_i(通常为某个人的选择行为数据)，用剩下的样本Ω_i拟合模型，得到参数B_i＝{β_1i...β_gi...β_Gi}；计算B₀与B_i的距离r_0i，定义为各参数距离之和；每对参数之间的距离包括两部分，相对差异z_0ig和可信度c_0ig(公式1)。

相对差异的分子为参数值之差的绝对值，分母为参数绝对值之和，以消除不同参数之间尺度不一的影响(公式2)。

可信度基于对参数间差异的t检验，δ_gi是参数的标准误(公式3)，p(·)是以t_0ig为临界值，以Ω₀的模型自由度df₀和Ω_i的模型自由度df_i之和为参数的双尾检验概率；该概率越小，说明参数间差异的统计显著度越大，即可信度越高(公式4)。

c_0ig＝1-p(t_0ig,df₀+df_i)(4)

步骤3：对所有样本执行步骤2，比较后得到最大r_0i对应的一个样本(或者说“最不合群”的样本)，将其放入数据集

步骤4：将其余的数据作为Ω₀重复执行步骤(1)—(3)，直至模型无解，即得到一个最低限度可解的子样本；

步骤5：将作为Ω₀重复执行步骤(1)—(4)，直至无法产生最低限度可解子样本；

步骤6：将所有通过步骤(1)—(5)获得的子样本拟合模型；

步骤7：以r_0i为指标计算所有子样本之间的距离，将最相似的两个子样本归为一类，将该类作为一个子样本拟合模型；

步骤8：重复步骤(7)，逐级聚类得到分类树，直至所有子样本归为一类；

步骤9：选择合适的分类数量c，采用贝叶斯信息标准(BIC)，根据各类模型的似然数LL_c、参数数量k_c和以及样本总量n，取BIC最小时的分类作为最优分类(公式5)。

步骤10：对每个类的样本拟合多项逻辑特模型，得到细分的行为偏好效用函数。

本发明的优点是：

(1)挖掘选择行为数据中的异质性，相比于多项逻辑特模型，可获得更加精准的不同类型个人或组织的选择行为偏好模型；

(2)解决了因数据过少无法拟合模型的问题，用“先分后聚”的方法对最小可解子样本进行聚类；

(3)方法适用性、延展性好，可应用于利用选择模型的众多领域和具体问题，亦可嵌入其他类型模型。

附图说明

图1为本发明细分选择行为偏好算法的流程示意图。

具体实施方式

本发明基于选择行为数据和多项逻辑特模型估计模型参数，作为选择行为偏好的表征，根据模型参数的相似度，采用等级聚类算法，获得细分的选择行为偏好类型。本发明的算法挖掘选择行为数据中的异质性，可获得更加精准的不同类型个人或组织的选择行为偏好模型。

下面结合附图和具体实例对本发明进行详细说明，该实例为游客选择停留目的地。

如附图所示，算法步骤如下：

首先，收集游客在参观展会时的展园选择行为数据，构建多项逻辑特模型如下：

V_n＝(λ_A+μ_AT)A_n+(λ_D+μ_DT)D_n+(λ_N+μ_NT)N_n+(λ_H+μ_HT+ν_HTa)H_n

其中，λ、μ、ν为参数，自变量定义见表1。

表1自变量说明

步骤1：用全样本数据Ω₀拟合模型，得到模型参数B₀(见表2)；

表2总体模型参数

步骤2：取出全样本中的一个游客的选择行为样本R_i，用剩下其他游客的样本Ω_i拟合模型，得到参数B_i；计算B₀与B_i的距离r_0i；

步骤3：对所有样本执行步骤2，比较后得到对应最大r_0i的一个样本，将其放入数据集

步骤4：将其余的数据作为Ω₀重复执行步骤(1)—(3)，直至模型无解，即得到一个最低限度可解的子样本。该子样本由若干个游客样本组成；

步骤5：将作为Ω₀重复执行步骤(1)—(4)，直至无法产生最低限度可解子样本。共得到152个子样本，每个子样本由3-4个游客的选择行为组成(数量因具体问题和数据而异)；

步骤6：将所有通过步骤(1)—(5)获得的子样本拟合模型；

步骤7：以r_0i为指标计算所有子样本之间的距离，将最相似的两个子样本归为一类，将该类作为一个子样本拟合模型；

步骤8：重复步骤(7)，逐级聚类得到分类树，直至所有子样本归为一类；

步骤9：选择合适的分类数量，采用贝叶斯信息标准，取BIC最小时的分类作为最优分类，得到6类；

步骤10：对每个类的样本拟合多项逻辑特模型，得到细分的游客停留目的地选择行为偏好效用函数(表3)。

表3细分的游客停留目的地选择行为偏好参数

注：*0.05，**0.01，***0.001。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种细分选择行为偏好的算法 [P] . 中国专利： CN108255949A . 2018-07-06
2. 一种游客在参观展会时的展园细分选择行为偏好的方法 [P] . 中国专利： CN108255949B . 2020.08.14
3. ANALYSIS APPARATUS FOR PREFERENCE, AN ANALYSIS METHOD THEREBY, A STORAGE MEANS, AN INFORMATION OFFERING SYSTEM, AN INFORMATION OFFERING SERVICE SERVER, AN INFORMATION OFFERING METHOD AND AN ANALYSIS ALGORITHM FOR PREFERENCE, PARTICULARLY FOR CALCULATING CURRENT INTEREST AND PREFERENCE DEGREE OF A USER [P] . 韩国专利： KR20100007080A . 2010-01-22

机译：偏好分析设备，一种分析方法，一种存储方式，一种信息提供系统，一种信息提供服务服务器，一种信息提供方法和一种偏好分析算法，特别是用于计算用户的当前权益和偏好
4. Preference information managing apparatus which stores users' usage history of packaged contents, calculates scores of the usage history and outputs the result of the calculation as a preference information, and preference information managing apparatus which stores users' usage history of packaged contents and the other contents, and calculates scores of the usage history in such a manner that a usage history of packaged contents is considered to be more valuable than a usuage history of other contents, and outputs the result of the calculation as a preference information [P] . 美国专利： US2005177538A1 . 2005-08-11

机译：存储用户对包装内容的使用历史的偏好信息管理设备，计算该使用历史的分数，并将计算结果作为偏好信息输出，以及存储用户对包装内容和其他内容的用户历史的偏好信息管理设备，并以这样一种方式计算使用历史记录的分数，即认为打包内容的使用历史记录比其他内容的使用历史记录更有价值，并输出计算结果作为偏好信息
5. Spell check function having a character replacement spell check algorithm that applies a preference based upon proximity of the characters replacing one another, and associated handheld electronic device [P] . 欧洲知识产权局专利： EP1975808B1 . 2009-08-12

机译：具有字符替换拼写检查算法的拼写检查功能以及相关的手持电子设备，该字符替换拼写检查算法基于彼此替换的字符的接近性来应用偏好