公开/公告号CN104462245A
专利类型发明专利
公开/公告日2015-03-25
原文格式PDF
申请/专利权人 亚信科技(南京)有限公司;
申请/专利号CN201410664717.6
发明设计人 刘雷;
申请日2014-11-19
分类号G06F17/30;
代理机构南京天翼专利代理有限责任公司;
代理人王玉梅
地址 210013 江苏省南京市定淮门12号16号楼
入库时间 2023-12-18 08:05:40
法律状态公告日
法律状态信息
法律状态
2017-09-05
授权
授权
2016-12-28
专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20161205 变更前: 变更后: 申请日:20141119
专利申请权、专利权的转移
2016-12-28
著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20141119
著录事项变更
2015-04-22
实质审查的生效 IPC(主分类):G06F17/30 申请日:20141119
实质审查的生效
2015-03-25
公开
公开
技术领域
本发明涉及数据挖掘技术,特别是一种可用于基于用户上网偏好进行营销目标挖掘的用 户上网偏好数据识别方法。
背景技术
传统方法在基于用户上网偏好进行营销目标挖掘时,通常通过用户上网行为日志,从经 分数据仓库获取用户基础信息以“规则限定”的方式给用户打上偏好标签。
例如:音乐网站偏好,本月通过手机上网访问音乐网站次数大于10次的用户就为音乐网 站偏好用户;咪咕音乐偏好,本月通过手机使用咪咕音乐客户端大于5次的用户为咪咕音乐 偏好用户。
基于“规则限定”的方式,在传统数据库上识别用户的偏好过程中,根据用户手机上网 的记录(例:网访问音乐网站次数大于10次的用户)打上偏好标签,无法保证较高的识别精 准度,缺乏统一的、标准的算法,精确度无法保障。
发明内容
本发明要解决的技术问题为:通过利用现有的中位数概念、H-index算法,根据用户的上 网行为特征,对用户的偏好进行偏好、偏好度识别,提高数据识别的准确度和识别效率。
本发明采取的技术方案具体为:用户上网偏好数据识别方法,包括以下步骤:
1)获取用户上网行为日志数据,所述上网行为数据包括用户使用的应用、访问的内容、 上网的时段、上网的位置数据;
2)将用户上网行为日志数据根据不同应用进行分别汇总;
3)指定用户访问各应用的指标类型包括访问次数、流量、访问频次,从各不同应用对应 的汇总数据中分别取出各指标的最大值和最小值;
4)对于各不同应用的不同指标,分别根据最大值与最小值进行指标值标准化:定义某指 标的最大值为a_max,最小值为a_min,标准化指标值为index,则此指标的标准化指标值为:
index=(当前值-a_min)/(a_max-a_min);
5)对于各不同应用,获取步骤4)中所得到的各指标对应的标准化指标值的权重weight, 并根据标准化的指标值及相应权重计算各应用综合所有指标的偏好度score:
score(n)=index(1)*weight(1)+index(2)*weight(2)+index(3)*weight(3)...index(n)*weight(n)
式中:n代表指标的数量;index(n)和weight(n)分别代表第n个指标的标准化指标值和权 重值;
6)根据偏好度数值高低对各应用进行排序;
7)从排序后的各应用中选取偏好度居中的应用偏好度作为中位数;
8)将各应用的偏好度与中位数进行比较,如一应用偏好度小于中位数则丢弃此应用对应 的数据;反之将此应用添加至偏好度排名中;
9)根据H-index算法给用户打上偏好度标签:
当用户偏好度的排名<=使用该应用的用户数*5/6,和用户偏好度的排名>使用用户数*4/6 为一般偏好应用;
当用户偏好度的排名<=使用用户数*4/6,和用户偏好度的排名>使用用户数*2/6为强偏好 应用。
本发明中,用户上网日志可从服务器中获取,如访问次数、流量、访问频次这些主要指 标等,将这些数据进行汇总输入本发明的偏好挖掘模型中,模型输入参考表1:
表1
步骤4)中,偏好挖掘算法为现有算法,其算法原理为:确定各不同应用中各指标的得 分权重,此权重值可以由经验值得到,也可以根据现有的主成分分析法建模得出主成分表达 式系数,作为指标得分权重。建立偏好挖掘算法模型时,首先将对应不同应用的原始数据写 成不同矩阵,矩阵中的数据元素即与应用相对应的指标数据。原始数据矩阵X的p个指标需 要有一定的相关性,而且为正相关,如果为负相关,则进行相应的转化。
在计算各不同应用对应的各指标的最大值和最小值时,使用现有的最大最小规格化法对 指标数据进行标准化,得到标准化指标index,标准化的具体计算公式为:
设某应用的某指标最大值为a_max,指标的最小值为a_min,则标准化值:index=(当前值 -a_min)/(a_max-a_min),其中当前值即当前要处理的指标值;计算渠道偏好得分score;根 据应用偏好得分将用户接触渠道偏好给用户打上偏好标签,如:当用户偏好度的排名>使用用 户数*5/6为弱偏好应用;
当用户偏好度的排名<=使用用户数*5/6,和用户偏好度的排名>使用用户数*4/6为一般偏好应 用;
当用户偏好度的排名<=使用用户数*4/6,和用户偏好度的排名>使用用户数*2/6为强偏好 应用。
本发明的偏好挖掘模型输出的结果可参考表2:
表2中包含了对应不同时间、不同位置,用户较为偏好的应用及应用偏好等级排名,数 据挖掘的效率较高,能够极大的方便后续营销的进行。
本发明的有益效果为:实现了由“规则限定”的方法给用户打偏好标签到偏好挖掘算法 的转变,同时通过偏好挖掘算法中对不同指标进行标准化指标值和权重值的获取,实现了由 单机计算到分布式集群计算的转变,解决了偏好识别精准度的问题。
附图说明
图1所示为本发明的流程示意图。
具体实施方式
以下结合附图和具体实施例进一步说明。
结合图1所示,用户上网偏好数据识别方法,包括以下步骤:
1)获取用户上网行为日志数据,所述上网行为数据包括:
2)将用户上网行为日志数据根据不同应用进行分别汇总;
3)指定用户访问各应用的指标类型包括访问次数、流量、访问频次,从各不同应用对应 的汇总数据中分别取出各指标的最大值和最小值;
4)对于各不同应用的不同指标,分别根据最大值与最小值进行指标值标准化:定义某指 标的最大值为a_max,最小值为a_min,标准化指标值为index,则此指标的标准化指标值为:
index=(当前值-a_min)/(a_max-a_min);
5)对于各不同应用,获取步骤4)中所得到的各指标对应的标准化指标值的权重weight, 并根据标准化的指标值及相应权重计算各应用的偏好度score:
score(n)=index(1)*weight(1)+index(2)*weight(2)+index(3)*weight(3)...index(n)*weight(n)
式中:n代表指标的种类数量;index(n)和weight(n)分别代表第n类指标的标准化指标 值和权重值;
6)根据偏好度数值高低对各应用进行排序;
7)从排序后的各应用中选取偏好度居中的应用偏好度作为中位数;
8)将各应用的偏好度与中位数进行比较,如一应用偏好度小于中位数则丢弃此应用对应 的数据;反之将此应用添加至偏好度排名中;
9)根据H-index算法给用户打上偏好度标签:
当用户偏好度的排名<=使用用户数*5/6,和用户偏好度的排名>使用用户数*4/6为一般偏 好应用;
当用户偏好度的排名<=使用用户数*4/6,和用户偏好度的排名>使用用户数*2/6为强偏好 应用。
本发明中,用户上网日志可从服务器中获取,除访问次数、流量、访问频次这些主要指 标外,用户访问各应用的指标类型还可包括。将这些数据进行汇总输入本发明的偏好挖掘 模型中,模型输入参考表1:
表1
步骤4)中,偏好挖掘算法为现有算法,其算法原理为:确定各应用分类指标中的子指 标得分权重,可以由业务人员给出经验值,有需要也可以根据现有的主成分分析法建模得出 主成分表达式系数,做为指标得分权重。建立偏好挖掘算法模型时,首先将原始数据写成矩 阵。注意:原始数据矩阵X的p个指标需要有一定的联系,而且为正相关(如果为负相关, 需要进行相应的转化)。在计算各不同应用对应的各指标的最大值和最小值时,使用现有的最 大最小规格化法对指标数据进行标准化,得到标准化指标index,标准化的具体计算公式为:
设某应用的某指标最大值为a_max,指标的最小值为a_min,则标准化值:index=(当前 值-a_min)/(a_max-a_min);计算渠道偏好得分score;根据应用偏好得分将用户接触渠道偏 好给用户打上偏好标签。
本发明的偏好挖掘模型输出的结果可参考表2:
表2
表2中包含了对应不同时间、不同位置,用户较为偏好的应用及应用偏好等级排名,数 据挖掘的效率较高,能够极大的方便后续营销的进行。
本发明通过利用现有的中位数概念、H-index算法,根据用户的上网行为特征,对用户的 偏好进行偏好、偏好度识别,提高数据识别的准确度和识别效率。实现了由“规则限定”的 方法给用户打偏好标签到偏好挖掘算法的转变,由单机计算到分布式集群计算的转变,解决 了偏好识别精准度的问题。
机译: 偏好分析设备,一种分析方法,一种存储方式,一种信息提供系统,一种信息提供服务服务器,一种信息提供方法和一种偏好分析算法,特别是用于计算用户的当前权益和偏好
机译: 存储用户对包装内容的使用历史的偏好信息管理设备,计算该使用历史的分数,并将计算结果作为偏好信息输出,以及存储用户对包装内容和其他内容的用户历史的偏好信息管理设备,并以这样一种方式计算使用历史记录的分数,即认为打包内容的使用历史记录比其他内容的使用历史记录更有价值,并输出计算结果作为偏好信息
机译: 用户偏好识别装置,内容分发装置,用户偏好识别方法和内容分发方法