首页> 中国专利> 融入簇存在强度的数据流聚类方法

融入簇存在强度的数据流聚类方法

摘要

本发明涉及web技术领域,公开了一种融入簇存在强度的数据流聚类方法,包括以下的具体步骤:预处理步骤,对特定用户的信息进行预处理并保存至用户属性数据库中;用户聚类步骤,对用户属性技能型聚类,关联规则步骤,形成基于用户属性数据的关联规则,漂移检测步骤,实时地对关联规则进行检测,以保证关联规则的有效性。本发明的优点在于,解决了簇的存在强度对于聚类的影响,确实可以将荣誉距离、簇存在概率以及簇存在强度三重因素的不确定数据流聚类方法。

著录项

  • 公开/公告号CN104090950A

    专利类型发明专利

  • 公开/公告日2014-10-08

    原文格式PDF

  • 申请/专利权人 浙江工商大学;

    申请/专利号CN201410314647.1

  • 发明设计人 琚春华;鲍福光;肖亮;魏建良;

    申请日2014-07-03

  • 分类号G06F17/30;

  • 代理机构杭州裕阳专利事务所(普通合伙);

  • 代理人应圣义

  • 地址 310018 浙江省杭州市下沙高教园区学正街18号

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-12

    授权

    授权

  • 2014-10-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140703

    实质审查的生效

  • 2014-10-08

    公开

    公开

说明书

技术领域

本发明涉及web技术领域,特别涉及一种融入簇存在强度的数据流聚类方 法。

背景技术

在电子商务推荐系统中,用户信息的获取通常来源于用户提交的注册信息 显示信息和用户搜索关键词、浏览时间、购买行为等隐式信息,但是用户和电 子商务网站之间往往存在两难问题:用户出于对个人隐私信息的保护,不愿意 将个人信息提供给系统,调查显示80%的用户在填写调查问卷是可以提供性别、 年龄、教育背景、地域的信息,但是对于收入水平、职业等更为隐私的信息是 不希望透露的;同时网站运营商,非常渴望获取用户的更多信息,从而更好的 挖掘客户,掌握客户需求,以此来提高推荐系统的质量。目前多数网站运营商 采取隐式方法观察用户的兴趣,然而由于处理技术、获取方式等原因,使得获 取的用户信息多数是有残缺值的、不完全的,即数据元组不一定符合客观事实, 是具有一定的概率的。但是,目前国内外关于Web用户分析是针对确定型数据 的,因此本发明针对此类问题,将不确定数据模型引入到用户分析中,提出了 融入不确定性的Web用户分析方法;同时针对现有的不确定数据流的研究中并 没有考虑到簇的存在强度对聚类的影响问题,本发明提出了簇存在强度的概念, 研究融入距离、簇存在概率及簇存在强度三重因素的不确定数据流聚类方法。

发明内容

本发明针对现有技术无法充分发挥簇的存在强度对于聚类的影响的缺点, 提供了一种融入簇存在强度的数据流聚类方法,可以实现应用簇的存在强度调 整数据流聚类的问题。

为实现上述目的,本发明可采取下述技术方案:

一种融入簇存在强度的数据流聚类方法,包括以下的具体步骤:

预处理步骤:对特定用户的用户特征信息进行处理以形成用户属性数据库, 所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互 界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数 据串进行表征的用户属性数据,所述用户属性数据库用于存放所述用户属性数 据;

用户聚类步骤:将至少两个用户的用户属性数据集合形成用户群属性库, 其中,用于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述 用户不确定性数据流由至少两个元组组成,所述元组包括用户属性数据以及表 征所述用户属性数据的出现的不确定性的存在概率,所述存在概率通过赋予所 述用户属性数据以一个随机变量得到,所述随机变量是指在一定的给定区域上 符合概率分布的随机量,所述给定区域是指在一定的时间范围内用户属性数据 的变化区域;

关联规则步骤:依据用户群属性数据库所包含的用户属性数据形成关联规 则,并将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性数 据的可以用初等函数进行表示的变化趋势;

漂移检测步骤:对不同时间段内所产生的关联规则进行检测,生成最终的 用户行为规则,并将所生成的用户行为规则作为数据流聚类方法。

于本发明的实施例中,还包括以下具体步骤:

双区聚类步骤:组建簇,所述簇由至少两个元组构成;创建微簇,所述微 簇至少包括二阶矩CF2、一阶矩CF1、存在概率APC、微簇创建时间tS、微簇最后 更新时间te、样本容量n、簇编号CID、分区编号MID,其中,所述微簇与簇一一 对应,所述二阶矩CF2是指簇的连续变量的二阶矩,所述一阶矩CF1是指簇的连 续变量的一阶矩,所述分区编号MID是指微簇所在分区的编号;进行双区聚类, 所述双区聚类是指将簇划分为两类:主缓冲区Bufc簇以及副缓冲区Bufo簇,所 述主缓冲区Bufc簇是指当对一个新元组进行聚类时,首先在主缓冲区Bufc中进 行聚类得到的簇,所述主缓冲区Bufc簇是指当主缓冲区Bufc中的簇不适合新元 组时,则在副缓冲区Bufo中进行聚类得到的簇,所述不适合是指新元组的加入 会令被加入的簇的存在强度发生超出预设阈值的改变。

于本发明的实施例中,所述双区聚类步骤还包括,当副缓冲区Bufo中的簇 不适合新元组时,将该新元组思维全局离散点,做丢弃处理。

于本发明的实施例中,所述簇的存在强度的改变是指簇发生由强簇变为弱 簇或者过渡簇,所述强簇是指对于预设值α,0<α<1,所述簇的存在概率 APC≥α的簇,所述弱簇是指满足存在概率APC<β,且满足β<min的簇,所述过渡簇是指介于强簇和弱簇之间的簇。

本发明具有以下的显著技术效果:

实现了一种可以充分地考虑簇的存在强度的聚类方法,计算更为简便,步 骤少,计算量小,结果更为精确,具有较好的应用价值。

附图说明

图1为融入簇存在强度的数据流聚类方法的大致流程示意图。

图2为融入簇存在强度的数据流聚类方法的进一步细化的流程示意图。

图3为双区聚类步骤的流程示意图。

具体实施方式

下面结合实施例对本发明作进一步的详细描述。

实施例1

一种融入簇存在强度的数据流聚类方法,如图1、2所示,包括以下的具体 步骤:

预处理步骤100:对特定用户的用户特征信息进行处理以形成用户属性数据 库,所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机 交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式 的数据串进行表征的用户属性数据,用户背景信息包括用户的基本情况信息以 及用户的登入IP,登入时间等信息,用户行为信息包括用户的偏好数据,对某 一特定网站的访问频率,范围时间范围等信息,所述用户属性数据库用于存放 所述用户属性数据;

用户聚类步骤200:将至少两个用户的用户属性数据集合形成用户群属性库, 其中,用于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述 用户不确定性数据流S由至少两个元组<vi,pi>组成,该元组<vi,pi>(i≥1)为不确 定元组,其中,vi为元组的值,pi(0≤pi≤1)为元组vi的存在概率,即,所述元 组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率, 所述存在概率通过赋予所述用户属性数据以一个随机变量得到,所述随机变量 是指在一定的给定区域上符合概率分布的随机量,所述给定区域是指在一定的 时间范围内用户属性数据的变化区域,所述概率分布是指该随机变量符合给定 区域中该随机变量的值在给定区域中的出现频率;

关联规则步骤300:依据用户群属性数据库所包含的用户属性数据形成关联 规则,并将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性 数据的可以用初等函数进行表示的变化趋势,进一步地,作为另一种可选的方 案,可以将离散的用户属性数据进行拟合得到一条曲线,并用拟合后的曲线来 表示该用户属性数据的变化趋势,并作为其关联规则;

漂移检测步骤400:对不同时间段内所产生的关联规则进行检测,生成最终 的用户行为规则,并将所生成的用户行为规则作为数据流聚类方法,所述检测 是指对聚类后的簇按照关联规则进行重新判断,如果簇中多数元组的值超出该 关联规则的变化趋势以及变化范围时,重新生成新的符合该簇的元组的值的变 化趋势的关联规则。

所述融入簇存在强度的数据流聚类方法还包括以下具体步骤,如图3所示:

双区聚类步骤500:组建簇,所述簇由至少两个元组构成;创建微簇,所述 微簇至少包括二阶矩CF2、一阶矩CF1、存在概率APC、微簇创建时间tS、微簇最 后更新时间te、样本容量n、簇编号CID、分区编号MID,其中,所述微簇与簇一 一对应,所述二阶矩CF2是指簇的连续变量的二阶矩,所述一阶矩CF1是指簇的 连续变量的一阶矩,所述分区编号MID是指微簇所在分区的编号;进行双区聚类, 所述双区聚类是指将簇划分为两类:主缓冲区Bufc簇以及副缓冲区Bufo簇,所 述主缓冲区Bufc簇是指当对一个新元组进行聚类时,首先在主缓冲区Bufc中进 行聚类得到的簇,所述主缓冲区Bufc簇是指当主缓冲区Bufc中的簇不适合新元 组时,则在副缓冲区Bufo中进行聚类得到的簇,所述不适合是指新元组的加入 会令被加入的簇的存在强度发生超出预设阈值的改变。因此,进行聚类时,首 先保证的是强簇的个数,以保持较多数目的强簇为目标。

所述双区聚类步骤500还包括,当副缓冲区Bufo中的簇不适合新元组时, 将该新元组思维全局离散点,做丢弃处理。

所述簇的存在强度的改变是指簇发生由强簇变为弱簇或者过渡簇,所述强 簇是指对于预设值α,0<α<1,所述簇的存在概率APC≥α的簇,所述弱簇是 指满足存在概率APC<β,且满足β<min的簇,所述过渡 簇是指介于强簇和弱簇之间的簇。

总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作 的均等变化与修饰,皆应属本发明专利的涵盖范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号