首页> 中国专利> 一种数据挖掘中基于命题逻辑的主特征分析方法及系统

一种数据挖掘中基于命题逻辑的主特征分析方法及系统

摘要

本发明公开了一种数据挖掘中基于命题逻辑的主特征分析方法及系统,其主特征分析方法包括以下步骤:进行特征扩展:利用命题逻辑扩展描述内容数据的特征集合,形成一个内容数据扩展特征集;进行特征权重的设定:使用基于内容的数据挖掘和协同过滤方法来分析用户的使用历史以及内容数据,设定特征的重要性权重;进行主特征的选择:根据输入内容集和特征的权重从扩展的特征集中选择主特征,并输出。本发明数据挖掘中基于命题逻辑的主特征分析方法及系统通过对特征的扩展和权重的计算,选择其中的主特征输出,能够找出数据的共性并能用含义更丰富的扩展特征表达出来,从而为后续的挖掘数据处理提供有效支持。

著录项

  • 公开/公告号CN103425716A

    专利类型发明专利

  • 公开/公告日2013-12-04

    原文格式PDF

  • 申请/专利权人 TCL美国研究所;

    申请/专利号CN201210179241.8

  • 发明设计人 冯子钜;汪灏泓;

    申请日2012-05-24

  • 分类号G06F17/30(20060101);

  • 代理机构44268 深圳市君胜知识产权代理事务所;

  • 代理人王永文

  • 地址 美国加利福尼亚州圣塔克拉拉市奧古斯丁路2700号290单元

  • 入库时间 2024-02-19 21:23:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-31

    授权

    授权

  • 2013-12-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120524

    实质审查的生效

  • 2013-12-04

    公开

    公开

说明书

技术领域

本发明涉及一种数据处理领域中的数据挖掘方法及系统,尤其涉及的 是一种以数据挖掘软件中的特征扩展方法为基础的主特征分析方法和系 统。

背景技术

数据挖掘(Data Mining)是利用软件通过分析每个数据、从大量数据中寻 找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据 挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析 和演变分析等。经过十多年的发展,数据挖掘软件工具的性能获得了显著 的改善,不论是自动化程度还是适用范围都发生了巨大变化,价格的门槛 迅速降低,对于推进数据挖掘在企业和电子商务中的应用具有特殊的意义。 但是还应该看到,现在的数据挖掘软件还存在许多的不足,调查显示多数 的数据挖掘软件只使用了有限的几种技术,且集中在比较简单的数据挖掘 技术种类上。

数据挖掘是从大量数据中发掘出隐含的规律和信息的一个过程,其中, 如何从数据集中挖掘出最能描述这些数据包含的共性和模式的一个或者多 个特征,是数据挖掘里面的一个基本而又有挑战性的难题。例如,对于一 个电视节目推荐系统来说,如果能够找出某个用户所看过的电视剧当中最 具代表性的特征,如由某个演员出演,或者属于某个类型等,那么就能比 较准确地刻画出这个用户的偏好,从而为将来的推荐提供指引。

现有技术中有关数据挖掘的专利文献参见中国专利号200510092983.7, 其公开了数据挖掘中基于混合互信息的特征选择方法,但该数据挖掘方法 依赖于类别的标号,而在很多应用场合中能够得到的数据并不包含标号信 息。

在现有技术的数据挖掘软件中,不同特征之间的关联往往被忽略,同 时特征的选择也往往局限在原始特征空间当中,从而无法捕捉很多用户的 隐藏喜好。在电视节目推荐系统中,由于一台电视往往会被家庭中的多个 用户使用,不同的喜好混杂在一起往往使得用户的偏好更难被准确地捕捉。 例如,某个用户可能喜欢观看由某几个特定的演员共同出演的影片,或者 是喜欢某个演员出演的某类影片,如果只分析单个特征,那么这个喜好可 能就会被淹没在这个用户的其它喜好或者其它用户的喜好之中,或者不能 被完整地捕捉。然而如果考虑了特征之间的关联,那么这几个特征的多次 共同出现就可能被认为是用户的一种明显的喜好,从而与单个特征能描述 的更宽泛而模糊的喜好分离开来。同时,这种粒度更细的描述方式也能为 将来的推荐提供更精确的信息。

然而,在另外一种情况中,某个用户可能会在其观看电视的时候随机 地收看其感兴趣的节目,如果能够把这个用户所感兴趣的特征综合起来看 成一个新的特征,那么这个特征往往就能够很好地用来描述用户使用电视 时在时间上的规律,从而在该用户可能观看电视的时候为其推荐其感兴趣 的节目。这在一个电视由多个用户于不同时间段使用的时候尤为重要。

在近几年现有技术发展中,针对终端用户的个性化多媒体体验方面做 了很多努力,然而很少有成功的。由于特征所代表的内容数据之间内在的 联系每天都在变化,所以,在挖掘他们之间的内在联系和把结果映射到用 户偏好时的困难程度和复杂程度是巨大的。一般情况下,在内容的元数据 中会包含如演员、导演、作品年份等信息。这些信息能够被用来把一组具 有相似特征的内容数据聚集起来,从而发现内容数据中的内在联系。对于 一组内容数据,怎样为这组内容数据定义一组具有代表性的特征是一个基 础而重要的问题,迄今为止,对于这个问题,现有技术一直没有好的解决 方案。

在数据挖掘中,这类问题通常被称为top-K频繁模式发掘,其中模式被 定义为特征的集合而频繁模式则是在数据集中出现次数较多的模式。在所 有的频繁模式之中要选出K个最有代表性的模式来近似拟近原来的包含所 有频繁模式的集合,从而用来描述这个数据集的特性。这类问题通常属于 NP(Non-Deterministic Polynomial,非确定多项式)问题,因此贪心算法经常 被使用来提供一个近似解。但现有技术的处理算法都很难同时保证选出的 top-K模式的重要性较高而冗余度较低,也无法解决粗粒度特征的模式选 择。

因此,现有技术中还存在缺陷,而有待于改进和发展。

发明内容

本发明的目的在于提出一种数据挖掘中基于命题逻辑的主特征分析方 法及系统,改进数据挖掘软件,以加强特征描述数据规律的能力,并以扩 展之后的特征为基础提出一套衡量特征能描述多少数据中共性的标准,最 后以这个标准提出一个能够快速找出最优或者较优的特征选择方案。

本发明的技术方案如下:

一种数据挖掘中基于命题逻辑的主特征分析方法,其包括以下步骤:

A、进行特征扩展,利用命题逻辑扩展描述内容数据的特征集合,形成 一个内容数据扩展特征集;

B、进行特征权重的设定,即进行特征赋权,至少使用基于内容的数据 挖掘和协同过滤方法来分析用户的使用历史以及内容数据,设定特征权重;

C、进行主特征的选择,根据输入内容集和特征的权重从扩展特征集中 选择主特征;

D、进行主特征输出。

所述的数据挖掘中基于命题逻辑的主特征分析方法中,所述步骤A具 体还包括:

设n为输入内容的个数,T={t1,t2,...,tn}是内容数据集,F={f1,f2,..., fm}为描述内容数据集的特征向量空间中包含的特征集;通过引入命题逻辑, 每个特征f∈F被定义为一个命题变量,每个内容t∈T可以被定义为一个 逻辑空间的解释或赋值,把t包含的每个特征赋为真,并把这些特征之外的 特征赋为假;根据这个定义,t包含特征f∈F,当且仅当f在t这个解释下 为真,即套用命题逻辑的术语,被称为解释t满足公式f并且表示为命题逻辑的两个算子逻辑与和逻辑或,被用来把原始特征组合成不同的命 题公式,并把这些公式作为新的特征,从而形成扩展特征的集合;

扩展得到的包含原始特征和已扩展特征的特征集用Fexpand={f1,f2,..., fm,fm+1,...}表示,并且满足:其中如果i≤m,则fi是一个命题变量,即fi∈ F;如果i>m,则fi是一个由至少两个来自F中的变量组成的公式;i、m都 是用于计数的自然数。

所述步骤B中的特征赋权定义在原始特征的集合F的幂集上,用赋权 函数w:2F→R+表示,对任意一个由原始特征组成的集合权重w(x) 越大表示x越重要。

进一步地,所述特征赋权函数结合通过不同类型方法得到的三个子赋 权函数产生,其中:wb代表利用基于内容的方法计算得到;wc代表使用协 同筛选的方法来计算;wo代表使用不包含在前两个方法中的信息来计算权 重;所述特征赋权通过函数P综合上述三个子函数的结果从而产生最终结 果,即总赋权函数w可以写成:

w(x)=P(wb(x),wc(x),wo(x))

其中,是由原始特征组成的集合,函数P满足以下条件:

Pwb0,Pwc0,Pwo0.

所述步骤C中的主特征选择的目标被定义为找到一组最优的扩展特征 C={fc1,fc2,...,fcR},在把原始数据从空间F中投影到低维度空间C后,可 以保持尽可能多的信息。在这里fci∈Fexpand,i∈{1,2,...,R},其中Fexpand是 扩展特征集,R是这个集合的大小。每个解决方案优劣与否的评判标准用 一个测定原始数据和从低维度特征空间投影回到原始特征空间的重建数据 之间的差异的失真函数定义信息损失程度来定义。

本发明上述数据点被定义为原始特征的集合,即与内容数据ti∈T相对 应的数据xi被定义为:

本发明中上述投影的过程采用投影函数,投影函数基于逻辑推导来定 义。其具体定义如下:

数据点xi的投影点zi被定义为:

这里,表示特征集合xi作为知识库能够归纳(entail)出命题fc成立,其中符号与命题逻辑的“归纳出”的符号含义相同。

重构数据被定义为:

使用命题逻辑中模型(model)的概念可以很容易地证明

得到了原始数据和重建数据之后,并假定由丢失的信息而产生的信息 损失程度是与被正确恢复的特征不相关,本发明的投影失真误差可以写成:

其中,\是集合中差集运算的符号,赋权函数w如前所述定义。

本发明还通过限定主特征的数量把上述问题映射成一个约束优化问 题,即要找到最佳的集合来最小化失真度,并且C的大小不能超过阈值 Rthreshold,它可以公式化为:

使得R≤Rthreshold

所述的数据挖掘中基于命题逻辑的主特征分析方法,其特征在于,所 述步骤C的主特征具体选择过程采用贪心算法实现,定义Fi-expand来表示该 贪心算法选出的由i个原始特征“与”出来的扩展特征集合,i为自然数,并 利用公式递推 出F(i+1)-expand的值,并把这个集合的大小限定在m,m为自然数,从而把可 供选择的扩展特征限定在F1-expand∪…∪Fm-expand共m的平方个特征中。

所述的数据挖掘中基于命题逻辑的主特征分析方法中,所述步骤C中 采用二元变量限制描述输入的内容的特征点。

一种实现所述方法的主特征分析系统,其中,包括:

一特征扩展模块,用于利用命题逻辑扩展描述内容数据的特征集合, 形成一个内容数据扩展特征集,这里所述的扩展特征集比原始特征更广泛 且信息量更大;

一特征赋权模块,用于使用基于内容的数据挖掘和协同过滤方法来分 析用户的使用历史以及内容数据,设定特征的重要性权重,即特征赋权;

一主特征选择模块,用于根据输入内容集和特征的权重从扩展的特征 集中选择主特征;

一主特征输出模块,用于对选择的主特征进行输出。

本发明数据挖掘中基于命题逻辑的主特征分析方法及系统证明了可以 通过把要考虑的特征集限制在相应出现的特征集和与它相应的扩展特征集 中,而不用去考虑原特征集F,从而达到降低处理时间并提高处理效果。本 发明还证明了可以假设所有的候选主特征集C都是由对应文字变量(literal) 的合取式特征组成的而不影响选出的主特征集效果,从而达到提高运算效 率的目的。

本发明数据挖掘中基于命题逻辑的主特征分析方法及系统中还采用了 一种贪心算法来进一步优化运算处理速度,该算法定义Fi-expand来选出的由 i个原始特征“与”出来的扩展特征集合,并利用公式 递推出F(i+1)-expand的 值,并把这个集合的大小限定在m,从而把可供选择的扩展特征限定在 F1-expand∪…∪Fm-expand共m平方个特征中。

本发明所提供的一种数据挖掘中基于命题逻辑的主特征分析方法及系 统,通过特征的扩展和权重计算,选择其中的主要特征输出,由此本发明 方法和系统能够找出数据的共性并能用含义更丰富的扩展特征表达出来, 从而为后续的数据挖掘处理提供有效支持。

附图说明

图1为本发明数据挖掘中基于命题逻辑的主特征分析方法流程示意图。

图2为本发明数据挖掘中基于命题逻辑的主特征分析系统功能框图。

具体实施方式

以下对本发明的具体实施方式加以详细说明。

本发明提供了数据挖掘中的一种基于命题逻辑的主特征分析方法及系 统,提出了一个新的概念--基于命题逻辑的特征扩展,这种特征扩展考虑了 内容数据中元数据的本质特点和被选特征的粒度,换句话说,这些特征可 以被分为细粒度特征和粗粒度特征,通过设置逻辑“与”和逻辑“或”的 组合逻辑算子,从原始特征集中确定扩展的特征集;细粒度特征趋向于提 供信息量更大的信息和用户特定的信息,而粗粒度特征则提供了更一般化 的信息和比较灵活的解释能力。

本发明通过使用组合逻辑算子从原始元数据领域中形成了不同粒度的 一组特征,并且挑选出最具有代表性的特征,即主特征。挑选的过程是多 个因素组合的过程,如:基于内容的因素,基于协同过滤的因素等,这种 方法称为PFA,即主特征分析。其不同于现有技术中的其他方式,例如主 成份分析,在于本发明所谓的特征可以是多个成份的逻辑组合操作,因此 扩展了所针对问题的空间以及所能解决问题的复杂度,能涵括解决实际问 题时的各种复杂可能性。

本发明数据挖掘中基于命题逻辑的主特征分析方法及系统的主要贡献 和创新在于:在数据挖掘的处理程序中,把一个内容描述和表达问题转变 为了一个优化问题,以减小选出的特征的描述误差和冗余程度作为衡量标 准;提出了特征粒度的新概念和利用了组合逻辑来描述这个概念;提出了 一个独特且适用于这一类型问题的解决原来的NP-hard问题的处理方法及 系统。

如图1所示,是本发明PFA方法的处理流程示意图,其具体包括以下 主要步骤:

S1、获取原始数据,形成原始特征集,所述原始数据存储于数据库中;

S2、特征扩展,扩大描述内容数据的主特征集使其具有比原始特征更 强的表达能力,并形成内容数据的扩展特征集以便后续的处理,这里所述 的扩展特征集比原始特征更广泛且信息量更大;

S3、确定特征权重,即特征赋权:这个步骤用来调查用户的使用历史 以及内容数据,根据内容数据库和用户数据库的记录,在统计的基础上, 使用内容挖掘和协同筛选的方法,根据特征的重要性不同确定不同的特征 权重。

S4、主特征选择:根据输入的内容集和特征权重从已经扩大的扩展特 征集中选择主特征;

S5、进行主特征输出。

本发明的主特征分析方法程序实现中,其主要的难点在:使用原始特 征的表达能力时,由于原始特征表达能力的限制使得捕捉不同特征的联合 模式难度较大;为了发现更多有用的特征和预测更有价值的信息,不同的 特征点的重要性和信息量的不同需要加以考虑;粒度应该进行适当的调整, 因为细粒度特征趋向于提供具有更多信息量的信息和用户相关的信息,而 粗粒度特征趋向于提供更一般化和解释能力更加灵活的信息;对于异常内 容的健壮性和对大部分内容的代表性必须要很好的平衡,以使选出来的主 特征既包含足够有用的信息同时又有足够的普适性,以捕捉被隐藏在内容 背后的重要规律;为了得到更有价值的结果,就需要捕捉到特征之间的相 关性和相似性。

为了减小上述技术处理的困难程度,本发明软件实现方法用二元变量 (0和1)来限制描述内容的特征点,特征是否能够描述这个内容就可以被 简单化为这个内容是否包含的这个特征所代表的元素。考虑到以下事实, 即描述一个内容的大多数特征,比如它是否属于某个类型,是否由某个明 星出演,是否由某个公司制作等等,要么本身就是二元要么就是能够被很 容易地转换为二元变量的离散变量。

在本发明的S2特征扩展步骤,在于扩展原始特征空间,该步骤基于步 骤S1中获取的原始数据集,通过特征扩展形成扩展特征集,其方法为:

假设n为输入内容的个数,T={t1,t2,...,tn}是内容数据集,F={f1,f2,..., fm}为描述内容数据集的特征向量空间中特征集,。为了能够捕捉更好的关于 内容集的粗粒度信息和更加详细的和有预见性的细粒度信息,在这些特征 之上引入两个算子,即∧和∨。为了更加准确地定义这两个算子的含义, 本发明引入了布尔逻辑来重新定义每个F中的特征f作为一个命题变量, 每个T中的内容t被定义为一个逻辑空间的解释或赋值,把t包含的每个特 征赋为真,并把这些特征之外的特征赋为假。根据这个定义,t包含特征f, f∈F,当且仅当f在t这个解释下为真,套用命题逻辑的术语,这可以被 称为解释t满足公式f并且表示为

通过引入命题逻辑,算子∧和∨被很简单的定义为逻辑“与”和逻辑 “或”,在F集合中,通过引入相应的包含命题变量的命题公式新特征,特 征也因此得到扩展。不失一般性的,假设所有的公式都被写成析取范式形 式(在布尔逻辑中,析取范式(DNF,DISJUNCTIVE NORMAL FORM) 是逻辑公式的标准化(或规范化))。与普通的命令逻辑的不同在于,这里 没有引入否定文字(literal),因为本发明更关心的是用户喜欢什么样的内容 和特征,而不是用户不喜欢什么。

扩展得到的包含原始特征和已扩展特征的特征集可以用Fexpand={f1, f2,...,fm,fm+1,...}表示,其中如果i≤m,则fi是一个命题变量,即fi∈F; 如果i>m,则fi是一个由至少两个来自F中的变量组成的公式。一个扩展特 征的例子是fk=(f1∧f2)∨(f1∧f3),其中k>m(m≥3),i、m和k都是用于 计数的自然数。

为了能够使这个例子更加容易理解,以下举具体示例说明:用f1表示 这个内容为动作电影,f2表示由李安执导,f3表示电影由甄子丹领衔主演。 如此则内容t包含特征fk,当且仅当当且仅当(和)或者(和)同时成立,也就是说,要么这是一个由李安执导的动作片,要 么是这个是个由甄子丹主演的动作片。

本发明还引入了一个逻辑关系“蕴含”,用符号□表示,来描述扩展特征 之间的关系,即fi□fj表示既包含特征fi也包含特征fj的任意一个内容。针 对上面的例子,如果一个内容包含特征fk,即它要么是一个由李安执导的 动作片,要么是一个由甄子丹主演的动作片,那么它一定是动作片,因为 根据命题逻辑可以得知fk□f1。通过使用这种特征扩展方法,本发明就能够 捕获内容集T的细粒度特征,如f1∧f2表示在同一个内容中同时具有特征 f1和f2;也能捕捉到粗粒度特征,如f3∨f4表示在一个内容的特征f3和f4中至少出现其中一个特征。这些特性如果仅仅使用原始的特征集都不能很 容易的被提取出来。

引入了扩展特征之后,本发明的目的可以被定义为找到一组最优的扩 展特征C={fc1,fc2,...,fcR},在把原始数据从空间F中投影到低维度空间C 后,可以保持尽可能多的信息。在这里fci∈Fexpand,i∈{1,2,...,R},其中 Fexpand是扩展特征集,R是这个集合的大小。每个解决方案优劣与否的评判 标准是需要对投影方法和信息损失的程度的精确定义。信息损失程度可以 用一个测定原始数据和从低维度特征空间投影回到原始特征空间的重建数 据之间的差异的失真函数定义。

假设LC(ti)是内容ti∈T在特征空间C□Fexpand包含的特征集,即LC(ti) ={f|f∈C,t□f},那么LF(ti)就代表内容ti包含的原始特征。因此输入的 内容数据可以被重新定义为特征的集合x1,x2,...,xn,其中xi=LF(ti)□F。

上述投影过程采用对应的投影函数,该投影函数的选择对PFA的性能 有很大的影响。一般来说,合理的投影函数应该使得重构之后的数据不会 包含不属于内容原有特征的特征,因为引入了错误的特征在很多情况下会 对归纳数据的共有特征和找到相似内容产生不利的影响。考虑到这个需求 以及本发明定义的特征是基于命题逻辑的这个事实,投影函数很自然地应 该基于逻辑推导来定义。由于每个数据点都是一个特征集,而一个特征集 或者说是逻辑变量集可以被看成是一个能够归纳出逻辑命题的知识库KB (Knowledge Base),因此投影点zi可以被定义为:

这里,表示知识库xi能够归纳(entail)出命题fc成立,其中符号 与命题逻辑的“归纳出”的符号含义相同。注意在命题逻辑中知识库KB 能够归纳出公式α,当且仅当任意使得KB为真的赋值都使得α为真。

使用与公式(1)相同的投影方法,重建的重构数据可以被定义为:

使用命题逻辑中模型(model)的概念可以很容易地证明注意在命 题逻辑中一组公式或者说命题的一个模型是能够使每个公式都为真的一个 解释。令M(α)为一个公式α的所有模型的集合,则根据“归纳”的定义可以 得到因此,对于每个fc∈zi,都有注意 是成立的,因为每个能够使zi为真的解释,都必须令每个 fc∈zi为真,而根据定义使每个fc∈zi都为真的解释也会使zi为真。因此,可 以得出同样的,可以得出并因此而得出 由于和xi的每个元素都是一个文字(literal)或者说逻辑 变量,因此,如果一个特征f(同时也是一个文字)满足则在的所 有模型中它的值都为真,从而在xi的所有模型中它的值也为真,这也就意 味着f∈xi,因此得出

得到了原始数据和重建数据之后,本发明的投影失真误差可以写成:

为了减小定义和计算每个原始数据点和重建数据点之间的误差的复杂 度,假定由丢失的信息而产生的信息损失程度是与被正确恢复的特征不相 关的,即就是说,在公式(3)中,失真误差可以写成:

其中,\是集合中差集运算的符号,单变量赋权函数w:2F→R+用来衡量 一组特征的重要性,w值越高表明损失的信息越重要。

下面是特征赋权S3和主特征选择S4的具体示例过程,用R来表示主 特征的数量即降维之后的特征空间C的大小。必须要注意到的是,本发明 方法及系统的目标是要找到能够代表原始内容数据的最典型的特征,即主 特征;如果对于一个给定的R总能找到最优解,则R值越大,被选出来代 表数据的特征就越多,通过特征空间C捕捉到的内容集T的特征将会越接 近原始内容数据,因此,失真也就会越小。因此,上述问题可以被映射成 一个约束优化问题,即要找到最佳的集合来最小化失真度,并且C的大小 不能超过阈值Rthreshold,它可以公式化为:

s.tR≤Rthreshold    (5)

其中,\是集合中差集运算的符号;s.t是数学中常用的符号,代表such  that,亦即使得或者满足的意思。

为了使提取出来的主特征包含最多的信息量和代表性,衡量每个特征 的重要性是绝对有必要的。假设有一种极端的情况:所有的数据库中出现 内容都包含特征f,这就意味着在T中所有的内容也都包含特征f,在没有 考虑到这些特征的有用程度的不同时,f很有可能会被看作是主特征,因为 它描述了在T中所有内容的共同的一个规律。然而事实上,把f包含在主 特征中不会提供任何对预测内容之间的相似性或者相关性而言有价值的信 息。

因此,对主特征需要进行权重的选择和设置,赋权函数的选择应该是 为应用场景订制的。在不同的系统中,赋权函数的选择应该是不同的。然 而,还是有一些一般性的规则可以用来帮助选择具有更多信息性的赋权函 数。首先,应该成立,因为空集代表没有信息丢失;其次,如果特 征集成立,那么w(A)≤w(B)也应当成立,因为越多的信息丢失,投影函 数应该产生越多的失真。

一般来说赋权函数w可以通过结合运用不同类型方法得到的三个子赋 权函数产生。用wb表示第一个子函数,其可以利用基于内容的方法计算得 来。这个方法通常会检查所有的内容,基于统计数据和一些其他信息来赋 权每个特征的重要性;用wc,表示第二个子函数,其可以使用协同筛选的方 法来计算。这个方法通常是基于从其他用户得到的统计数据和关联信息来 赋权每个特征的重要性。用wo表示第三个子函数,可以使用不包含在前两 个方法中的其他信息来计算权重。上述处理方法为现有技术中已知,在此 不再赘述。上述三个子函数的值越高应该表明特征集越重要。

代入这三个子函数,公式(3)中的失真误差可以写成:

在这里,P是一个以函数wb,wc和wo的结果作为输入并综合产生的一 个权值函数。它应该满足下面的条件:

Pwb0,Pwc0,Pwo0---(7)

这个式子的意思是如果一个子赋权函数认为这个特征越重要,这个特 征就会被w认为重要。

基于命题逻辑推理的数据投影的独特性和赋权函数定义的通适性,使 得很难找到一个高效的精确算法或者效果保证较好的近似算法,因此,目 前实际技术应用中,穷举法是唯一一个实际的方法。以下用本发明的较佳 实施例说明穷举法的可能,首先审查直接穷举法的时间复杂性,然后展示 几种能够减少被审查特征数量的方法和技术,从而改善时间复杂度,最后, 再提出一个方法用来扩展主特征的结果以使得计算结果除了细粒度特征外 也包含粗粒度特征。

直接穷举法会检查每一种R个扩展特征的组合作为潜在主特征集,然 后计算每个输入内容的原始内容数据和重建内容数据之间的失真误差,由 此可以计算时间复杂度:

CNR·n·(1+LF)

这里,是需要被检查的扩展特征的数量,I是命题推理所消耗 的时间的平均值。表示每个内容数据的原始特征集的平均大小,用于表示 计算原始内容数据和重建内容数据之间的差异所需要的时间。显然,运行 时间至少是m指数次方,因此,减少候选主特征的数量这一过程是必须的。

首先,注意到在公式(5)的定义中,赋权函数的输入始终都是某个输 入内容数据的原始特征集的子集,这意味着F中没有出现在内容集T的特 征不会作为w()的输入出现,也因此不会影响失真误差。显而易见的,它们 也将不会影响推理和投影的过程。因此,本发明只需要考虑已经出现的特 征集和与它相应的扩展特征集Lexpand.,而不用去考虑原特征集 F和它的扩展特征集Fexpand。因此本发明不失一般性地假设L=F。因此,特 征空间m的大小是与输入内容n数量线性相关,这是因为大多数内容数据 都有一个相对较小的可以认为是常量的特征数量。这通常会远远小于原来 的巨大的特征空间。

然后,本发明方法证明了通过把候选主特征的表达式限定成某种形式 可以减少它们的数量,同时仍然能够找到最优的解决方案。以下是本发明 主特征选择的具体示例,具体地说,对于任何一个特征,只要它的表达式 在析取范式中包含了多于一个的合取式(CONJUNCTIVE NORMAL FORM),它就可以被另外一个表达式只包含一个合取式的特征代替,并且 对最后找出来的主特征集的代表性没有任何损害。这可以公式化成以下命 题:

命题1:假设C□Fexpand是一个特征集,特征fc∈C,在DNF(Disjunctive  normal form析取范式)中包含了至少两个文字(literal)特征,换句话说 fc能写成以下形式:

fc=fc1∨fc2∨…∨fci

其中fij∈Fexpand,j=1,2,...,l,是合取式,即:

fij=fj1∧fj2∧…∧fjr

其中,fjk∈F,k=1,2,...,r。

那么一个存在某个在其析取范式中只包含一个合取式的特征 fc′∈Fexpand,使得对于任意数据点xi□F,由特征集C′=(C∪{fc′})\{fc}产生的重 构数据都包含了由C产生的重构数据中所有的信息,即

可以证明以上命题是成立的。利用上述命题1就可以假设所有的候选 主特征集C都是由对应文字变量(literal)的合取式的特征组成的,这样就 可以把潜在的主特征数量降低到θ(2m)。同时命题推理的复杂度也会减小。 一个显然的事实是,如果一个原始特征(也即文字变量)能够由一组文字 变量的合取式归纳得出,那么它必定能被其中的某个合取公式归纳出。因 此在公式(2)中,重构数据点的定义可以改写成:

根据这个定义,命题推理可以通过简单地把zi中每个特征的成员文字 集合并起来而完成,这可以在O(m*R)的时间内完成一个数据点的推导。

再则,由于可以假设所有潜在的可能被选定为主特征的都是文字变量 的合取式,考虑到只有当某个特征f会被某些投影点zi包含、从而能够被用 于推理那些特征会在重构数据中出现时,它才能够被用来减少失真误差, 潜在的主特征的范围就可以被进一步地限定。因此,每一个有可能成为主 特征的特征都是由某个输入数据点xi的文字特征集的某个子集中的特征之 合取式构成的。候选的主特征数量就被限定到和的数量级,从而使得穷举搜索的时间复杂度限定在与n的多项式相关。

对于每个内容只包含很少的特征比方说小于7的系统来说,穷举搜索 可以在R较小的情况下在可被接受的时间内完成。然而,对于比较大的R 或者内容包含了更多特征的情况,计算时间仍然会太长。因此本发明还提 出了一种贪心算法来在所有候选的特征中选择一小部分,并保证它包含了 长度由1到R的可能会有用的特征。该方法的工作原理如下:

用Fi-expand表示用本方法挑选出来的由长度为i的合取式组成的一组特 征。Fl-expand初始化为F。如果已知Fi-expand,则F(i+1)-expand可以通过以下式子计 算:

这里,公式(10)中的topm表示把每个f’看成只包含自身的主特征集 来计算失真误差然后挑选误差最小的前m个f’。最后,用 F1-expand∪…∪Fm-expand作为候选主特征集,它的大小最多是m2而非 或根据实验结果,当每个内容数据包含的特征的平 均数量比较大时,这种方法能够大大地减少候选主特征的数量,从而大大 降低时间复杂度,然而依然能够获得相近的结果。

这个贪心算法可以看成是一个递推式的特征限定过程,定义了Fi-expand来表示这个贪心算法选出的由i个原始特征“与”出来的扩展特征集合,然后 利用公式递推 出F(i+1)-expand的值,并把这个集合的大小限定在m,从而把最后可供选择的 扩展特征限定在F1-expand∪…∪Fm-expand共m平方个特征中,因此降低了算法 的时间复杂度。

根据上述的假设和偏向合取式的选择,所有被选出的主特征都是细粒 度特征,其要么是文字特征,要么是原始特征的合取。为了捕捉到粗粒度 特征,本发明提出一种从细粒度特征中产生粗粒度特征的方法,即指定一 个主特征集C,可以产生一系列特征集Ci,i=1,2,...,R,其中Ci定义为:

Ci={Vk=1ifjk|fjkC,fjafjbifab}---(11)

在公式(11)中,Ci代表所有由i个来自C的特征组成的集合。显然, i值越大,每个特征的粒度更粗,因为它们能被用来描述更多的内容。如果 在C中的每个主特征都描述一种类型的规律,则特征可以描述由i个 不同的规律混合而成的规律。因此,就可以捕捉到粗粒度信息了。

S5,为主特征输出步骤,该步骤在于输出经过上述各个步骤的处理过 程,生成具有粗粒度信息的主特征信息,并进一步输出给其他的相关程序 使用,如预测用户兴趣,并推送相关节目等。

本发明还提供一种实现所述方法的主特征分析系统,如图2所示,包 括:

一特征扩展模块110,用于利用命题逻辑扩展描述内容数据的特征集 合,形成一个内容数据扩展特征集,这里所述的扩展特征集比原始特征更 广泛且信息量更大;

一特征赋权模块120,用于使用基于内容的数据挖掘和协同过滤方法来 分析用户的使用历史以及内容数据,设定特征的重要性权重,即特征赋权。

一主特征选择模块130,用于根据输入内容集和所述特征赋权模块120 确定的特征权重从扩展的特征集中选择主特征;

一主特征输出模块140,用于由所述主特征选择模块130选择的主特征 进行输出给其他的相关程序使用,例如预测用户兴趣,并推送相关节目等。 具体各模块的实现算法和功能实例,请参照前述有关方法的描述,在此不 再赘述。

值得说明的是,本系统还包括,一内容数据库160,用于存储有待进行 主特征分析的内容数据,一用户数据库150,用于存储用户数据。所述特征 扩展模块110、特征赋权模块120处理的数据居于所述内容数据库160与 用户数据库150存储的数据。当然所述的内容数据库160与用户数据库150 存储的数据可以存储在唯一数据库中,也可以为了逻辑管理的方便性,进 一步拆分为几个独立数据库,在这里不作限制。

本发明PFA方法及系统是一个基于命题逻辑和组合优化的自动主特征 选择方法及系统,在很多方面可以得到展开和应用,其中包括:用户浏览 偏好检测、基于用户习惯的身份识别、电视和电影节目的推荐、广告和服 务的推荐、家庭和移动通信服务的个性化以及社交活动的统计管理等软件 实现中。本发明方法还可以应用于其它二元变量的主特征检测应用中,实 现针对数据挖掘过程中效率和准确性的提升。本发明方法降低了数据集的 维度,从而减少了数据挖掘处理过程的复杂度;同时能够找出数据的共性, 从而为后续的挖掘数据规律算法提供更为有效的支持。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以 改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护 范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号