首页> 中国专利> 贝叶斯算法和MapReduce相结合的信任度量方法

贝叶斯算法和MapReduce相结合的信任度量方法

摘要

本发明涉及一种贝叶斯算法和MapReduce相结合的信任度量方法,包括以下步骤:S01:采用贝叶斯过滤算法对移动终端交互中产生的行为记录进行信任度评估,通过统计训练数据集中的先验概率,利用贝叶斯公式计算出其后验概率,选择最大后验概率作为行为记录的信任度;S02:运用带Dirichlet过程的贝叶斯推理算法对可信记录做概率分布评估,得到对移动终端的可信度预测;S03:采用信息增益算法实现特征值的选取。本发明借助云计算平台在信任度计算与存储过程中具有的高效性、安全性与中立性,保证数据的安全存储与高性能计算。

著录项

  • 公开/公告号CN103455842A

    专利类型发明专利

  • 公开/公告日2013-12-18

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN201310397770.X

  • 申请日2013-09-04

  • 分类号G06N3/00(20060101);H04L29/08(20060101);

  • 代理机构35100 福州元创专利商标代理有限公司;

  • 代理人蔡学俊

  • 地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区

  • 入库时间 2024-02-19 21:57:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-21

    未缴年费专利权终止 IPC(主分类):G06N3/00 授权公告日:20150603 终止日期:20190904 申请日:20130904

    专利权的终止

  • 2015-06-03

    授权

    授权

  • 2014-01-15

    实质审查的生效 IPC(主分类):G06N3/00 申请日:20130904

    实质审查的生效

  • 2013-12-18

    公开

    公开

说明书

技术领域

本发明涉及一宗贝叶斯算法和MapReduce相结合的信任度量方法。

背景技术

现有网络信任模型为移动终端间通信信任研究提供了可参考的理论依据,主要分为两个类别:集中式信任度量和分布式信任度量。分布式信任度量是从主观角度出发,结合信任概念对节点的行为属性、行为的交互及结果进行判断,一定程度上实现节点行为的主观可信评估。目前该领域的研究已取得一些重要成果,其中比较有影响力的工作有:EigenTrust,PowerTrust,PeerTrust,R2BTM,DRS(Dirichlet Reputation Systems),FTE(Fuzzy-based Trust Evaluation),PRMGST等。其中DRS考虑到节点的信任评价随时间而衰减,引入时间衰减因子,提出了一种基于Dirichlet概率分布的信任计算方法,有效抑制了恶意节点在累积一定信任度后对网络或其它节点施加恶意行为。考虑到信任概念本身的模糊性,FTE利用模糊理论对信任管理问题进行建模,研究节点的信任初始化机制、信任度量算法,信任动态更新机制。上述研究成果从不同角度,利用不同理论和方法对节点的信任算法进行定义,综合考虑历史交易记录中的直接信任以及推荐节点的间接信任,一定程度上实现节点间的安全互联。

在集中式信任度量方案中,中心化的信任服务器收集各个节点在每次交易完成后的相互信任评价,并对各个节点进行信任度统一计算与存储。例如,ebay采用简单的加权平均法对节点信任值进行计算;Spora系统在ebay算法的基础上,引入时间加权因子,对近期的信任评价赋予更高的权值;Wang在文献中更引入模糊信任理论将节点的信任度按一星到五星5个级别进行划分与计算,更形象地描述端点的信任值。在这些具体方案中,采用不同算法获得的节点最终信任值将为下一次节点间的交互提供可参考的历史依据。

以上信任度量机制在移动网络通信过程中存在一定的局限性。集中式信任度量方案具有结构简单、易于实现等优点,但是该方案可能由于过度依赖少数中心化的信任服务器,容易造成单点故障问题,影响系统的可靠性与可扩展性;其次在大规模、高连接频率的通信服务中,高复杂度的信任度量算法与更新机制可能给信任服务器带来较大负担;节点的网络异构性(比如,移动接入)、连接频率等因素可能会大大增加信任服务器的接入与响应延迟,这降低了终端用户的体验度。相比集中式信任度量机制,分布式信任度量方案不存在单点故障问题,具有更高的可靠性与可扩展性;同时,将信任算法的计算分配给所有的网络节点,因此在系统实际应用中不受信任算法复杂度的影响。但是,该方案也存在两方面局限性:由于缺乏中心化的管理模式,节点间接信任度的获取需要依靠大量的数据发送与采集工作,这增加节点负担的同时也可能造成较高延迟。数据在异地节点存储过程中难以保障数据的机要性、完整性、以及访问过程的便利性,可能直接影响系统的安全性与实际应用性能。

发明内容

有鉴于此,本发明的目的是提供一种贝叶斯算法和MapReduce相结合的信任度量方法。

本发明采用以下方案实现:一种贝叶斯算法和MapReduce相结合的信任度量方法,其特征在于,包括以下步骤:

S01:采用贝叶斯过滤算法对移动终端交互中产生的行为记录进行信任度评估,通过统计训练数据集中的先验概率,利用贝叶斯公式计算出其后验概率,选择最大后验概率作为行为记录的信任度;

S02:运用带Dirichlet过程的贝叶斯推理算法对可信记录做概率分布评估,得到对移动终端的可信度预测;

S03:采用信息增益算法实现特征值的选取。

在本发明一实施例中,所述步骤S01采用基于多变量的伯努利事件模型对行为记录分解所得的属性词集进行处理。

在本发明一实施例中,贝叶斯公式中P(Bi|A)表示求行为记录A出现的概率下是Bi分类的概率,Bi的分类为可信记录B1和不可信记录B2,也就是我们所要求得的后验概率,先验概率P(Bi)可通过统计训练数据获得,似然概率P(A|Bi)可转换为属性词与分类的关系计算,设xk(k=1,2...m)表示行为记录A的属性词,wk为属性词xk在行为记录A中出现的情况,wk=1表示属性词出现,wk=0表示属性词不出现;则有:>P(A|Bi)=Πk=1m(wkP(xk|Bi)+(1-wk)(1-P(xk|Bi))),>其中当xk出现的概率为P(xk|Bi),xk不出现的概率为(1-P(xk|Bi)),那么得:由于Bi的分类为二值分类,因此对P(xk|Bi)作平滑处理可得再根据全概率公式P(A)=P(B1)P(A|B1)+(1-P(B1))P(A|B2),获得行为记录A出现的概率,联立以上式子得到行为记录信任度的解。

在本发明一实施例中,所述步骤S02中,每个可信记录被划分为5个级别:完全信任,比较信任,一般信任,不大信任,不信任,并且每条可信记录由贝叶斯过滤器划分到这五个级别。

在本发明一实施例中,移动终端F与其他终端的可信记录历史信息,我们记为HF,HF={H1,...,Hn},其中Hi表示每一次移动终端F与其他终端间交互产生的交互记录;Hi定义为一个元组<ei,di,ti>,ei为信任级别估计,表示每条行为记录的可信评估,di表示可信记录产生时间,ti记录当前与移动终端F交互的目标节点。

在本发明一实施例中,EG表示目标节点G的可信度,表示云平台上获得的目标节点可信记录分别为5个信任级别时的次数,假设每种级别出现的先验概率分布为均匀分布,即每种出现的概率为1/k;表示目标节点G可信记录分别为5个级别时的随机变量,且∑μi=1;根据Dirichlet分布公式:>f(μ;n,α)=Γ(n)Γ(α1)...Γ(αk)Πi=1kμiαi-1,n=Σi=1kαi,>且>Γ(Z)=0tz-1e-tdt,>可得>EG=E(f)=α5Σi=1kαi,>k=5。

在本发明一实施例中,实际中,“不大信任”级别亦是可信度的负面级别,当其超过一定范围时也可给用户作出预警,因此,我们将对EG作出修改得E’G,表示目标节点超出信任范围的预警评估数,公式如下>EG=E(f)=α4+α5Σi=1kαi,>k=5。

在本发明一实施例中,提出参数Conf,用于判断E’G是否可靠,>conf=1-Var(f)=1-αβ(α+β)2(α+β+1),>其中α=α45,β=α123,即:>conf=1-(α4+α5)(α1+α2+α3)n2(n+1),n=Σi=1kαi,>只有当Conf大于一定的阈值时,E’G值才视为有效,否则移动终端会向云平台发送请求,在云平台上进行可信度计算。

在本发明一实施例中,引入一个权重因子ω,表示时间因素对可信记录的影响,每条可信记录发生的时间为di,则有>αi=Σx=1αiωdi,>ω<1,因此>α=(α1...α5)T>用>α=(α1...α5)T>代替。

在本发明一实施例中,>IG(x)=-Σi=1|C|P(ci)logP(ci)+P(x)Σi=1|C|P(ci|x)logP(ci|x)+P(x)Σi=1|C|P(ci|x)logP(ci|x),>其中表示x不出现的概率,P(x)表示x出现的概率,P(ci|x)表示x出现的情况下文本属于ci分类的概率,表示x不出现的情况下文本属于ci分类的概率,|C|表示类别总数,IG(x)就是属性词x的信息增益值,反映属性词x对整个分类所提供的信息量,因此,IG值越大表示该属性词对整个分类所提供的信息量越大。

本发明与现有技术相比具有如下优点:(1)采用基于内容的贝叶斯过滤算法,结合分词技术,通过统计训练数据获得基于文本内容的分类器,实现移动节点交互中行为记录的过滤以及信任度的计算。

(2)采用带Dirichlet分布的贝叶斯推理算法,获取用户行为记录的信任度概率分布,通过期望值计算对移动用户进行信任度推理,实现低算法复杂度的信任评估。

(3)充分考虑信任随时间而衰减的特性,引入时间权重因子,设计随时间而衰减的信任更新机制,提升信任度量的准确性和模型的动态适应能力。

(4)借助云计算平台在信任度计算与存储过程中具有的高效性、安全性与中立性,保证数据的安全存储与高性能计算。

为使本发明的目的、技术方案及优点更加清楚明白,以下将通过具体实施例和相关附图,对本发明作进一步详细说明。

附图说明

图1是本发明的流程图。

具体实施方式

如图1所示,本发明提供一种贝叶斯算法和MapReduce相结合的信任度量方法,包括以下步骤:

S01:采用贝叶斯过滤算法对移动终端交互中产生的行为记录进行信任度评估,通过统计训练数据集中的先验概率,利用贝叶斯公式计算出其后验概率,选择最大后验概率作为行为记录的信任度;

S02:运用带Dirichlet(狄利克雷函数)过程的贝叶斯推理算法对可信记录做概率分布评估,得到对移动终端的可信度预测;

S03:采用信息增益算法实现特征值的选取。

首先针对移动终端交互而产生的行为记录,需要对其做信任初始化计算。考虑到信任具有的模糊特性,需要定义一定标准的分类器,对每个行为记录进行计算,获得其属于各类别的概率。贝叶斯分类器就是通过统计训练记录中的先验概率,利用贝叶斯公式计算出其后验概率,选择具有最大后验概率的类作为行为记录所属的类,从而可以将后验概率作为行为记录的信任度。

对于试验E中的A事件,其样本空间S可划分为B1,B2,...,Bn,并且P(A)>0,P(Bi)>0,(i=1,...,n)的情况下,其贝叶斯公式为:

>P(Bi|A)=P(Bi)P(A|Bi)Σj=1nP(A|Bj)P(Bj),j=1,...,n>

>P(A)=Σj=1nP(A|Bi)P(Bj),j=1,...,n;>

其中A表示为单条的行为记录,而样本空间S将划分为两个分类,信任行为与不信任行为。P(Bi)表示该类行为记录在训练集中出现的概率,那么P(Bi|A)就是求行为记录A出现的情况下是Bi分类的概率,实际上就是对记录A进行分类,计算A在各个分类上的概率,取概率大的后验概率作为A的分类。

优选的,所述步骤S01采用基于多变量的伯努利事件模型对行为记录分解所得的属性词集进行处理。

贝叶斯公式中P(Bi|A)表示求行为记录A出现的概率下是Bi分类的概率,Bi的分类为可信记录B1和不可信记录B2,也就是我们所要求得的后验概率,先验概率P(Bi)可通过统计训练数据获得,似然概率P(A|Bi)可转换为属性词与分类的关系计算,设xk(k=1,2...m)表示行为记录A的属性词,wk为属性词xk在行为记录A中出现的情况,wk=1表示属性词出现,wk=0表示属性词不出现;则有:>P(A|Bi)=Πk=1m(wkP(xk|Bi)+(1-wk)(1-P(xk|Bi))),>其中当xk出现的概率为P(xk|Bi),xk不出现的概率为(1-P(xk|Bi)),那么得:由于Bi的分类为二值分类,因此对P(xk|Bi)作平滑处理可得再根据全概率公式P(A)=P(B1)P(A|B1)+(1-P(B1))P(A|B2),获得行为记录A出现的概率,联立以上式子得到行为记录信任度的解。

优选的,所述步骤S02中,每个可信记录被划分为5个级别:完全信任,比较信任,一般信任,不大信任,不信任,并且每条可信记录由贝叶斯过滤器划分到这五个级别。

Dirichlet分布通过其概率密度函数能够有效描述多元事件的概率分布。贝叶斯推理是一种统计方法,其能够综合新数据与旧数据对当前状态进行更新和重定义,此过程可反复进行。此方法可在当前所观测到的分布情况下对潜在的分布作出合理的评估。Dirichlet分布可以在贝叶斯推理中被用于先验分布,反过来亦可用其推理出结论。在本文中,我们采用贝叶斯推理中的Dirichlet分布对记录的级别走势进行分析与评估,实现对用户节点的信任度推理。移动终端A每一次的交互都会产生一条信任交互记录,信任交互记录将由3维变量{可信度,产生时间,目标节点}来表示,并根据贝叶斯过滤算法划分到5个不同信任级别中。

移动终端F与其他终端的可信记录历史信息,我们记为HF,HF={H1,...,Hn},其中Hi表示每一次移动终端F与其他终端间交互产生的交互记录;Hi定义为一个元组<ei,di,ti>,ei为信任级别估计,表示每条行为记录的可信评估,“完全信任”的ei值为1,“比较信任”的ei值为2,“一般信任”的ei值为3,“不大信任”的ei值为4,“不信任”的ei值为5,di表示可信记录产生时间,ti记录当前与移动终端F交互的目标节点。

EG表示目标节点G的可信度,表示云平台上获得的目标节点可信记录分别为5个信任级别时的次数,假设每种级别出现的先验概率分布为均匀分布,即每种出现的概率为1/k。表示目标节点G可信记录分别为5个级别时的随机变量,且∑μi=1;根据Dirichlet分布公式:>f(μ;n,α)=Γ(n)Γ(α1)...Γ(αk)Πi=1kμiαi-1,n=Σi=1kαi,>且>Γ(Z)=0tz-1e-tdt,>可得>EG=E(f)=α5Σi=1kαi,>k=5。如果该值超过一定的阈值,那么就表示该目标节点不可信。

实际中,“不大信任”级别亦是可信度的负面级别,当其超过一定范围时也可给用户作出预警,因此,我们将对EG作出修改得E’G,表示目标节点超出信任范围的预警评估数,公式如下>EG,=E(f)=α4+α5Σi=1kαi,>k=5。

考虑到对信任度估计只有在信息量越足的情况下结果越精确,因此对于新加入节点,我们引入Conf参数,用于判断该E’A是否可靠。Conf的值低则表明当前信息量不足以进行评估。>conf=1-Var(f)=1-αβ(α+β)2(α+β+1),>其中α=α45,β=α123,即:>conf=1-(α4+α5)(α1+α2+α3)n2(n+1),n=Σi=1kαi,>只有当Conf大于一定的阈值时,E’G值才视为有效,否则移动终端会向云平台发送请求,在云平台上进行可信度计算。

同时,还可以引入一个权重因子ω,表示时间因素对可信记录的影响,每条可信记录发生的时间为di,则有>αi=Σx=1αiωdi,>ω<1,因此>α=(α1...α5)T>用>α=(α1...α5)T>代替。

所述步骤S03采用信息增益算法实现特征值的选取,在本发明中。优选的,>IG(x)=-Σi=1|C|P(ci)logP(ci)+P(x)Σi=1|C|P(ci|x)logP(ci|x)+P(x)Σi=1|C|P(ci|x)logP(ci|x),>其中表示x不出现的概率,P(x)表示x出现的概率,P(ci|x)表示x出现的情况下文本属于ci分类的概率,表示x不出现的情况下文本属于ci分类的概率,|C|表示类别总数,IG(x)就是属性词x的信息增益值,反映属性词x对整个分类所提供的信息量,因此,IG值越大表示该属性词对整个分类所提供的信息量越大。

上列较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号