首页> 中国专利> 一种基于IP信誉值的邮件反垃圾方法及系统

一种基于IP信誉值的邮件反垃圾方法及系统

摘要

本发明实施例提供一种基于IP信誉值的邮件反垃圾方法及系统,所述方法包括:识别发件方的IP地址;查询缓存中的分类信息;所述分类信息包括指定时间段内所接收邮件对应的IP地址及所述IP地址是否正常的标识;若在所述缓存中不能查到该发件方IP地址,则根据基于实时黑名单的IP历史记录及衰减值计算该发件方IP地址的信誉值,得到其分类信息;若该IP地址的分类信息为正常,则进行后续反垃圾程序;若该IP地址的分类信息为非正常,则将所述邮件丢弃。通过该方法,不仅保持了实时黑名单简便高效的优点,还可根据已知黑名单发现未知黑名单,大幅降低了误判率和漏判率,提高了邮件收发质量。

著录项

  • 公开/公告号CN105610833A

    专利类型发明专利

  • 公开/公告日2016-05-25

    原文格式PDF

  • 申请/专利权人 新浪网技术(中国)有限公司;

    申请/专利号CN201511020898.X

  • 发明设计人 刘洋;

    申请日2015-12-30

  • 分类号H04L29/06(20060101);H04L12/58(20060101);

  • 代理机构北京和信华成知识产权代理事务所(普通合伙);

  • 代理人胡剑辉

  • 地址 100080 北京市海淀区北四环西路58号理想国际大厦20层

  • 入库时间 2023-12-18 15:33:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-02

    专利权的转移 IPC(主分类):H04L29/06 专利号:ZL201511020898X 登记生效日:20230419 变更事项:专利权人 变更前权利人:新浪网技术(中国)有限公司 变更后权利人:新浪技术(中国)有限公司 变更事项:地址 变更前权利人:100080 北京市海淀区北四环西路58号理想国际大厦20层 变更后权利人:100193 北京市海淀区东北旺西路中关村软件园二期(西扩)N-1、N-2地块新浪总部科研楼5层501-502室

    专利申请权、专利权的转移

  • 2019-01-18

    授权

    授权

  • 2016-06-22

    实质审查的生效 IPC(主分类):H04L29/06 申请日:20151230

    实质审查的生效

  • 2016-05-25

    公开

    公开

说明书

技术领域

本发明涉及反垃圾邮件技术领域,具体涉及一种基于IP信誉值的邮件反垃圾方法及系 统。

背景技术

电子邮件作为网络通信的基础应用,方便了人们的交流沟通。随之产生了垃圾邮件的 问题。垃圾邮件,即那些人们没有意愿去接收的电子邮件,严重干扰了人们的正常生活, 浪费用户的时间,造成经济损失。因而,反垃圾邮件技术应运而生。

当前,反垃圾邮件系统主要采用IP过滤、账号黑白名单、关键词匹配、贝叶斯分类算 法等技术。其中,基于IP地址的垃圾邮件过滤,因实施简便、资源消耗少、计算速度快等 优点,得以广泛应用。

目前,基于IP地址的邮件反垃圾系统,主要有基于单IP的流量控制、以及IP黑名单 两种方式。一,基于单IP流量控制的方式,即对每个IP最近一段时间(如5分钟、1小 时、1天)内的发信量进行控制,设置一段时间内发信量的阈值,将超出阈值的邮件判定 为垃圾邮件。二,基于IP黑名单的方式,即维护一个IP实时黑名单(RBL),将发信IP 在RBL中的邮件判定为垃圾邮件,从而进行垃圾邮件的控制和过滤。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

基于单IP流量控制的方式,因各IP的发信量差异很大,使用统一的流量控制标准, 一方面,阈值不易确定;另一方面,容易拦截正常邮件,放过垃圾邮件。基于IP黑名单的 方式,同一个IP很可能既发垃圾邮件也发好邮件,列入黑名单IP的失效时间不易把握; 公开的IP黑名单针对全网邮件,不能解决自己邮件系统的特有问题。当前两种方式都是基 于单个IP的,没有利用IP地址分级的特点,不能根据已知IP黑名单发现未知黑名单。综 上,现有技术方案简单直接,但存在较高的误判率和漏判率,影响了用户体验。

发明内容

本发明实施例提供一种基于IP信誉值的邮件反垃圾方法及系统,基于IP实时黑名单, 从时域和空域分析IP行为,计算邮件IP地址的信誉值进行二分类,以增加垃圾邮件的过 滤量,减少正常邮件的拦截量,提升邮箱用户的使用体验。

一方面,本发明实施例提供了一种基于IP信誉值的邮件反垃圾方法,包括:

识别发件方IP地址;

查询缓存中的分类信息,确认所述发件方IP地址是否正常;所述分类信息包括指定时 间段内所接收邮件对应的IP地址及所述IP地址是否正常的标识;若在所述缓存中不能查 到该发件方IP地址,则进行IP分类计算,得到该发件方IP地址的分类信息,具体包括:

查询邮件服务器保存的IP历史记录中,该发件方IP地址出现的历史时刻的列表;

计算每个历史时刻相对当前时刻的衰减值;

查询该发件方IP地址所属的类别包含的IP个数;

根据所述历史时刻的列表、每个历史时刻相对当前时刻的衰减值以及发件方IP地址所 属的类别包含的IP个数,计算该发件方IP地址的信誉值以及该发件方IP地址所属类别的 信誉值;

根据所述信誉值对所述发件方IP地址进行二分类,得到其分类信息并写入所述缓存 中;

若该发件方IP地址的分类信息为正常,则进行后续反垃圾程序;若该发件方IP地址 的分类信息为非正常,则将所述邮件丢弃。

优选的,所述计算该发件方IP地址的信誉值以及该发件方IP地址所属类别的信誉值 具体通过如下公式:

c=0或1;c=0时,r0为该发件方IP地址的信誉值;c=1 时r1为该发件方IP地址所属类别的信誉值;其中,

hist(x,c)=<t1,t2,t3,…>,为发件方IP地址出现的历史时刻的列表,c=0或1;其 中,c=0表示计算该发件方IP地址出现的历史时刻的列表,c=1表示计算该发件方IP地址 所属类别包括的所有IP地址出现的历史时刻的列表;

decay(t,h)=2-(tnow-t)/h,为每个历史时刻t相对当前时刻tnow的衰减值,其中,h为 衰减因子,其单位与时间差的单位相同;

size(x,c),c=0或1;其中,c=0时,size(x,c)=1,c=1时表示查询所述发件方IP地 址所述类别包含的IP个数。

可选的:

当tnow-t>d时,t相对当前时刻tnow的衰减值:

否则,decay(t,h)=1;其中,d为所述邮件服务器中记录的该发件方IP地址的失效 时间。

优选的,所述计算该发件方IP地址的信誉值以及该发件方IP地址所属类别的信誉值 还包括以下步骤:

计算归一化信誉值:

其中,MAX为r0和r1的最大值:

可选的,所述缓存中还包括白名单,用于存储可信任发件服务器的外发IP地址以及误 判的非正常发件方IP地址;

以及,在所述查询缓存中的分类信息之前,还包括:确认所述发件方IP地址未在所述 白名单中。

另一方面,本发明实施例提供了一种基于IP信誉值的邮件反垃圾系统,包括:

邮件服务器,用于识别发件方IP地址;

IP过滤单元,用于查询缓存中的分类信息,确认所述发件方IP地址是否正常;所述 分类信息包括指定时间段内所接收邮件对应的IP地址及所述IP地址是否正常的标识;IP 分类器,用于当所述缓存中不能查到该发件方IP地址时,则进行IP分类计算,得到该发 件方IP地址的分类信息;

该IP分类器包括:

历史记录查询子单元,用于查询邮件服务器保存的IP历史记录中,该发件方IP地址 出现的历史时刻的列表;

历史记录衰减值计算子单元,用于计算每个历史时刻相对当前时刻的衰减值;

同类别IP个数查询子单元,用于查询该发件方IP地址所属的类别包含的IP个数;

信誉值计算子单元,用于根据所述历史时刻的列表、每个历史时刻相对当前时刻的衰 减值以及发件方IP地址所属的类别包含的IP个数,计算该发件方IP地址的信誉值以及该 发件方IP地址所属类别的信誉值;

二分类器,用于根据所述信誉值对所述发件方IP地址进行二分类,得到其分类信息并 写入所述缓存中;

后续反垃圾单元,用于当该发件方IP地址的分类信息为正常时,进行后续反垃圾程序;

垃圾邮件处理单元,用于当该发件方IP地址的分类信息为非正常时,将所述邮件丢弃。

可选的,所述信誉值计算子单元用于通过以下公式计算该发件方IP地址的信誉值以及 该发件方IP地址所属类别的信誉值:

c=0或1;c=0时,r0为该发件方IP地址的信誉值;c=1 时r1为该发件方IP地址所属类别的信誉值;其中,

hist(x,c)=<t1,t2,t3,…>,为发件方IP地址出现的历史时刻的列表,c=0表示计算 该发件方IP地址出现的历史时刻的列表,c=1表示计算该发件方IP地址所属类别包括的 所有IP地址出现的历史时刻的列表;

decay(t,h)=2-(tnow-t)/h,为每个历史时刻t相对当前时刻tnow的衰减值,其中,h为 衰减因子,其单位与时间差的单位相同;

当c=0时,size(x,c)=1,c=1时size(x,c)表示查询所述发件方IP地址所述类别包含 的IP个数。

可选的,所述历史记录衰减值计算子单元进行衰减值计算时:

若tnow-t>d,则t相对当前时刻tnow的衰减值:

否则,decay(t,h)=1;其中,d为所述邮件服务器中记录的该发件方IP地址的失效 时间。

优选的,所述信誉值计算子单元还用于:

计算归一化信誉值:

其中,MAX为r0和r1的最大值:

可选的,所述缓存中还包括白名单,用于存储可信任发件服务器的外发IP地址以及误 判的非正常发件方IP地址;

以及,所述IP过滤单元还用于在所述查询缓存中的分类信息之前,确认所述发件方IP 地址未在所述白名单中。

上述技术方案具有如下有益效果:因采用了根据基于实时黑名单的IP历史记录及衰减 值结合计算信誉值来进行IP地址分类的技术手段,所以不仅保持了实时黑名单简便高效的 优点,还可根据已知黑名单发现未知黑名单,大幅降低了误判率和漏判率,提高了邮件收 发质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。

图1是本发明实施例一,一种基于IP信誉值的邮件反垃圾方法流程示意图;

图2是本发明实施例二,一种基于IP信誉值的邮件反垃圾系统的结构图;

图3是本发明实施例三,一种基于IP信誉值的邮件反垃圾方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。

针对现有技术方案存在的不足,本方案基于IP实时黑名单,从时域和空域分析IP行 为,通过自动化收集IP行为数据,对IP聚类,使用分类工具,解决当前基于IP地址的反 垃圾邮件系统存在的高误判率和高漏判率问题,增加垃圾邮件的过滤量,减少正常邮件的 拦截量,提升邮箱用户的使用体验。

研究发现,发送垃圾发件方的IP地址具有时域和空域特征。一方面,在时域上,一个 IP地址发送过垃圾邮件,后续很可能会继续发送垃圾邮件,期间可能不发邮件或发好邮件, 即一个IP会列入实时黑名单列表(RealtimeBlackholeList,RBL),会过期,会再次被列 入。另一方面,在空域上,IP地址的分配划分具有层次,一段连续的IP很可能在一个子 网下,并被用来发送邮件。例如,某发信服务器用17.171.37.61-17.171.37.90进行发信;同 时,发送垃圾邮件的IP很多情况下具有连续性,即若211.93.3.242发送垃圾邮件,则附近 IP211.93.3.241、211.93.3.243很可能也会发送垃圾。

本方案正是利用IP地址上述的时域和空域特征,在IP实时黑名单的基础上,只考虑 发垃圾发件方的IP地址,对其进行时域和空域分析,计算信誉值,从而对IP地址分类, 进而过滤垃圾邮件。

以下结合附图对本发明进行详细阐述。

实施例一

图1为本实施例,一种基于IP信誉值的邮件反垃圾方法的流程示意图,如图所示:

包括步骤101,识别发件方IP地址;

步骤102,查询缓存中的分类信息,确认所述发件方IP地址是否正常;所述分类信息 包括指定时间段内所接收邮件对应的IP地址及所述IP地址是否正常的标识;

本实施例优选的,所述指定时间段为最近的一个时间段,如,缓存中记录的是最近一 个小时内接收邮件对应的IP地址,并包括其是否正常的标识。

若在所述缓存中不能查到该发件方IP地址,则进入步骤103;

若该发件方IP地址的分类信息为正常,则进入步骤104;否则进入步骤105;

步骤103,IP分类计算;

通过IP分类计算得到该发件方IP地址的分类信息,并将得到的分类信息写入缓存中;

包括:

步骤1031,查询邮件服务器保存的IP历史记录中,该发件方IP地址出现的历史时刻 的列表。

该列表可用公式表示为hist(x,c)=<t1,t2,t3,…>,c=0或1;其中,c=0表示计算该 发件方IP地址出现的历史时刻的列表,c=1表示计算该发件方IP地址所属类别中所有IP 地址的历史出现的历史时刻的列表;

邮件服务器保存的IP历史记录包括实时黑名单列表RBL以及部分已经过期的RBL;

比如,RBL保存的是1个月内的黑名单,而IP历史记录保存的是3个月的黑名单, 而该3个月的黑名单包括最近的一个月内的黑名单RBL,以及已经过期的2个月的黑名单, 即,IP历史记录的数据来源是RBL,但比RBL的时间区间更长。

需要说明的是,这里的IP历史记录以及RBL都是黑名单的列表,而上边提到的缓存 中的分类信息是接收到的所有邮件的IP地址信息;且优选的,缓存仅记录1个小时的数据, 而RBL记录1个月的数据,IP历史记录记录3个月的数据。

本实施例使用的RBL包括三个来源:

1、spamhaus(一个国际性非营利组织,其主要任务是跟踪国际互联网的垃圾邮件团伙, 实时黑名单技术,协助执法机构辨别,追查全世界的垃圾邮件);

2、spamcop(同spamhaus一样,是一个非盈利组织);

3、邮件系统其他反垃圾模块(如账号黑名单,关键词过滤,内容过滤等)的反馈。

优选的,IP历史记录只保存最近一段时期内(如3个月)的记录,一方面可以减少存 储量和计算量,另一方面,超过一定时期的记录对计算IP信誉值的影响很小。系统根据发 件方IP地址获取其是否在spamhaus、spamcop中,若在则记录至上述RBL中。邮件系统 其他反垃圾模块定期(如10分钟)反馈发送过垃圾邮件的IP信息,记录至上述RBL中, 得到完整的IP历史记录。

实时黑名单列表RBL是有时效性的,一个IP这段时间发出的是垃圾邮件,但另一段 时间可能发出的是好邮件,因此RBL中的IP记录会实时动态变化。另外,一个IP列入 RBL后,近期很可能会再次被列入。因此记录并运用IP的历史行为,而不是只依据当前 生效的RBL,将提高垃圾邮件的拦截量,降低好邮件的误判量。

步骤1032,计算每个历史时刻相对当前时刻的衰减值;

优选的,每个历史时刻t相对当前时刻tnow的衰减值可根据如下公式计算:

decay(t,h)=2-(tnow-t)/h;其中,h为衰减因子,其单位与时间差的单位相同;即,IP 列入RBL的时间越长,对计算信誉值的影响越小。

步骤1033,查询该发件方IP地址所属的类别包含的IP个数;

优选的,可表示为,size(x,c),c=0或1;其中,c=0时,size(x,c)=1,c=1时表示 查询所述发件方IP地址所述类别包含的IP个数;

步骤1034,根据所述历史时刻的列表、每个历史时刻相对当前时刻的衰减值以及发件 方IP地址所属的类别包含的IP个数,计算该发件方IP地址的信誉值以及该发件方IP地 址所属类别的信誉值;

优选的,可根据以下公式计算:

c=0或1;其中,c=0时,r0为该发件方IP地址的信誉 值;c=1时r1为该发件方IP地址所属类别的信誉值;

步骤1035,根据所述信誉值对所述发件方IP地址进行二分类,得到其分类信息并写 入所述缓存中。

步骤104,进行后续反垃圾程序;

步骤105,将所述邮件丢弃。

可选的,该发件方IP地址所属类别为所述邮件的发件服务器域名对应的IP聚类或所 述邮件的后缀对应的IP聚类;和/或,与该发件方IP地址属同一自治系统AS的IP聚类。

本实施例优选的,IP聚类包括两类数据:

发件方服务器和账号的域名。

如alibaba发件服务器的域名有XXX.mail.alibaba.com,则根据服务器域名信息,可对 相同域名下的IP地址聚类。mail225-129.mail.alibaba.com对应IP42.156.225.129, mail232-237.mail.alibaba.com对应IP42.120.232.237,从而将42.156.225.129和 42.120.232.237聚成一类,并且分配惟一类值。

同样,邮箱账号的后缀也可以用来聚类IP。例如,通过账号XXXsc0101.com,可将 23.228.67.20-23.228.67.30聚成一类。

路由信息

在互联网中,一个自治系统(AutonomousSystem,AS)是一个有权自主地决定在本系 统中应采用何种路由协议的小型单位。因此,属于同一AS下的IP地址具有高度相关性。

可选的:

当tnow-t>d时,t相对当前时刻tnow的衰减值:

否则,decay(t,h)=1;其中,d为所述邮件服务器中记录的该发件方IP地址的失效 时间。

优选的,所述根据该信誉值对发件方IP地址进行二分类包括:

计算归一化信誉值:

其中,MAX为r0和r1的最大值:

可选的,所述缓存中包括白名单,用于存储可信任发件服务器的外发IP地址以及误判 的非正常发件方IP地址。

上述技术方案具有如下有益效果:因采用了根据基于实时黑名单的IP历史记录及衰减 值结合计算信誉值来进行IP地址分类的技术手段,所以不仅保持了实时黑名单简便高效的 优点,还可根据已知黑名单发现未知黑名单,大幅降低了误判率和漏判率,提高了邮件收 发质量。

实施例二

图2为本发明实施例一种基于IP信誉值的邮件反垃圾系统的结构图,如图所示,包括:

邮件服务器201,用于识别发件方IP地址;

IP过滤单元202,用于查询缓存中的分类信息,确认所述发件方IP地址是否正常;所 述分类信息包括指定时间段内所接收邮件对应的IP地址及所述IP地址是否正常的标识; 本实施例优选的,所述指定时间段为最近的一个时间段,如,缓存中记录的是最近一个小 时内接收邮件对应的IP地址,并包括其是否正常的标识。

IP分类器203,用于当所述缓存中不能查到该发件方IP地址时,则进行IP分类计算, 得到该发件方IP地址的分类信息并写入所述缓存中;

该IP分类器包括:

历史记录查询子单元2031,用于查询邮件服务器保存的IP历史记录中,该发件方IP 地址出现的历史时刻t的列表hist(x,c)=<t1,t2,t3,…>,c=0或1;其中,c=0表示计算 该发件方IP地址的出现的历史时刻的列表,c=1表示计算该发件方IP地址所属类别中所 有IP地址出现的历史时刻的列表;

邮件服务器保存的IP历史记录包括实时黑名单列表RBL,以及部分已过期的RBL。

比如,RBL保存的是1个月内的黑名单,而IP历史记录保存的是3个月的黑名单, 而该3个月的黑名单包括最近的一个月内的黑名单RBL,和已经过期的2个月的黑名单, 即,IP历史记录的数据来源是RBL,但比RBL的时间区间更长。

需要说明的是,这里的IP历史记录以及RBL都是黑名单的列表,而上边提到的缓存 中的分类信息是接收到的所有邮件的IP地址信息;且优选的,缓存仅记录1个小时的数据, 而RBL记录1个月的数据,IP历史记录记录3个月的数据。

本实施例使用的RBL包括三个来源:

1、spamhaus(一个国际性非营利组织,其主要任务是跟踪国际互联网的垃圾邮件团伙, 实时黑名单技术,协助执法机构辨别,追查全世界的垃圾邮件);

2、spamcop(同spamhaus一样,是一个非盈利组织);

3、邮件系统其他反垃圾模块(如账号黑名单,关键词过滤,内容过滤等)的反馈。

优选的,IP历史记录只保存最近一段时期内(如3个月)的记录,一方面可以减少存 储量和计算量,另一方面,超过一定时期的记录对计算IP信誉值的影响很小。系统根据发 件方IP地址获取其是否在spamhaus、spamcop中,若在则记录至上述RBL中。邮件系统 其他反垃圾模块定期(如10分钟)反馈发送过垃圾邮件的IP信息,记录至上述RBL中, 得到完整的IP历史记录。

实时黑名单列表RBL是有时效性的,一个IP这段时间发出的是垃圾邮件,但另一段 时间可能发出的是好邮件,因此RBL中的IP记录会实时动态变化。另外,一个IP列入 RBL后,近期很可能会再次被列入。因此记录并运用IP的历史行为,而不是只依据当前 生效的RBL,将提高垃圾邮件的拦截量,降低好邮件的误判量。

历史记录衰减值计算子单元2032,用于计算每个历史时刻t相对当前时刻tnow的衰减 值decay(t,h)=2-(tnow-t)/h;其中,h为衰减因子,其单位与时间差的单位相同;即,IP 列入RBL的时间越长,对计算信誉值的影响越小。

同类别IP个数查询子单元2033,用于查询该发件方IP地址所属的类别包含的IP个数 size(x,c),c=0或1;其中,c=0时,size(x,c)=1,c=1时表示查询所述发件方IP地址所 述类别包含的IP个数;

信誉值计算子单元2034,用于计算该发件方IP地址的信誉值以及该发件方IP地址所 属类别的信誉值:c=0或1;其中,c=0时,r0为该发件方IP 地址的信誉值;c=1时r1为该发件方IP地址所属类别的信誉值;

二分类器2035,用于根据所述信誉值对所述发件方IP地址进行二分类,得到其分类 信息并写入所述缓存中;

后续反垃圾单元204,用于当该发件方IP地址的分类信息为正常时,进行后续反垃圾 程序;

垃圾邮件处理单元205,用于当该发件方IP地址的分类信息为非正常时,将所述邮件 丢弃。

可选的,该发件方IP地址所属类别为所述邮件的发件服务器域名对应的IP聚类或所 述邮件的后缀对应的IP聚类;和/或,与该发件方IP地址属同一自治系统AS的IP聚类。

本实施例优选的,IP聚类包括两类数据:

发件方服务器和账号的域名。

如alibaba发件服务器的域名有XXX.mail.alibaba.com,则根据服务器域名信息,可对 相同域名下的IP地址聚类。mail225-129.mail.alibaba.com对应IP42.156.225.129, mail232-237.mail.alibaba.com对应IP42.120.232.237,从而将42.156.225.129和 42.120.232.237聚成一类,并且分配惟一类值。

同样,邮箱账号的后缀也可以用来聚类IP。例如,通过账号XXXsc0101.com,可将 23.228.67.20-23.228.67.30聚成一类。

路由信息

在互联网中,一个自治系统(AutonomousSystem,AS)是一个有权自主地决定在本系 统中应采用何种路由协议的小型单位。因此,属于同一AS下的IP地址具有高度相关性。

可选的,所述历史记录衰减值计算子单元进行衰减值计算时:

若tnow-t>d,则t相对当前时刻tnow的衰减值:

否则,decay(t,h)=1;其中,d为所述邮件服务器中记录的该发件方IP地址的失效 时间。

优选的,所述信誉值计算子单元还用于:

计算归一化信誉值:

其中,MAX为r0和r1的最大值:

可选的,所述缓存中包括白名单,用于存储可信任发件服务器的外发IP地址以及误判 的非正常发件方IP地址;

以及,所述IP过滤单元202还用于在所述查询缓存中的分类信息之前,确认所述发件 方IP地址未在所述白名单中。

上述方案有如下有益效果:

因采用了根据基于实时黑名单的IP历史记录及衰减值结合计算信誉值来进行IP地址 分类的技术手段,所以不仅保持了实时黑名单简便高效的优点,还可根据已知黑名单发现 未知黑名单,大幅降低了误判率和漏判率,提高了邮件收发质量。

实施例三

以下将结合一具体IP历史记录对上述过程进行更具体的阐释。

图3为本发明实施例三,一种基于IP信誉值的邮件反垃圾方法的流程图。

如图所示,包括以下步骤:

步骤301,邮件服务器接收邮件,识别发件方的IP地址为211.93.3.240;

步骤302,经查询,在缓存中不能查到该发件方IP地址;所述分类信息包括指定时间 段内所接收邮件对应的IP地址及所述IP地址是否正常的标识;

本实施例优选的,所述指定时间段为最近的一个时间段,比如缓存中的分类信息包括 1小时内所有的IP地址信息以及其是否为正常IP的标识。经查询,缓存中的最近一小时 的IP记录中没有该发件方IP。

步骤303,进行IP分类计算,得到该发件方IP地址的分类信息;

步骤3031,查询邮件服务器保存的IP历史记录中,该发件方IP地址出现的历史时刻 t的列表;

邮件服务器保存的IP历史记录包括实时黑名单列表RBL,以及部分已过期的RBL。

需要说明的是,这里的IP历史记录以及RBL都是黑名单的列表,而上边提到的缓存 中的分类信息是接收到的所有邮件的IP地址信息;且优选的,缓存仅记录1个小时的数据, 而RBL记录1个月的数据,IP历史记录记录3个月的数据。

本实施例使用的RBL包括三个来源:

1、spamhaus(一个国际性非营利组织,其主要任务是跟踪国际互联网的垃圾邮件团伙, 实时黑名单技术,协助执法机构辨别,追查全世界的垃圾邮件);

2、spamcop(同spamhaus一样,是一个非盈利组织);

3、邮件系统其他反垃圾模块(如账号黑名单,关键词过滤,内容过滤等)的反馈。

本实施例的RBL是一个数据库mysql,其保存格式如表1所示。

表1

表1中,id是自增主键,用来计数。IP值即IP地址,所属类值,是IP地址所属的一 个IP聚类的值。

以下对本实施例的IP聚类进行说明:

IP地址的分配是分层的,互联网管理注册机构、运营商在给用户或组织分配IP地址 时,按A、B、C、D类地址层层分配的,通常一段连续的IP地址会被分配给同一用户或组 织。一段连续的IP地址很可能被同一个邮件服务商使用,可以通过发件方账号的域名, 以及路由信息获取。因此基于IP地址的空域特征,对IP聚类,从而挖掘出更多发垃圾邮 件的IP,提高垃圾邮件的拦截量。综上,本实施例的IP聚类包括以下两种方式:

1、发件方服务器和账号的域名

如alibaba发件服务器的域名有XXX.mail.alibaba.com,则根据服务器域名信息, 可对相同域名下的IP地址聚类。mail225-129.mail.alibaba.com对应IP42.156.225.129, mail232-237.mail.alibaba.com对应IP42.120.232.237,从而将42.156.225.129和 42.120.232.237聚成一类,并且分配惟一类值。同样,邮箱账号的后缀也可以用来聚类 IP。如,通过账号XXXsc0101.com,可将23.228.67.20-23.228.67.30聚成一类。

2、路由信息

在互联网中,一个自治系统(AutonomousSystem,AS)是一个有权自主地决定在本系 统中应采用何种路由协议的小型单位。因此,属于同一AS下的IP地址聚成一类。

优选的,RBL保存1个月的记录,而IP历史记录保存3个月的记录,该3个月的记 录中,最近一个月为RBL,之前的2个月为已过期的RBL。一方面可以减少存储量和计算 量,另一方面,超过一定时期的记录对计算IP信誉值的影响很小。系统根据发件方IP地 址获取其是否在spamhaus、spamcopRBL中,若在则记录至上述数据库表中。邮件系统其 他反垃圾模块定期(如10分钟)反馈发送过垃圾邮件的IP信息,记录至上述数据库表中, 得到完整的IP历史记录。

本实施例的历史记录如表2所示:

表2

历史时刻t的列表可用函数表示为hist(x,c)。

根据IP地址的属性,IP信誉值分两种,一种是单IP信誉值R0,一种是所属类别信誉 值R1。两种信誉值的计算方法类似,范围不同。相对应的,c=0或1;其中,c=0表示计算 该发件方IP地址出现的历史时刻的列表,c=1表示计算该发件方IP地址所属类别中所有 IP地址出现的历史时刻的列表;

本实施例发件方的IP地址为211.93.3.240,所以,hist(211.93.3.240,0)=<2015- 10-0109:00:00,2015-10-0909:00:00>,因为表中关于211.93.3.240的记录有条 目1和条目3,hist(211.93.3.240,1)=<2015-10-0109:00:00,2015-10- 0809:00:00,2015-10-0909:00:00>,因为211.93.3.240属于类别1000,而表中关 于类别1000的记录有条目1、条目2和条目3。

步骤3032,分别计算上述各历史时刻t的衰减值。

该衰减值可用函数表示为decay(t,h)=2-(tnow-t)/h。其中h(h>0)为衰减因子,单位与 时间差相同,h值越大,衰减速度越慢,本实施例优选为2天。

本实施例优选的,定义一个RBL的失效时间d=3天。当tnow-t<d时,即IP还没有失效, 令衰减值等于1。由此可知,衰减值的取值范围是[0,1],并且呈指数递减,即IP列入RBL 的时间越长,对计算信誉值的影响越小。

本实施例的当前时刻为tnow=2015-10-1009:00:00,则:

decay(2015-10-0109:00:00,h)=2-9/h,decay(2015-10-0909:00:00,h)=1。

步骤3033,查询类别1000的size值。

为统一表达和计算,令c=0时的size为1。

可用函数表示为size(x,c)=size(211.93.3.240,0)=1,size(211.93.3.240,1)=55。

步骤3034,根据上述函数,计算IP地址211.93.3.240以及类1000的信誉值,

rc(x)=Σthist(x,c)decay(th)size(xc);

如上所述,c=0时为IP地址211.93.3.240的信誉值R0,c=1时为类别1000的信誉值 R1。即,

r0(211.93.3.240)=1+2-9/21;r1(211.93.3.240)=1+1+2-9/255;

将以上两个值进行归一化处理,得到归一化的信誉值R0,R1

因为上述计算值大于1,为统一标准,进行归一化处理,即使R0,R1的取值范围为[0-1]。 经数学计算可得,R0,R1的最大值均为

MAX=11-2-d/h=1.547,

同时,为了使高信誉值对应高质量,发垃圾少,进行如下归一化,

R=1-rMAX;

将之前计算的r0、r1带入上式,即可得到归一化后的R0=0.325,R1=0.976。

步骤3035,根据所述信誉值对所述发件方IP地址进行二分类,得到其分类信息为正 常;

本实施例优选的,采用逻辑回归(LogisticRegression,LR)分类算法,经过训练阶段 后得到分类器:CLS=b+w0×R0+w1×R1,其中参数b=-0.400,w0=0.600,w1=0.250。根据 该分类器,若CLS>=0,表明IP信誉值高,则IP正常;反之,若CLS<0,表明IP信誉值 低,则IP非正常。

将计算得到的R0、R1值应用于上述分类器中,得到CLS=0.039>=0,故判别此IP地址 正常,进入步骤304。

同时,更新缓存,将该IP地址及其正常的信息写入缓存中。

步骤304,进行后续反垃圾程序。

本实施例可以达到以下有益效果:

本方案充分利用IP地址的时域和空域特性,采用了根据基于实时黑名单的IP历史记 录及衰减值结合计算信誉值来进行IP地址分类的技术手段,优化改进当前的IP实时黑名 单RBL方案,保持了RBL简便高效的优点,并且自动化程度高,可根据已知黑名单发现 未知黑名单,大幅降低了误判率和漏判率,提高了邮件收发质量。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为 清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软 件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的 应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保 护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字 信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门 或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用 处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微 控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处 理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似 的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模 块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM 存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意 形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒 介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。 处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和 存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、 固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒 介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑 存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是 任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不 限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置, 或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或 特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读 媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光 纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被 包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射 盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光 学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细 说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的 保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包 含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号