首页> 中国专利> 一种基于语义网的社交网络黑名单自动过滤模型

一种基于语义网的社交网络黑名单自动过滤模型

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于语义网的社交网络黑名单自动过滤模型，该模型的恶意垃圾信息会被自动屏蔽标记为垃圾信息，只有用户主动查看时才可见到此类信息；恶意信息发布者也会被自动被标记为信息接收者的黑名单中，屏蔽其发送的恶意信息；该模型还设置了用户自定义屏蔽信息，且此类信息被标记为恶意信息权值最高，即用户最不能忍受的信息，一旦被判为此类信息，则发送者与接收者回复正常好友关系的概率就很小了，这就继承了传统黑名单的特点，在此基础上，该模型还有一些恶意权值较低的信息类，被评判为此类信息时，如果接收者主动与发送者进行了数据交互，则被评判为恶意发布者的用户则有可能被系统恢复出黑名单，使二者成为正常关系。

著录项

公开/公告号CN103345530A

专利类型发明专利
公开/公告日2013-10-09

原文格式PDF
申请/专利权人南京邮电大学;
展开▼

申请/专利号CN201310318042.5
发明设计人孙国梓;哈乐;杨一涛;姜雪晴;黄斯琪;刘力颖;
展开▼

申请日2013-07-25
分类号G06F17/30;
代理机构南京知识律师事务所;
代理人汪旭东
地址 210003 江苏省南京市新模范马路66号
入库时间 2024-02-19 20:03:36

法律信息

法律状态公告日

法律状态信息

法律状态
2017-07-14

授权

授权
2013-11-06

实质审查的生效 IPC(主分类):G06F17/30 申请日:20130725

实质审查的生效
2013-10-09

公开

公开

说明书

技术领域

本发明涉及信息安全与计算机应用技术领域，特别涉及一种基于语义网的社交网络黑名单自动过滤模型。

技术背景

社交网络（SNS）通过促进人们之间的线上交流和信息共享，已经成为一种主要的线上应用，获得了非常庞大的用户群数量。与此同时，为了提供良好的用户体验给如此大量的用户，社交网络自身的功能也变得越来越趋于复杂，交互信息从最开始单一的文本信息，已经转变为更多的电子内容，如视频等。这对社交网络的安全与隐私保护提出了新的挑战。

据调查，一些不法分子利用社交网络的开放性和用户使用过程中暴露的信息，如照片、与朋友的交互信息等，通过有针对性地传播欺诈信息，对社交网络用户的安全造成了严重威胁，社交网络已经成为不法分子欺诈侵财的一种主要途径。在用户使用社交网络过程中，或多或少会接收到一些不法分子的恶意信息，对一些明显的欺诈信息，用户有能力自行判断出来，但对一些经过伪装隐蔽的、表现不明显的信息，则其直接危害着人们的人身、财产安全。虽然一些社交网络，如人人网等为用户提供了一些权限控制的功能，但是这些控制功能都比较简单，不够灵活。

近年来，随着语义网的发展，越来越多的本体被用于建立特定领域内的知识表示模型，但由于知识网的庞大，还存在很多空白区域未曾涉及到过，尤其对于当前新兴应用的安全领域，语义网技术还很少被应用。

经过分析，利用语义网自身动态的、个性化的、主动服务等特性，非常适合解决当前我们提出的问题。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于解决了上述现有技术存在的问题，提供了一种基于语义网的社交网络黑名单自动过滤模型。该模型是基于潜在恶意信息提取和综合管理的方案及其相关的配套机制实现的。

本发明解决其技术问题所采用的技术方案是：本发明在对现有社交网络本体模型改进的基础上，设计了一种对社交网络中用户的交互信息进行分析判断，提取可能的犯罪组织关系的自动过滤模型。该模型分为信息分析提取模块、信息恶意指数计分模块、计分结果黑名单关联模块，其具体包括如下：

一、信息分析提取模块

本发明提出了一种信息分析提取模块，在该模块中可以看到在信息流部分，将信息划分为了两部分，其中一部分为正常的，无害的信息，另一部分是恶意信息(Viciousness)，按照对恶意信息特征的分析，现将恶意信息抽象分为4类，分别为：

●无意义信息(meaningless)：这类信息主要是形如随机排列的字母特殊符号，过滤那些有可能是机器随机发布的骚扰内容，如果恶意发布者使用发布机器大量地散步信息，不仅对社交网络自身带来了流量压力，对用户也带来了无形的困扰。

●欺诈信息(fraud)：欺诈信息主要是通过公安部门统计的典型案例中提取出的一些涉嫌欺诈的特征语句，如询问证件号码，家庭住址等。

●暴力信息(violence)：暴力信息是指包含辱骂词汇，危害社会安全的语句以及涉嫌精神骚扰的过激言语等。过滤这类信息可以避免造成双方冲突，为社交网络营造一个良好的“生态环境”。

●用户自定义信息(user defined)：用户自定义信息可以让用户个性化设置一些自己不愿意接受的内容，如可屏蔽广告等并非恶意推送的内容，使得上述提到的中间件的功能更加完善。

综上所述，本发明提出了恶意信息本体模型，该模型是对社交网络模型的扩展，为了更清楚的描述该模型，这里引入了敏感语义库的概念，敏感语义库就是上面所叙述的4大类信息组成的集合，当信息被检测到符合该语义库中的规则时，则被归类为恶意信息中的某一类，也即恶意信息。但是此时即使被归为恶意信息，也并不代表用户就不会接受到此条信息，这一步的评判只是对该信息的粗略划分，经过后期的分析数据流双方历来信息记录，才能进一步判断是否完全屏蔽此条信息。

二、信息恶意指数计分模块

本发明给出的识别恶意信息的方法，不仅考虑到了信息自身的恶意度，还综合了发送恶意信息的用户的恶意记录。为了更清楚的描述这个过程，本发明提出了以下几个概念：

恶意因子：用fa表示，表示用户发送的单条信息的恶意程度。恶意因子的取值如表1所示：

表1

上述表1取值只是一个参考，这样取值主要是使整个系统更灵活，一个用户发布过恶意信息，但不代表这个用户与信息接收者以后不可能构成好友关系，常规信息取值为0.99，这样每次与恶意记录指数相乘，使恶意记录指数小于1，如果双方多次进行常规交互，则恶意记录指数始终小于1。若系统检测到恶意信息，则按照上表规则，fa值按照恶意信息的恶意程度，与已有的恶意记录指数运算，使恶意记录指数呈增大趋势，如当前恶意记录指数为0.5，则发送者只要再发送一次恶意信息，如暴力信息，就可使得恶意指数大于1，则有可能越过安全范围，成为恶意发送者。

恶意记录指数：R,S,V分别表示接收者、发送者、恶意记录指数，则可使用三元组（R,S, V）标识一条数据与发送者、接收者的关系以及决定这条数据流能否从发送者流向接收者。恶意记录指数的初始值为1，表示双方还未有过数据交换。恶意记录指数越小也间接反映了双方的密切程度，则构成恶意关系的概率也就越小。

恶意记录指数的安全范围：这个范围可根据系统对恶意信息的接受程度决定，设置一个大于1的值。从上面的描述可以看出，常规信息使恶意记录指数趋于0，恶意信息使恶意记录指数趋于无穷大，均使其远离1，如果双方的信息流包含以上两种，则恶意记录指数始终围绕1摆动，系统不会使发送者永远处于黑名单中，且常规信息的取值直接影响到发送者脱离黑名单的难度。

综上所述，如果将整个过程看作一个函数，可使用如下形式化的语句描述函数的输入与输出值。首先定义Usns为社交网络中的用户集合，T表示系统设置的安全阀值，S,R,V的定义同上，则这个过程可更形象的表示为S->R=V,也即发送者，接收者当前的恶意记录积累值为V，也可使用P(S,R)=V表示，这里输入值的定义域可表示为：I={r:R,s:S|r,s∈ Usns,r≠s},输出值则可分为有效值与屏蔽值范围，有效值范围可表示为：Z={v:V| 0<v<T},屏蔽值的范围则为Z.

系统屏蔽的条件可使用以下谓词逻辑表示：设

F(r,s):r与s为好友关系

C(x):r发送的Msg包含恶意信息

V(r,s,x):此次发送的信息与恶意记录指数的计算值大于系统安全阀值。

B(r,s):系统屏蔽s->r的信息。

U(r,s):系统更新V(r,s,x)值。

则有：

设常规信息与恶意信息的fa值分别为far,fav，当前用户a,b的恶意记录指数表示为(a,b, base),则发送者要使自己信息不被系统屏蔽则需要与接收者进行n=-log_farbase次常规信息交互。下面是一组数据表示上面数据的合理性，设当前base值为20,far值为0.99，则发送者需要与接收者进行300次有效常规信息交互，也即若用户一开始只发布了4次被接收者过滤的信息，就使恶意信息指数相当大了。

三、计分结果黑名单关联模块

这里需要引入一个安全阀值的概念，这个阀值需要依赖现有社交网络中存在的数据，经过统计，计算得到一个合理的值，这个值并非一个不可变，固定的值，而是根据不同应用的需求，只要维持在一个范围内，即为合理的。

通过系统分析上一步的判断结果，若信息超出了系统设置的安全阀值，则将信息过滤为垃圾信息，并将发送该条信息的用户加入接收者的黑名单中，下次该发送者再次向次接收者发送信息时，信息会被自动过滤为垃圾信息，接收者只有在垃圾信息项中才可查看到此类信息。

只有屏蔽者用户主动查看垃圾项中的信息，与被屏蔽者交互一定的正常信息量后，被屏蔽这才有可能被系统恢复到黑名单外，系统会认为二者恢复了好友关系。

有益效果：

1、本发明能够对信息流的恶意程度进行评判计分，自动过滤超出安全范围的信息流，以及关联信息的发送者与接收者，使其构成潜在隔离关系。

2、本发明在位于黑名单中的用户可通过改善与接收者的关系，使系统自动解除二者屏蔽关系。

3、本发明给出了一套更合理的对恶意信息计分的方法。

附图说明

图1是社交网络本体模型图。

图2是恶意信息本体模型图。

图3是系统框架图。

具体实施方式

以下结合说明书附图对本发明创造作进一步的详细说明。

整个系统框架是基于一个现有社交网络开放平台的，也即图3中的SNS Infrastructure,本发明所述的主体功能属于这个网络平台中的一个可选中间件，这个中间件通过维护管理敏感语义库、信息恶意程度计分规则，负责管理用户关系与信息流交互之间的关联分析。这里就从以下几个方面来描述每个部分的实施方式。

1、信息的截取分类

在社交网络中存在着大量的数据的交换，在某两个数据端之间拦截数据流，可参考使用朴素贝叶斯分类器的文本分类方法，结合敏感语义库定义的规则，对数据内容进行分类。当检测为正常数据流，则被放行通过，进而可将信息持久化并提示接收者该条信息，若未通过，则将其送入恶意指数积分模块，对该条信息进行计分运算，结合（接收者，发送者，积累恶意指数值）三元组，与当前信息的恶意分数，判定恶意信息能否通过系统拦截，若恶意程度不明显，达不到系统设置的安全阀值，则放行该条信息。过滤准则，可参考防火墙的过滤方式，分为两种，一种为：凡是位于敏感语义库中的信息一律屏蔽，另一种为凡是未被信息库定义的信息全部屏蔽，本系统使用第一种，则需要一个敏感语义库的支持。

2、敏感语义库

使用者需要根据网站中日常流动的恶意数据的出现频率总结分析出一整套的信息库，结合本发明提出的分类规则，将这些信息装入敏感语义库，供系统使用。敏感语义库的构建直接影响着整个系统的有效程度，如果敏感语义库定义的信息量少，或者不全面，则系统的使用实际意义则不明显，所以需要专门的针对社交网络领域的专家对信息进行提取，根据经验将分类信息入库。与语义网的领域专家类似，这里同样需要领域专家的协助定义。

3、信息恶意指数计分模块

本发明系统不仅只是简单地将提取出的信息与敏感语义库中的关键词汇进行比较，还会利用计分模块，对提取出的信息进行综合分析，给出一个分析结果，供系统决定信息流两端的用户的关系。系统负责维护一个（信息发送者，信息接收者，恶意信息积累指数）的三元组数据，标志信息发送者与信息接收者历来交互信息中存在的恶意信息的一个指数，间接反映信息流两端用户的现实关系。信息恶意指数计分模块在计分时，将查询出这个三元组数据，并根据各种恶意信息系统设置的不同的恶意权值，将得到的新的数据的计分值，与该值运算，更新三元组数据，并返回计分结果，供系统判定。

4、黑名单管理模块

黑名单管理模块只是整个系统分析的结果集，该模块会负责持久层数据的操作管理。可以使用Oracle数据库，方便系统的使用。系统会为位于社交网络中的每个用户提供一张黑名单用户表，标识社交网络中的用户关系，网络中的任意两个用户之间存在三种关系：好友关系（isFriendOf）,陌生关系（notFriendOf），和屏蔽关系（isInBlacklistOf），该系统主要关注的是第三个屏蔽关系，也即黑名单。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于语义网的社交网络黑名单自动过滤模型 [P] . 中国专利： CN103345530B . 2017.07.14
2. 一种基于语义网的社交网络黑名单自动过滤模型 [P] . 中国专利： CN103345530A . 2013-10-09
3. A METHOD OF WAVELET-BASED AUTOREGRESSIVE FUZZY MODELING FOR FORECASTING ALGAL BLOOMS [P] . 韩国专利： KR101585545B1 . 2016-01-14

机译：一种基于小波的藻类自动回归模糊预测模型
4. An Automated Model Based Procedure for Integrating a Functional with a Physical System Architecture to form an Electronic System. [P] . 英国专利： GB2441432A . 2008-03-05

机译：一种基于模型的自动化过程，用于将功能与物理系统体系结构集成以形成电子系统。
5. Person protection device e.g. air bag, controlling method for vehicle, involves automatically determining estimated value according to accident situation based on probability assigned to model, and controlling device related to probability [P] . 德国专利： DE102005057949A1 . 2007-06-06

机译：人员保护装置气囊，一种用于车辆的控制方法，涉及基于分配给模型的概率根据事故情况自动确定估计值，以及与概率有关的控制装置