首页> 中国专利> 面向互联网的不良信息过滤系统及其方法

面向互联网的不良信息过滤系统及其方法

摘要

本发明公开了一种面向互联网的不良信息过滤系统及其过滤方法。该不良信息过滤系统包括用户数据提交模块、用户服务管理系统、用户交互信息审核平台、净化服务运营平台、知识库及至少一个标引引擎;其中,用户数据提交模块与用户服务管理系统连接,用户服务管理系统连接净化服务运营平台;净化服务运营平台分别与用户交互信息审核平台和各标引引擎进行连接;标引引擎与知识库进行连接。本发明运用多项智能技术:分词、关键词匹配、向量模型,以及多个高性能的处理算法对数据进行处理,可以为互联网社区提供敏感、色情、低俗、灌水及商业广告等信息的标引服务,从而向客户提供了高效率的信息管理手段。

著录项

  • 公开/公告号CN102208992A

    专利类型发明专利

  • 公开/公告日2011-10-05

    原文格式PDF

  • 申请/专利权人 天津海量信息技术有限公司;

    申请/专利号CN201010200588.7

  • 发明设计人 陶鹏;宋传宝;罗侃;曹浩;

    申请日2010-06-13

  • 分类号H04L12/24(20060101);H04L29/06(20060101);

  • 代理机构北京汲智翼成知识产权代理事务所(普通合伙);

  • 代理人陈曦

  • 地址 300384 天津市华苑产业区榕苑路1号B北332-323室

  • 入库时间 2023-12-18 03:26:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-08

    专利权的转移 IPC(主分类):H04L12/24 登记生效日:20170215 变更前: 变更后: 申请日:20100613

    专利申请权、专利权的转移

  • 2016-07-13

    专利权人的姓名或者名称、地址的变更 IPC(主分类):H04L12/24 变更前: 变更后: 申请日:20100613

    专利权人的姓名或者名称、地址的变更

  • 2015-09-02

    授权

    授权

  • 2012-05-30

    实质审查的生效 IPC(主分类):H04L12/24 申请日:20100613

    实质审查的生效

  • 2011-10-05

    公开

    公开

说明书

技术领域

本发明涉及一种不良信息过滤系统及其过滤方法,尤其涉及一种针对互联网社区的特点,可以对色情、低俗、灌水及商业广告等不良信息进行准确标引和过滤的过滤系统及其过滤方法,属于网络信息安全技术领域。

背景技术

随着互联网的发展壮大,各个网站(包括门户网站、专题网站等)推出了越来越多的社区频道,如:各类专题论坛、博客、评论等,这些社区频道吸引的互动网友日益增多,为网站及网民带来了利益。但同时也有一些人员借这些社区频道大肆发布各类商业广告信息,甚至发布大量的色情、低俗、粗口及与其他同行恶意竞争的帖子,这些不良信息干扰了网站的正常运营,损害了网站的品牌和口碑,同时也极大地影响了其它网民的正常使用。

目前,各个网站针对此情况一般都是采用如下的技术措施:

设置关键词限制:通过维护一个巨大的关键词库,当帖子中含有关键词,系统予以提醒或直接删除。

发帖频率限制:限制同一IP或同一ID在单位时间内发的最大帖子数量。

这两种方法可以过滤掉部分不良数据,但也存在着极大的不足:

对于关键词限制而言,很多不良帖不仅仅是通过一两个关键词就能判断的,而是需要通过对整段话、整句话、关键词的前后语义进行判断。对于发帖频率限制而言,缺陷在于限制了一些正常网民的发帖,同时很容易被发帖机破解,使得此方法难以实际奏效。

在专利号为200510048576.6的中国发明专利中,公开了一种在互联网上堵截色情图像与不良信息的系统。该系统含有IP地址过滤、关键字过滤和色情图像检测,通过多次判决反馈建立色情图像数学模型;建立色情标准图像特征库,作为判决网络图像是否为色情图像的依据;建立相似性匹配判决模型;对通过关键字对比的网络信息进行基于内容的图像判决。既在应用层进行信息内容过滤,又在IP层采用网址过滤,能直接拦截色情图像信息,实时更新URL数据库,由过去被动的网址过滤跳跃到主动的内容过滤,系统独具的多功能管理平台,整合了操作系统、浏览器、因特网协议和图像检测器之间的复杂关系,解决了客户机和服务器之间的进程交互和色情图像检测任务的分工和数据重组问题,并实现了与浏览器无关的特点。

另外,在专利申请号为200410053683.3的中国发明专利申请中,公开了一种互联网内容过滤系统及过滤方法。该内容过滤系统包括:内容过滤代理(CFA)、查询服务器(QS)、内容分析与管理服务器(CAMS)三部分。网络内容过滤系统的过滤流程为:当用户发出对某个URL进行访问的请求时,CFA根据用户设置的黑白名单,允许或禁止该访问请求。倘若该URL不在CFA的黑白名单中,CFA则向QS发出查询请求。QS将会在自己的URL库中查询该URL的分级信息并将结果返回给CFA。CFA据此做出反应。同时QS会定期从CAMS中下载更新的URL分级信息。该技术方案可以识别网络中存在的不良信息,并主动地阻止互联网用户访问这些不良网站。

发明内容

本发明所要解决的技术问题在于提供一种面向互联网的不良信息过滤系统及其方法,可以对色情、低俗、灌水及商业广告等不良信息进行准确标引和过滤。

为实现上述的发明目的,本发明采用下述的技术方案:

一种面向互联网的不良信息过滤系统,其特征在于:

所述不良信息过滤系统包括用户数据提交模块、用户服务管理系统、用户交互信息审核平台、净化服务运营平台、知识库及至少一个标引引擎;其中,

所述用户数据提交模块与所述用户服务管理系统连接,所述用户服务管理系统连接所述净化服务运营平台;

所述净化服务运营平台分别与所述用户交互信息审核平台和各标引引擎进行连接;

所述标引引擎与所述知识库进行连接。

其中,所述标引引擎包括广告标引引擎组、水贴标引引擎组、个性化特征标引引擎组、行为特征标引引擎组、色情标引引擎组、低俗标引引擎组、敏感信息标引引擎组中的一个或多个。

所述知识库包括关键词词库、行为模式库、规则库、实例库和训练特征库中的一个或多个。

所述不良信息过滤系统中还包括杂质特征库、非杂质特征库和个性杂质特征库;所述杂质特征库、非杂质特征库和个性杂质特征库一方面连接所述知识库,另一方面与所述净化服务运营平台进行连接。

所述用户交互信息审核平台包括发布数据模块、反馈数据模块和系统效果统计模块;其中,所述发布数据模块接收来自所述净化服务运营平台的数据,如果是正常标记,则作为正常贴对外发布;如果是错误标记,则送入所述反馈数据模块作为训练语料使用,并反馈给所述净化服务运营平台。

一种面向互联网的不良信息过滤方法,基于上述的不良信息过滤系统实现,其特征在于包括如下的步骤:

(1)接收网络社区发布的各种消息;

(2)调用知识库中的实例库进行过滤,判断是否为不良信息;

(3)如果不是,进一步调用包括关键词、关键词组合、URL、IP地址、用户ID在内的客户个性化“黑白名单”进行过滤,判断是否为不良信息;

(4)如果不是,进一步进行普通行为模式识别;

(5)如果不是,进一步进行特征行为模式识别;

(6)如果不是,进一步调用各种业务规则进行过滤;

(7)综合步骤(2)~(6)所获得的过滤结果,得到最终的不良信息过滤结果,并保存入库;

(8)将最终的标引结果返回给客户端。

其中,在不良信息过滤过程中,首先对消息文本进行关键词匹配;假如没有命中关键词,则将预测结果设为“不需要删除”,假如命中关键词,则将文本转换成向量空间模型,对该向量进行预测,预测的结果为一个确信度;对于不同的消息,根据确信度和预设的阈值将其预测为“需要删除”、“疑似需要删除”、“不需要删除”这三类,其中对于“疑似需要删除”这一类别的消息,引入人工进行进一步审核。

所述步骤(5)中,所述特征行为模式识别是指对网络社区发布的信息内容进行整体分析,通过语义识别提取出其中所有的特征联系信息,对所述特征联系信息在一定时间段内的出现频率进行计算,并与预设的阀值进行比较,当超出所述阀值时,认为是不良信息。

本发明所提供的不良信息过滤系统及其方法运用多项智能技术:分词、关键词匹配、向量模型,以及多个高性能的处理算法对数据进行处理,可以为互联网社区提供敏感、色情、低俗、灌水及商业广告等信息的标引服务,从而向客户提供了高效率的信息管理手段。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明所提供的不良信息过滤系统的整体结构示意图;

图2为本不良信息过滤系统进行不良信息过滤的操作流程示意图;

图3为基于有指导学习的统计模型的示例图;

图4为使用基于有指导学习统计模型的流程示意图;

图5为本发明中将关键词结合统计模型系统框架来解决垃圾贴的流程示意图。

具体实施方式

为了提高本发明对不良信息的过滤效果,发明人通过对大量互联网社区数据的分析,分别从业务角度、技术角度对不良信息作了分类。

业务角度的分类:不良信息可以分为商业广告类、色情、低俗、灌水、客户个性类。而各个类别又进行了细分。如商业广告类可分为:数字类(QQ、电话、手机号、发票、报价等)、域名类(MSN、网址、E-Mail等)。

技术角度的分类:提供刚性识别、行为模式识别、柔性识别、关键词黑白名单识别、各类业务规则(不同业务规则又采用了不同的算法,详见具体的算法介绍)。其中:

刚性识别:本发明中将客户反馈的系统误删、漏删数据作为刚性数据,可以对后续发布的内容完全相同的数据进行标引。接收客户反馈的系统误删、漏删数据,对整条信息进行计算,生成一个唯一值,保存入库(称为:刚性库)。当后续再接收到需要过滤的各类信息数据时,对每条信息采用相同的算法进行计算,并将生成的结果值与刚性库中的值进行比较,如匹配上,则能直接判断该信息是正常信息(或不良信息)。

行为模式识别:通过对一段时间内的同一IP、同一ID、相同关键内容出现的次数进行统计,分析数据的行为模式。

柔性识别:又称近似文本检测(详见下述的算法介绍)。通过对一段时间内的数据进行训练学习,可将出现频率较高且内容相似的数据识别出来。

关键词黑白名单:各个网站可根据需求设置黑白名单(提供:关键词、关键词组合、网民IP、网民ID、内容URL等),对发布的内容进行匹配识别。

各类业务规则:由于各类业务数据的特征形式不一样,所以针对各类业务数据,可以采取不同的智能识别方法。包括:半自动的数码柔性识别、基于模式的域名和email识别、竖排文字识别、关键词结合统计模型架构等等。

如图1所示,本发明所提供的不良信息过滤系统包括用户数据提交模块、用户服务管理系统、用户交互信息审核平台、净化服务运营平台、针对各种情况的标引引擎及相应的知识库等。其中用户数据提交模块将互动文本信息和用户身份信息提交给用户服务管理系统,用户服务管理系统以UID-xml的方式将相关的数据传送给净化服务运营平台。净化服务运营平台是本不良信息过滤系统的核心。它连接各个标引引擎,从中获取反映知识/规则的信息,同时也向杂质特征库、非杂质特征库和个性杂质特征库反馈关于知识/规则的信息。用户交互信息审核平台包括List(发布)数据模块、反馈数据模块和系统效果统计模块。其中,List(发布)数据模块接收来自净化服务运营平台的数据,如果是正常标记,则作为正常贴对外发布;如果是错误标记,则送入反馈数据模块作为训练语料使用,并反馈给净化服务运营平台。净化服务运营平台同时将效果统计分析结果传送给系统效果统计模块。

本不良信息过滤系统中使用的标引引擎包括广告标引引擎组、水贴标引引擎组、个性化特征标引引擎组、行为特征标引引擎组、色情标引引擎组、低俗标引引擎组、敏感信息标引引擎组等,分别针对商业广告类、色情、低俗、灌水、客户个性类等多种情况。根据网络社区的实际需要,上述的引擎组还可以不断进行扩展。上述的各标引引擎连接知识库,从中获取用于过滤不良信息的知识/规则。这些数据库包括关键词词库(逻辑特征库)、行为模式库、规则库、实例库(刚性库)和训练特征库等。基于上述的标引引擎和知识库,本不良信息过滤系统将多个维度的规则统一在一起,根据客户的需求为客户提供不同的组合服务。这样,通过多个规则的识别,增加了对数据的识别效果,解决了单个规则效果较低的缺陷。

本不良信息过滤系统中包括如下的四类功能接口:

一.标引接口

接收并解析客户请求数据后,净化服务运营平台读取客户设置的过滤规则以及客户个性化设置内容,并调用对应的过滤算法(与核心算法服务对接,支持各项规则、过滤机制),得出是否垃圾帖的判断结果,并将结果返回给客户。

二.反馈接口

客户编辑对本系统漏删数据进行“删除”操作,或对本系统误删数据进行“恢复”操作后,客户系统将这些数据通过本接口传输到服务器端,并保存入库。这些数据将成为刚性库数据,对后续的数据直接生效。

三.设置接口

接收客户设置的各项配置数据(客户可设置个性化的黑白名单,包括:关键词、IP、ID、图片链接地址),保存入库并实时生效。

四.通知接口

本不良信息过滤系统在新增最新过滤词、加入最新规则时,将对保留在系统中的历史正常数据(默认保留本月及上月的数据)再次进行一次标引,并将此次标引结果为“垃圾”的数据进行保存,客户端可以定时通过“通知接口”访问获取此类数据,并将这些数据进行删除。

本不良信息过滤系统处理各种不良信息的过程如图2所示,首先接收网络社区发布的各种消息,然后调用知识库中的实例库(刚性库)进行过滤,判断是否为不良信息。接着,使用客户个性化“黑白名单”进行过滤,即通过关键词、关键词组合、URL、IP地址、用户ID等进行过滤。如果不在客户个性化“黑白名单”的过滤范围之中,则进一步进行普通行为模式识别和特征行为模式识别。在上述判断手段使用完毕之后,进一步调用各种业务规则(如广告、低俗等)进行过滤,从而得到最终的过滤结果,保存入库,然后返回标引结果给客户端。

在本不良信息过滤系统中应用了一类新技术:将语义识别与行为分析结合,称为特征行为分析(也称特征行为模式识别)。特征行为分析是指对网络社区发布的信息内容进行整体分析,通过语义识别提取出其中所有的特征联系信息,对这些信息在一定时间段内的出现频率进行计算,并与预设的阀值进行比较。当超出阀值时,认为是不良信息。

在本发明中,特征行为分析的作用主要是来识别商业广告帖。具体的技术说明如下:

由于很多互联网社区中允许发布一些个人或组织的联系方式(如:QQ号、联系电话等),以增加用户的互动性,但又不允许那些带有广告性质的帖子发布,因此该帖子是否是垃圾贴,其判断标准不能固定,而带有较强的主观性。如果仅仅采用语义识别的业务规则(如:带联系方式的均删除)进行判断,势必误删很多帖子。

通过对大量社区中发布的信息(主要指带联系方式的信息,包括正常信息、不良信息)进行分析,发现存在一定的规律。即:正常信息一般只会在一个或几个版块中发布少数几次。而不良信息则会持续地在多个版块高频率地发布,而且所包含的联系方式通常是一样的。在此情况下,可以设定同一信息发布的板块数量阈值和单位时间出现频率阈值,当超过预设的阈值时,认定该信息为商业广告性质的不良信息。

因此,通过将语义识别与行为分析结合,能很好的解决商业广告判断标准不能固定的问题。

另外,本不良信息过滤系统针对垃圾帖采用了关键词结合统计模型架构的技术方案。具体说明如下:

目前,基于有指导学习的统计模型已经被广泛应用于文本分类、图像分类等各个领域。基于有指导学习的统计模型指的是图3所示的一种框架:由人工的方式收集或是标注出若干类别的数据,通过统计模型的学习算法,最终得到一个能够识别该若干类别的模型。

常用的统计模型包括SVM(支持向量机)、最大熵模型、Logistic回归模型、朴素贝叶斯模型等。这些模型的更多信息可参考Mitchell,T.M.所著的《机器学习》(机械工业出版社2008年3月版,ISBN:9787111109938)一书,在此就不详细赘述了。

自动识别垃圾贴可以认为是自动文本分类的一个特例。而自动文本分类通常使用上面给出的基于统计模型的框架。这是因为经过四十多年的发展,很多研究者发表论文宣称:使用基于有指导学习统计模型的自动文本分类可以得到最好的预测结果。以自动识别垃圾贴为例,使用基于有指导学习统计模型的流程可参见图4,即首先收集大量是垃圾贴以及非垃圾贴的评论,然后将评论文本转换为向量空间模型,通过统计模型的学习算法,最终得到相应的预测结果。

所谓的向量空间模型(Vector Space Model)是一种非常常用的文本建模方式。其主要思想是将不同的词视作不同的维度。对于一篇特定的文档,每个维度的权重通常采用TF×IDF的方式来计算。其中TF指的是文档中该词的出现次数,IDF指的是该词的逆文献率,通常使用如下公式计算:公式中的N指的是所有文档的数量,DFword指的是该词出现在不同文档的数量。该计算方法可以在Ricardo Baeza-Yates等著的教科书《现代信息检索》(机械工业出版社2005年4月版,ISBN:7-111-15878-4)中找到更多的解释。

在本发明中,发明人进一步提出了一种关键词结合统计模型系统框架来解决垃圾贴自动分类的技术方案。

所谓的关键词指的是人工总结的、用以过滤并区分垃圾贴和正常贴的词语集合。例如在时政类的垃圾贴中,“法轮功”就是一个关键词。对于一条帖子,如果命中该关键词,那么该帖子会被直接归类为垃圾贴,或者是经由人工审核之后归到相应类别。

目前,很多网站、论坛使用基于关键词的方式来筛选评论或博客正文,然后使用人工审核的方式确定该评论或博客正文是否属于该删除的文本。然而,使用该方式会得到大量不需要删除的文本。例如,使用国家领导人的名字作为关键词就会得到大量不需要删除的文本。因此,单纯使用关键词仍然需要耗费大量的人工。

单纯使用统计模型则存在如下几个问题:

1)不能实时响应即时变化的需求。因为统计模型需要整理收集一定数量的有标签数据,因此对于一个新的删除要求需要一段时间来收集数据并训练新的模型。例如,论坛中出现了对于发票、枪支等非法物品的广告贴,假定已有的系统不能够识别出这些广告贴。如果通过统计的方式来处理,则需要收集这些广告贴并打上相应的标签。然后构建模型并发布出去。因此,单纯使用基于有指导学习统计模型的方式不能够满足较短时间内(例如1分钟之内)就要控制发帖内容的需求。

2)速度较慢。由于算法的需要,基于统计的方式比基于关键词的方式速度上相差几十倍至上百倍。因此,在很大的数据吞吐量的前提下(几十兆比特每秒),基于统计的方式难以应付实际需求,或者代价很大(需要分布式的计算平台或别的解决方案)。

如图5所示,在本发明中假定已经存在人工整理收集的关键词和统计模型。对于一条文本,操作的流程按如下方式进行:

1.对文本进行关键词匹配。假如没有命中关键词,则将预测结果设为“不需要删除”。并略过2~5步。假如命中关键词,则转入第2步。

2.将文本按照前面介绍的方式转换成向量空间模型。

3.对该向量进行预测,预测的结果为一个确信度(不同的统计模型会得到不一样的确信度区间,但任何一个模型都能得到一个确信度的值)。

4.对于不同的消息,根据确信度和预设的阈值将其预测为“需要删除”、“疑似需要删除”、“不需要删除”这三类。例如,时政类需要删除的尺度往往比较宽泛,因此,判为“需要删除”的阈值就设定的较低。而“粗口”类别删除的尺度比较窄,那么将其判为“需要删除”的阈值就可以设定的较高。

5.人工审核上一步得到的“疑似需要删除”这一类别。

具体例子可见下表:

在本发明中,使用SVM(支持向量机)算法作为统计模型部分的技术手段。该部分操作可以使用别的统计模型来替代,例如前文所提及的最大熵模型、朴素贝叶斯模型等。各个统计模型在建模和预测算法上有区别,不同的应用环境下,各个算法会有不同的表现。

另外,向量空间模型的表示采用了前文提及的计算公式。不同的计算公式也会有不同的结果,需要在现实中衡量评估之后再加以使用。

利用上述的过滤算法,本发明所提供的不良信息过滤系统可以有效解决上面提及的三个问题,即基于关键词的系统精确性较差,基于统计的方法不具备实时定制性以及较慢的速度等。

此外,本不良信息过滤系统还具备如下几个特点:

1)对于高度敏感的需要删除的内容(例如包含国家领导人名字的评论),该系统可以将人工审核的方式糅合进来以保证网站的安全。和单纯使用关键词的方法相比,本系统能有效减少人工审核的数量(节省的数量大于70%)。

2)随着有标签数据的增加,系统的精确性会越来越高,并逐步收敛到一个较为稳定的值。

总体而言,本不良信息过滤系统的底层平台内嵌多项智能技术:分词、关键词匹配、向量模型,以及多个高性能的处理算法对数据进行处理,通过对数据的形式特征(排版方式、符号使用法)、内容特征(行文方式、词&命名实体、句子、篇章)、行为模式等进行分析,在开放式评测中达到了国际一流的识别效果。

以上对本发明所提供的面向互联网的不良信息过滤系统及其方法进行了详细的说明。对本领域的技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号