法律状态公告日
法律状态信息
法律状态
2018-01-30
授权
授权
2014-07-30
实质审查的生效 IPC(主分类):G06F17/30 申请日:20121226
实质审查的生效
2014-07-02
公开
公开
技术领域
本发明涉及信息安全技术领域,尤其涉及一种色情信息源的定位方法和 系统。
背景技术
移动数据网络上传送的业务数据中,充斥大量色情、暴力和反动的信息。 现在检视网络色情信息的方法主要依靠人工进行,这个过程主要为:人工查 看(可以是随机的、偶然的,也可以是有目的的、主动的),人工举报,配置 网络访问禁止。这个过程中,其主要的检测手段都是以人工为主,所以检测 效率低下,可能存在大量的盲区。
随着技术的发展,特别是图像分析技术的发展,出现了一些利用自动图 像内容分析技术进行色情图像识别的方案。这种方案把色情图像依据不同类 型进行分别的建模,然后从网络上捕获数据流,分析这些数据中存在的图像 信息,如果符合模型,则标记其为色情信息,然后依据解析出来的源地址, 进行人工查看,从而确定是否是一个色情图像源。
在这种方案中,因为单纯的图像分析技术还不能很确定每一次判断为色 情信息的图像到底是否有色情信息,所以需要人工对每一个检视出来的可能 的色情源进行确认。
当前方案存在下面明显缺陷:
1、检查是被动的,系统分析的数据对象都是基于客户业务中的数据流, 也就是说,这个检查过程不能在用户浏览色情信息之前就检查到色情信息, 属于完全被动的检查;
2、运行效率低下,成本高昂,因为采用建模匹配的图像分析技术,而这 一技术本身要求很高的计算能力,特别是如果要分析全网的情况,其耗用的 计算资源更是海量,部署成本高昂。
发明内容
为了解决现有技术中存在的被动检查色情信息,且效率低下的技术问题, 本发明提出一种色情信息源定位的方法和系统,能够主动定位高概率的色情 信息源,并且速度快,资源消耗小。
本发明一方面提供了一种色情信息源的定位方法,其特征在于,分析网 站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规 则进行判断,获得色情网站页面地址清单。
本发明另一方面提供了一种色情信息源的定位系统,包括网站结构分析 模块、网站页面内容结构分析模块、页面链接信息分析模块和第一判断模块, 其中,
网站结构分析模块用于分析网站结构;
网站页面内容结构分析模块用于分析网站页面内容结构;
页面链接信息分析模块用于分析页面链接信息;
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网 站页面地址清单。
本发明的技术方案由于采用色情网页本身的页面信息特征参数和色情信 息消费行为特征,可以主动过滤定位高概率的色情信息源,并且因为不涉及 任何图像内容的计算和复杂的模型,所以计算资源要求很低,每一次分析耗 时很小,速度更快。
附图说明
图1是本发明实施例中色情信息源定位的流程图。
图2是本发明实施例中色情信息源定位系统结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细描述。
图1是本发明实施例中色情信息源定位的流程图。如图1所示,该色情 信息源定位流程包括以下步骤:
步骤101、主动扫描网络网站资源,分析网站结构,包括分析网站页面 级数和每一级的页面数量。
步骤102、分析网站页面内容结构。
进一步包括以下步骤:
将网站页面内容进行分类,例如文字、图像、链接和视频片段,并分析 不同类别内容的项目数量和比率;
分析每一级页面包含的不同类别内容的单项最大、最小和平均数据量;
依据所述每一级页面包含的不同类别内容的单项平均数据量,进行100 等分,设置尺寸粒度,分析每一级页面包含的不同类别内容的单项数据量在 不同尺寸粒度的概率分布。
步骤103、分析页面链接信息,即分析一个页面下所有第一级的下层链 接页面本身与链接入口的关系。
进一步包括以下步骤:
分析作为链接入口的文字、图片和图标的分布;
分析作为链接入口的文字、图片或图标的数目占本类项的页面总数目的 比率。
步骤104、对上述三步骤的分析结果根据预设判决规则进行判断,获得 初步的可疑色情网站页面地址清单。
该预设判决规则包括:
对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过X%聚焦于不多于n粒度的 范围,并且,
页面的所有非边沿区域的图片尺寸超过Y%聚焦于不多于m粒度的范围, 并且,
对页面链接信息的分析结果满足以下要求:
图片作为入口的比率大于Z%,并且下级页面的对网站页面内容结构的分 析结果满足上述要求,即:
页面的所有非边沿区域的图片长宽解析度超过X%聚焦于不多于n粒度的 范围,并且,
页面的所有非边沿区域的图片尺寸超过Y%聚焦于不多于m粒度的范围。
这里的X、Y、Z、n、m都是可以调节的参数,依据对系统的要求的敏感 度设置。
步骤105、获得初步的可疑色情网站页面地址清单,分析色情网站页面 地址清单中页面数据的用户消费行为特征信息,分析页面数据流量特征,进 一步包括以下步骤:
提取和计算交互类指令频次;
提取和计算视频类数据传送频次。
步骤106、分析单次消费。
进一步包括以下步骤:
提取和计算页面停留时间;
提取和计算合计下载时间。
步骤107、基于分析色情网站页面地址清单中页面数据的用户消费行为 特征信息,进一步判断色情网站页面地址清单。
判断的依据是可疑的色情网站页面地址清单中的页面同时满足以下条 件:
视频类数据传送频次与交互类指令频次的比值大于A,并且,
合计下载时间与页面停留时间的比值小于B,且大于C。
这里的A、B、C都是可以调节的参数,依据对系统的要求的敏感度设置。
为了实现上述流程,本发明实施例还提供了一种色情信息源定位系统。 图2是本发明实施例中色情信息源定位系统结构示意图。如图2所示,该定 位系统包括网站结构分析模块201、网站页面内容结构分析模块202、页面链 接信息分析模块203、第一判断模块204、页面数据流量特征分析模块205、 单次消费分析模块206和第二判断模块207。
其中,网站结构分析模块用于分析网站结构。
网站页面内容结构分析模块用于分析网站页面内容结构。
页面链接信息分析模块用于分析页面链接信息。
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网 站页面地址清单。
页面数据流量特征分析模块用于分析色情网站页面地址清单的页面数 据流量特征。
单次消费分析模块用于分析色情网站页面地址清单的单次消费。
第二判断模块用于根据页面数据流量特征分析模块和单次消费分析模 块的分析结果,进一步判断色情网站页面地址清单。
通过这两轮的分析和判断,获得的就是高概率的色情网页地址信息了, 由于采用色情网页本身的页面信息特征参数和色情信息消费行为特征,可以 主动过滤定位高概率的色情信息源,并且因为不涉及任何图像内容的计算和 复杂的模型,所以计算资源要求很低,每一次分析耗时很小,速度更快,同 时可以充分利用现有的网络监测系统资源进行分析判断,部署迅速。
应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅 限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均 应涵盖在本发明的权利要求范围中。
机译: 使用从多个信息源聚合的客户数据生成的客户资料生成广告定位数据的系统和方法
机译: 使用从多个信息源聚合的信息将广告定位标准映射到用户目标的系统和方法
机译: 在基于文本的信息源集合中定位信息的系统,软件和方法