法律状态公告日
法律状态信息
法律状态
2017-01-25
授权
授权
2014-06-11
实质审查的生效 IPC(主分类):H04L12/26 申请日:20140121
实质审查的生效
2014-05-14
公开
公开
技术领域
本发明涉及网络技术领域,尤其涉及一种网络水军的检测方法及装置。
背景技术
随着信息技术的发展与进步,网络空间已成为继陆、海、空、天四维空 间以外的人类第五维活动空间,尤其在WEB2.0技术应用于互联网领域之 后,论坛、微博等社交应用的发展更是如火如荼。然而在网络空间迅速发展 的同时,它所带来的安全问题也越来越突出,其中以来源于“网络水军”的 安全问题最为常见。“网络水军”是受雇于网络公关公司,针对特定主题进 行发回帖造势的网络用户,据相关机构调查,我国从事网络营销活动的推手 已达数百万人,受雇于商业组织的“网络水军”日趋规模化、公开化、集团 利益化。从“封杀王老吉营销策划方案”到猫扑的“虐猫女事件”再到“蒙 牛陷害门”丑闻,可以说,“网络水军”已经触碰到了法律的底线,甚至有 一部分“网络水军”在国外别有用心的机构操纵之下,在国内各大论坛发布 攻击信息、造谣言论和挑拨语言,制造矛盾,进行恶意的网络文化渗透,危 害国家安全。可见,对“网络水军”进行监管已经刻不容缓。
不同于实体环境,网络论坛的虚拟环境存在固有的开放性特点和独特的 信息传播规律,这就给“网络水军”监管带来很大挑战,主要体现在以下两 个方面:
首先,网络论坛中热门信息的传播呈爆炸趋势,因此事后删帖的方式并 不能对损害结果进行彻底补救,甚至,删帖行为本身反而会被水军利用,从 某种程度上“证实”消息内容的真实性。
其次,网络论坛包含海量数据,如何构造有效的算法从大量无规则数据 中提取可用信息,成为“网络水军”监管的最大障碍。
因此,对“网络水军”的监管不仅要从法律与制度层面完善相关网络法 律体系、及时公布政务情况和公共事件动向,更需要结合网络论坛的特点, 从技术层面提高大规模用户数据处理能力,研究和改进适用于“网络水军” 检测的相关算法,从而识别论坛中的“网络水军”用户,在源头上阻止水军 贴的发布。
“网络水军”检测实质上是分类问题,一种普遍的做法是分析已知分类 用户的相关信息及历史行为,从中提取水军用户区别于正常用户的特点,进 而对未知分类用户信息进行分析,判定哪些用户最可能是“网络水军”。目 前常用于分类问题的算法包括贝叶斯网络、支持向量机、KNN、神经网络等, 其中,贝叶斯网络是用概率统计知识进行分类的算法,它通过贝叶斯定理预 测样本类别,但是贝叶斯定理的成立本身需要一个很强的条件独立性假设前 提,而此假设在实际情况中经常是不成立的,因而其分类准确性会大大下降; 支持向量机需要事先计算样本的空间向量,并设定向量中每个维度对最终结 果的影响权值,权值设定过程很大程度上依赖于历史经验及问题分析,权值 设定的好坏也直接影响了算法的判定准确性;KNN算法是一种懒惰学习方 法,它存放样本,直至需要分类时才运行学习算法,如果样本集比较复杂, 可能会导致很大的计算开销,影响分类的实时性。神经网络算法是最常用于 分类问题的算法,该算法通过训练的方式确定模型参数,可以客观地反映各 个影响因素对最终结果的影响程度,而且神经网络的训练是在分类之前进 行,不会给分类过程带来额外的时间开销。但是基本神经网络模型复杂,当 训练集规模较大时,训练过程耗时太长,且极易因为网络初始权值设置不当 而陷入局部最优解,这就意味着用基本神经网络算法进行“网络水军”发现 时会存在收敛性差、准确率低、耗时长的问题。
发明内容
本发明所要解决的技术问题是提供一种网络水军的检测方法及装置,提 高了网络水军检测算法的收敛性和准确率,缩短海量样本数据下模型训练时 间。
为解决上述技术问题,本发明提出了一种网络水军的检测方法,包括:
步骤一,将原始的用户描述信息表示为归一化的用户描述向量,从所述 用户描述向量中筛选出已分类数据,将该已分类数据的a%作为深度信念网 络DBN模型的训练数据,将该已分类数据的b%作为DBN模型的检测数据, a大于b,且a与b之和等于100,所述用户描述信息的类型由用户预先选 定,所述已分类用户数据指已经被标记为是否网络水军的用户数据;
步骤二,用所述训练数据训练DBN模型,输出训练得到的DBN模型, 将该输出的DBN模型称为输出DBN模型;
步骤三,检验所述输出DBN模型的收敛性和判定准确率,根据检验结 果调整所述步骤一和步骤二中的相关参数,直至所述输出DBN模型达到预 设收敛条件或终止条件,其中,所述判定准确率通过采用所述检测数据检测 所述输出DBN模型而得到;
步骤四,使用最终DBN模型对网络水军进行检测,所述最终DBN模型 是指达到所述预设收敛条件或终止条件的输出DBN模型。
进一步地,上述网络水军的检测方法还可具有以下特点,a的初始值为 60。
进一步地,上述网络水军的检测方法还可具有以下特点,依据步骤二所 得到的DBN模型的收敛性和判定准确率是否达到预期要求调整a的值。
进一步地,上述网络水军的检测方法还可具有以下特点,步骤二中,所 述DBN模型的训练过程包括模型预训练过程和模型微调过程,所述模型预 训练过程采用Downpour SGD算法进行并行RBM训练,所述模型微调过程 采用MapReduce算法进行并行PSO-BP神经网络训练。
进一步地,上述网络水军的检测方法还可具有以下特点,所述用户描述 信息包括注册时长、登录频率、在线时长、用户名长度、密码长度、发帖比 例、回帖比例、相对浏览帖子时间、相对发帖时间、粉丝数和关注数。
为解决上述技术问题,本发明还提出了一种网络水军的检测装置,包括 用户数据预处理模块、DBN模型训练模块、协同模块和检测模块,DBN模 型训练模块分别与用户数据预处理模块、协同模块和检测模块相连,协同模 块还与用户数据预处理模块相连,其中:
用户数据预处理模块,用于将原始的用户描述信息表示为归一化的用户 描述向量,从所述用户描述向量中筛选出已分类数据,将该已分类数据的 a%作为深度信念网络DBN模型的训练数据,将该已分类数据的b%作为 DBN模型的检测数据,a大于b,且a与b之和等于100,所述用户描述信 息的类型由用户预先选定,所述已分类用户数据指已经被标记为是否网络水 军的用户数据;
DBN模型训练模块,用于用所述训练数据训练DBN模型,输出训练得 到的DBN模型,将该输出的DBN模型称为输出DBN模型;
协同模块,用于检验所述输出DBN模型的收敛性和判定准确率,根据 检验结果调整所述步骤一和步骤二中的相关参数,直至所述输出DBN模型 达到预设收敛条件或终止条件,其中,所述判定准确率通过采用所述检测数 据检测所述输出DBN模型而得到;
检测模块,用于使用最终DBN模型对网络水军进行检测,所述最终DBN 模型是指达到所述预设收敛条件或终止条件的输出DBN模型。
进一步地,上述网络水军的检测装置还可具有以下特点,a的初始值为 60。
进一步地,上述网络水军的检测装置还可具有以下特点,依据步骤二所 得到的DBN模型的收敛性和判定准确率是否达到预期要求调整a的值。
进一步地,上述网络水军的检测装置还可具有以下特点,所述DBN模 型的训练过程包括模型预训练过程和模型微调过程,所述DBN模型训练模 块包括预训练单元和微调单元,所述预训练单元用于采用Downpour SGD 算法进行并行RBM训练,所述微调单元用于采用MapReduce算法进行并 行PSO-BP神经网络训练。
进一步地,上述网络水军的检测装置还可具有以下特点,所述用户描述 信息包括注册时长、登录频率、在线时长、用户名长度、密码长度、发帖比 例、回帖比例、相对浏览帖子时间、相对发帖时间、粉丝数和关注数。
本发明的网络水军的检测方法及装置,既提高了网络水军检测算法的收 敛性和准确率,又缩短了海量样本数据下模型训练时间,解决了海量样本数 据下模型训练时间过长的问题。
附图说明
图1为本发明实施例中网络水军的检测方法的流程图;
图2为本发明实施例中用户描述向量的并行处理示意图;
图3为本发明实施例中基于MapReduce算法的用户描述向量各维度数 值范围确定流程图;
图4为基本DBN模型示意图;
图5为Downpour SGD模型示意图;
图6为基于Downpour SGD的并行RBM训练算法流程图;
图7为单层BP神经网络结构图;
图8为单子个粒子PSO-BP神经网络训练算法流程图;
图9为基于工作流的多层协同机制示意图;
图10为本发明实施例中网络水军的检测装置的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本 发明,并非用于限定本发明的范围。
图1为本发明实施例中网络水军的检测方法的流程图。如图1所示,本 实施例中,网络水军的检测方法流程可以包括如下步骤:
步骤S101,将原始的用户描述信息表示为归一化的用户描述向量,从 所述用户描述向量中筛选出已分类数据,将该已分类数据的a%作为DBN (Deep Belief Network,深度信念网络)模型的训练数据,将该已分类数据 的b%作为DBN模型的检测数据,a大于b,且a与b之和等于100,所述 用户描述信息的类型由用户预先选定,所述已分类数据指已经被标记为是否 网络水军的用户数据;
步骤S102,用所述训练数据训练DBN模型,输出训练得到的DBN模 型,将该输出的DBN模型称为输出DBN模型;
其中,DBN模型的训练过程包括模型预训练过程和模型微调过程,所 述模型预训练过程采用Downpour SGD算法进行并行RBM训练,所述模型 微调过程采用MapReduce算法进行并行PSO-BP神经网络训练。
Downpour SGD算法和MapReduce算法为现有技术,此处不对 Downpour SGD算法和MapReduce算法进行详细描述。
步骤S103,检验输出DBN模型的收敛性和判定准确率,根据检验结果 调整所述步骤S101和步骤S102中的相关参数,直至所述输出DBN模型达 到预设收敛条件或终止条件,其中,所述判定准确率通过采用所述检测数据 检测所述输出DBN模型而得到;
步骤S104,使用最终DBN模型对网络水军进行检测,最终DBN模型 是指达到所述预设收敛条件或终止条件的输出DBN模型。
下面对上述步骤作进一步的详细说明。
步骤S101中,将用户描述信息转化为某种数学形式进行表示。客观上, 一个网络论坛用户包含很多描述信息,比如用户注册时间、历次登陆时间、 用户名、密码、登陆IP、浏览历史记录、发帖历史记录、回帖历史记录、论 坛好友记录、粉丝记录、关注用户记录等。本发明中,选取其中比较有代表 性的信息(这些信息即表1所列信息)作为参考,对用户进行分类,并据此 提出用户信息多属性描述框架,框架结构如表1所示。
表1用户信息多属性描述框架
由表1可见,本发明实施例中,用户描述信息可以包括注册时长、登 录频率、在线时长、用户名长度、密码长度、发帖比例、回帖比例、相对浏 览帖子时间、相对发帖时间、粉丝数和关注数。
通过表1的用户信息多属性描述框架,可以将用户描述信息转化为数字 形式的列表,比如,某用户A的用户描述信息经过用户信息多属性描述框架 抽象后,可以表示为如表2所示。
表2用户信息属性列表示例
按照表1的模型,可以实现对用户描述信息的量化表示。例如,表2中 的用户A可以用向量[792天,100次/792天,89小时/792天,6位,6位, 20篇/20篇,0篇,83小时/89小时,6小时/89小时,20个,3个]表示, 该向量称为用户描述向量。类似地,可以将论坛中所有用户描述信息转化为 用户描述向量,从而实现了用户信息的数学表示。
此外,为了方便后续DBN模型训练中初始权值的设置,需要保证用户 描述向量每个维度的数值都在[-1,1]之间,因此本发明中对用户描述向量的 每个维度进行归一化处理,即先提取论坛中所有用户描述向量每个维度的数 据取值范围,再对数值范围超出[-1,1]的维度进行归一化处理。
图2为本发明实施例中用户描述向量的并行处理示意图。如图2所示, 用户描述向量生成以及用户描述向量归一化过程,均可以应用并行模型进行 计算。其中,在用户描述向量生成阶段,可以将所有用户描述信息随机分为 m组并行处理,每个组负责将组内所有用户的描述信息转化为用户描述向 量,再将所有组的用户描述向量依次分配ID号,从而得到用户ID和用户描 述向量对的集合。
图3为本发明实施例中基于MapReduce算法的用户描述向量各维度数 值范围确定流程图。在用户描述向量归一化过程中,如图3所示,先利用 MapReduce算法,找到用户描述向量中每个维度的数值范围,确定哪些维 度的取值范围不在[-1,1]之间,然后将这些维度取值中绝对值的最大值找出 来,并用此绝对值对该维度进行归一化,归一化过程中也可以按照将所有用 户描述向量分为m组的方式并行进行。
通过上述处理,可以得到归一化的用户描述向量集合。其中有一部分数 据是已分类的,即已经有一部分用户被标记为是否“网络水军”,这一类 数据被称为已分类数据,这一类数据的集合被称为“已分类数据集”。为了 进行后续的DBN模型训练,需要将“已分类数据集”分为两部分,其中一 部分称为“训练数据集”,用于进行DBN模型参数的训练,另一部分称为 “测试数据集”,用于检测所得到DBN模型的判定准确率。在两个数据集 的样本数量分配上,由于DBN模型需要学习足够多的样本才能模拟这些样 本中的隐藏规律,所以一般“训练数据集”样本数量较多,但是“训练数据 集”样本数量过多又会带来计算量增加的弊端。针对这一问题,本发明首先 选取“已分类数据集”中60%的样本作为“训练数据集”,之后依据所得到 的DBN模型收敛性和判定准确率是否达到预期要求调整这一比例(即“训 练数据集”占已分类数据集”的比例)。DBN模型的收敛性如何判断?
步骤S102中,DBN(Deep Belief Network,深度信念网络)模型是深 度神经网络的一种,是由多层随机变量节点组成的概率生成模型。图4为基 本DBN模型示意图。如图4所示,基本DBN模型由两层RBM(Restricted Boltzmann Machines,受限玻尔兹曼机)和一层BP神经网络(Back Propagation Neural Network)组成。DBN模型的训练过程分为两个过程: 模型预训练过程和模型微调过程。其中,模型预训练过程采用Downpour SGD算法进行并行RBM训练,模型微调过程采用MapReduce算法进行并 行PSO-BP神经网络训练。
参见图4,模型预训练过程采用逐层无监督贪婪学习的方法来训练模型 中的两层RBM:首先将输入数据X和第一层隐藏层H0作为一个RBM,训 练得到这个RBM的参数(连接V0与H0的权重矩阵W0、V0和H0各个节点的 偏置a和b),然后固定这个RBM的参数,把H0视作可见层,把H1视作隐 藏层,训练第二个RBM,并得到其参数,此时就完成了DBN模型的预训练 过程,确定了两层RBM的初始参数。这个过程中,每层RBM的学习过程 相互独立,大大简化了模型的训练过程。
预训练之后,就可以将整个网络等价为BP神经网络,此BP神经网络 包含两层隐藏节点,其中输入层与第一层隐藏节点、以及两层隐藏节点之间 的网络参数都已完成初始化,只需要对第二层隐藏节点和输出节点的网络参 数进行随机初始化,就可以按照正常BP神经网络的训练方式对该网络进行 误差反向传播训练,直至模型达到收敛或终止条件,这个过程被称作模型微 调过程。
在DBN模型预训练过程中,采用逐层无监督贪婪学习的方法分别训练 两层RBM,相比于传统的多层反馈训练模型,这种方式简化了模型的训练 过程,在一定程度上加快了模型的训练速度。但是面对海量训练数据集,单 层RBM的训练仍然需要很长时间,因此本发明针对单层RBM的训练做了 并行化处理,从而加快了DBN模型预训练的速度,缩短了DBN模型预训练 阶段所需时间。
本发明用DownPour SGD算法对RBM训练过程进行并行处理。图5为 Downpour SGD模型示意图。如图5所示,基于Downpour SGD的并行RBM 实现的基本思想是:将训练数据划分为若干子集,分布在多个Worker服务 器上,在每一个Worker服务器上都运行一个RBM模型的拷贝,Worker服 务器只需和参数服务器进行通信。模型的参数更新通过存储参数的参数服务 器进行,该参数服务器保存了模型所有参数的当前状态。训练阶段,每个 Worker分别从参数服务器获取模型当前状态的参数,并根据该参数执行 min-batch,计算好更新梯度后,将结果推送回参数服务器。在Downpour SGD的一个简单实现中,可以设定每nfetch次mini-batch操作向参数服务器 获取一次更新后的参数,每npush次mini-batch操作推送一次梯度更新到参数 服务器。
图6为基于Downpour SGD的并行RBM训练算法流程图。图6中, η表示参数随梯度的更新速度,nfetch和npush分别表示从参数服务器同步参 数和向参数服务器上传梯度的周期。
DownPour SGD中参数的梯度更新过程是异步进行的,在这种方式下, 即使一台Worker服务器宕机,也不会影响其他Worker服务器的工作。异 步更新过程虽然会导致每个Worker中参数有略微的差别,但在现有实现中, 算法整体仍具有很好的稳定性。
两层RBM参数训练之后,就完成了DBN模型的预训练过程,此时可 以将DBN模型等效为一个四层BP神经网络,其中下三层之间的参数已经 初始化完毕,接下来需要随机初始化最高两层之间的参数,并用训练数据集 训练该BP神经网络,即进行DBN模型的微调过程。
模型微调过程采用MapReduce算法进行并行PSO-BP神经网络训练。 BP神经网络是一种按误差反向传播算法训练的多层前馈神经网络。图7为 单层BP神经网络结构图。如图7所示,BP神经网络的训练由信息正向传 播和误差反向传播两个过程组成,当正向传播结果和预期输出不符时,计算 输出值与预期值的差值,并按照梯度下降方式修正连接权值,此过程一直进 行到网络输出的误差减小到可以接受的程度为止。
BP神经网络的训练过程本质上是通过逐层迭代和反向传播寻找网络权 值的最优组合,从而最小化网络输出和预期输出的差值,但是训练过程中, 通过误差反向传播对网络权值调整的过程非常慢。PSO-BP神经网络算法是 对BP神经网络误差反向传播过程的优化,通过PSO(Particle Swarm Optimization,粒子群算法)在多维搜索空间中迭代寻找最优位置的过程取 代了误差反向传播过程,从而加快了BP神经网络的收敛速度。
PSO-BP神经网络算法中,将网络参数所组成的向量定义为粒子群中的 粒子位置向量,将某个参数向量下模型输出与预期输出的误差值定义为此位 置的优劣衡量指标,显然地,该指标越小,则代表参数越接近最优参数,即 粒子位置越好。算法开始时先初始化一定数量的粒子,每个粒子保存有其当 前位置、历史最优位置、当前速度以及种群历史最优位置的记忆。每演化一 代,粒子利用当前信息和记忆信息调整自己的位置和速度,并更新记忆。粒 子在多维搜索空间中不断调整位置,直到种群到达平衡状态。此时得到的最 优粒子位置,就代表了训练得到的神经网络最优参数。
鉴于PSO-BP神经网络训练样本数据量很大,本发明使用MapReduce 算法对PSO-BP神经网络训练过程进行并行实现,从而加快算法的收敛速 度。其中,每个粒子的迭代过程运行在一个PSO-BP-Worker上,管理服务 器中保存全局最优位置信息和全局最优位置对应的位置优劣衡量指标,每个 粒子迭代进程更新迭代完一轮以后,都要向管理服务器同步最优位置信息, 直至达到规定的迭代次数或达到收敛条件为止。
每个粒子执行的PSO-BP神经网络训练过程的算法流程图如图8所示。 图8中,N表示最大迭代次数;xi、xl、xg表示粒子i的当前位置向量、粒子 i的历史最优位置向量和全局最优位置向量;maxi、maxl、maxg分别代表粒 子i的当前位置优劣衡量指标、粒子i的历史最优位置优劣衡量指标和全局 最优位置优劣衡量指标;ω代表PSO算法惯性权重;c1、c2代表PSO算 法学习因子。
基于MapReduce模型的PSO-BP神经网络训练过程中,各个粒子的迭 代过程都在一个单独的PSO-BP-Worker上运行,每个PSO-BP-Worker只 和管理服务器通信,用来维护全局最优位置和全局最优位置优劣衡量指标信 息,这种方式有很大可扩展性,可以轻松地通过增加初始粒子个数来加速种 群的寻优过程,从而加快算法的收敛速度。
在DBN模型训练过程中,各个参数设置的不同可能会给后续输出带来 影响,进而影响最后得到DBN模型的判定准确率。比如,用户数据预处理 模块中选取的训练数据集的比例过低,会不利于水军用户特征的提取,导致 最终的DBN模型判定准确率低;RBM训练过程中最大迭代次数的选择如果 过低,会使得RBM网络训练不成熟,进而导致后续的PSO-BP神经网络初 始权值设置不当,有可能造成DBN模型陷入局部最优,不能达到预期的判 定准确率;PSO-BP神经网络训练过程中如果种群粒子数量设置过小,会使 得网络收敛缓慢,可能在指定的最大迭代次数之内不能达到收敛;PSO-BP 神经网络训练过程中如果最大迭代次数设置过小,可能导致训练过程提早结 束,而此时DBN模型并未收敛。因此在步骤S103中,需要根据DBN模型 的收敛性和预设的判定准确率反向调整步骤S101和步骤S102中的相关参 数。
本发明的步骤S103中,根据上述参数之间的关联关系,借鉴了工作流 的思想,定义了最终得到DBN模型向用户数据预处理模块和DBN模型训练 模块的反馈流程,从而根据DBN模型的收敛性和判定准确率反向调整用户 数据预处理模块和DBN模型训练模块中的相关参数,改善最终得到DBN模 型的性能。
工作流是一类能够完全或者部分自动执行的经营过程,它根据一系列过 程规则,文档、信息或任务能够在不同的执行者之间进行传递与执行。WfMC (Workflow Management Coalition,工作流管理联盟)中定义了4中基本 的工作流模型,分别是:串联模型、并联模型、选择模型和循环模型,本专 利结合了其中的串联模型、选择模型和循环模型,定义了基于工作流的多层 协同机制。
根据之前的描述,可以确定工作流中包括的3个串联模型,分别是:用 户数据预处理模块完成后进入DBN模型预训练阶段、DBN模型预训练阶段 后进入DBN模型微调阶段、DBN模型微调阶段之后进入DBN模型检测阶 段;工作流中包括的2个判断模型,分别是:PSO-BP模型是否收敛、DBN 模型是否达到判定准确率阈值。其中,在第一个判断模型中,若判断条件成 立,则需要执行的是“进入DBN模型微调阶段”,若判断条件不成立,需要 执行的是“增加PSO算法迭代次数、增加PSO算法种群粒子数量,并进入 DBN模型预训练阶段”;在第二个判断模型中,若判断条件成立,则流程结 束,若判断条件不成立,需要执行的是“增加RBM算法迭代次数、增加数 据预处理模块中训练数据集比例,并进入用户数据预处理模块”。此时,形 成的工作流模型如图9所示。图9为基于工作流的多层协同机制示意图。
在上述确定的工作流中,原始用户数据经过用户数据预处理模块生成归 一化的用户描述向量集合,并经过DBN预训练过程完成网络权值参数的初 始化,进入DBN微调阶段。如果在微调阶段出现PSO-BP模型不收敛的情 况,则增加PSO算法的迭代次数、增加PSO算法种群粒子数量,直到 PSO-BP模型达到收敛,此时就得到了训练后的DBN模型。用测试数据集 对DBN模型检测之后,如果发现DBN模型的判定准确率没有达到预期的阈 值,则增加用户数据预处理模块中训练数据集占已分类数据集的比例,并增 加DBN预训练阶段中RBM算法的迭代次数,重新进行DBN模型的训练, 直到训练得到的DBN模型达到预期的判定准确率为止。
本发明的网络水军的检测方法,是一种面向水军检测的DBN分层协同 方法,该方法用并行实现的改进DBN模型进行网络水军识别,并定义了DBN 模型中各个部分之间的协同机制,既提高了水军检测算法的收敛性和准确 率,又缩短了海量样本数据下模型训练时间,解决了海量样本数据下模型训 练时间过长的问题。
本发明还提出了一种网络水军的检测装置,用以实施上述的网络水军的 检测方法。以上对本发明网络水军的检测方法的描述说明均适用于本发明的 网络水军的检测装置。
图10为本发明实施例中网络水军的检测装置的结构框图。如图10所示, 本实施例中,网络水军的检测装置包括用户数据预处理模块100、DBN模型 训练模块200、协同模块300和检测模块400,DBN模型训练模块200分 别与用户数据预处理模块100、协同模块300和检测模块400相连,协同模 块300还与用户数据预处理模块100相连。其中,用户数据预处理模块100 用于将原始的用户描述信息表示为归一化的用户描述向量,从所述用户描述 向量中筛选出已分类数据,将该已分类数据的a%作为深度信念网络DBN 模型的训练数据,将该已分类数据的b%作为DBN模型的检测数据,a大于 b,且a与b之和等于100,所述用户描述信息的类型由用户预先选定,所 述已分类用户数据指已经被标记为是否网络水军的用户数据。DBN模型训 练模块200用于用所述训练数据训练DBN模型,输出训练得到的DBN模 型,将该输出的DBN模型称为输出DBN模型。协同模块300用于检验所 述输出DBN模型的收敛性和判定准确率,根据检验结果调整所述步骤一和 步骤二中的相关参数,直至所述输出DBN模型达到预设收敛条件或终止条 件,其中,所述判定准确率通过采用所述检测数据检测所述输出DBN模型 而得到。检测模块400用于使用最终DBN模型对网络水军进行检测,所述 最终DBN模型是指达到所述预设收敛条件或终止条件的输出DBN模型。
在本发明实施例中,DBN模型的训练过程包括模型预训练过程和模型 微调过程,DBN模型训练模块200可以包括预训练单元和微调单元。预训 练单元用于采用Downpour SGD算法进行并行RBM训练,微调单元用于采 用MapReduce算法进行并行PSO-BP神经网络训练。
在本发明实施例中,用户描述信息可以包括注册时长、登录频率、在线 时长、用户名长度、密码长度、发帖比例、回帖比例、相对浏览帖子时间、 相对发帖时间、粉丝数和关注数。
在本发明实施例中,a的初始值可以设置为60。之后可以依据DBN模 型训练模块所得到的DBN模型的收敛性和判定准确率是否达到预期要求调 整a的值。
本发明的网络水军的检测装置,采用一种面向水军检测的DBN分层协 同方法,该方法用并行实现的改进DBN模型进行网络水军识别,并定义了 DBN模型中各个部分之间的协同机制,既提高了网络水军检测算法的收敛 性和准确率,又缩短了海量样本数据下模型训练时间,解决了海量样本数据 下模型训练时间过长的问题。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明 的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发 明的保护范围之内。
机译: 网络故障检测装置,数据中继装置,网络故障检测方法,网络故障检测程序和网络故障检测系统
机译: 网络故障检测装置,网络故障检测装置的网络故障检测方法以及网络故障检测程序
机译: 应用程序分类方法,网络异常检测方法,应用程序分类程序,网络异常检测程序,应用程序分类装置和网络异常检测装置