首页> 中国专利> 一种社交媒体机器人群体快速检测方法

一种社交媒体机器人群体快速检测方法

摘要

本发明提供一种社交媒体机器人群体快速检测方法,其特征在于,包括如下步骤:步骤一,获取个体社交账户的基本属性特征向量、行为特征向量、文本特征向量和关系属性特征向量;步骤二,通过机器学习模型检测出个体社交机器人;步骤三,获取所述个体社交账户在图神经网络上的向量表达成为图向量;步骤四,利用所有个体社交账户的图向量,通过计算图向量的相似度,来判断所述尚未检测的个体社交账户是否为社交机器人。本发明先检测出个体社交机器人,再通过通过基于图神经网络的相似用户判断,寻找与检测出的个体社交机器人相似的用户,能够实现快速检测社交媒体机器人群体。

著录项

说明书

技术领域

本发明涉及网络空间社交媒体安全治理领域,具体而言,涉及一种社交媒体机器人群体快速检测方法。

背景技术

当前社交媒体平台使用越来越广泛,由于网络的匿名性和便捷性,每个人都愿意在社交媒体平台表达观点、发表言论,大量的网络意见逐渐汇聚形成民意,会影响决策者的判断。随着社交媒体机器人技术的进步,通过人为操纵大量社交媒体机器人发表有目的言论,在网络上炒作热点、煽动民众,对网络空间安全乃至社会安全构成严重威胁,因此如何实现大批量社交媒体机器人群体快速、有效检测是个亟待解决的问题。

发明内容

本发明旨在提供一种社交媒体机器人群体快速检测方法,以解决如何实现大批量社交媒体机器人群体快速、有效检测的问题。

本发明提供的一种社交媒体机器人群体快速检测方法,包括如下步骤:

步骤一,特征分析:从社交网络平台获取个体社交账户的基本信息、行为信息、内容信息和关系信息,并通过向量转化得到所述个体社交账户的基本属性特征向量、行为特征向量、文本特征向量和关系属性特征向量,然后将所述个体社交账户的基本属性特征向量、行为特征向量、文本特征向量和关系属性特征向量进行拼接融合,得到所述个体社交账户的用户特征向量;

步骤二,个体检测:利用所述个体社交账户的基本属性特征向量、行为特征向量和文本特征向量,通过机器学习模型检测出个体社交机器人;

步骤三,图向量表达:基于图神经网络中node2vec算法对所有个体社交账户的用户特征向量进行编码,得到所有个体社交账户在图上的向量表达,将所述个体社交账户在图神经网络上的向量表达成为图向量;

步骤四,群体检测:利用所有个体社交账户的图向量,通过计算尚未检测的个体社交账户的图向量与步骤二中已检测出的个体社交机器人对应个体社交账户的图向量的相似度,来判断所述尚未检测的个体社交账户是否为社交机器人。

进一步的,步骤一中所述向量转化的方法包括:

基于预先构建的第一向量转化特征工程,将所述个体社交账户的基本信息转化为所述个体社交账户的基本属性特征向量;

基于预先构建的第二向量转化特征工程,将所述个体社交账户的行为信息转化为所述个体社交账户的行为特征向量;

基于预先构建的第三向量转化特征工程,将所述个体社交账户的内容信息转化为所述个体社交账户的文本特征向量;

基于预先构建的第四向量转化特征工程,将所述个体社交账户的关系信息转化为所述个体社交账户的关系属性特征向量。

进一步的,所述第一向量转化特征工程和第二向量转化特征工程均采用onehot编码技术实现。

进一步的,所述第三向量转化特征工程为利用深度神经网络构建并预训练的sentence_bert模型;所述基于预先构建的第三向量转化特征工程将所述个体社交账户的内容信息转化为所述个体社交账户的文本特征向量的方法包括:

基于预训练的sentence_bert模型用预设的训练集进行微调,取CLS位置的输出向量作为整个句子向量表达语义;

将所述个体社交账户的内容信息分别送入已经完成微调的sentence_bert模型,得到各个文本内容的语义向量;

利用池化层将各个文本内容的语义向量进行池化融合,得到与单个语义向量维度不变的综合语义向量,并以此作为用户文本特征向量。

进一步的,所述第四向量转化特征工程为构建的共同好友占比量公式,如下:

Co_friend表示共同好友占比量,w表示两个个体社交账户的共同好友,n表示个体社交账户一的好友,P表示个体社交账户二的好友。

进一步的,步骤二中所述通过机器学习模型检测出社交机器人的方法为:

根据监督学习的方法,对个体社交账号进行打标,标记出典型机器人账号和部分正常账号;

将标记出的典型机器人账号和部分正常账号的基本属性特征向量、行为特征向量和文本特征向量,按照1:1比例组成训练样本,并利用训练样本训练机器学习模型;

利用训练完成后的机器学习模型检测出个体社交机器人。

进一步的,步骤三中基于图神经网络中node2vec算法对所有个体社交账户的用户特征向量进行编码得到所有个体社交账户在图上的向量表达的方法包括:

利用所有个体社交账户的关系信息构建图神经网络;图神经网络中个体社交账户作为节点,包括个体社交账户的基本属性特征向量、行为特征向量和文本特征向量,个体社交账户的关系属性作为连接节点的边;

通过两个节点的特征向量做内积计算连接节点的边的权重:

式中,a表示节点a对应个体社交账户的基本属性特征向量、行为特征向量和文本特征向量;b表示节点b对应个体社交账户的基本属性特征向量、行为特征向量和文本特征向量;a

利用节点以及边的权重进行node2vec算法得到所有个体社交账户在图上的向量表达。

进一步的,步骤四中通过计算尚未检测的个体社交账户的图向量与步骤二中已检测出的个体社交机器人对应个体社交账户的图向量的相似度来判断所述尚未检测的个体社交账户是否为社交机器人的方法包括:

通过如下公式计算相似度:

式中,similarity表示计算得到的尚未检测的个体社交账户的图向量与步骤二中已检测出的个体社交机器人对应个体社交账户的图向量的相似度,A、B分别表示已检测出的个体社交机器人对应个体社交账户的图向量和尚未检测的个体社交账户的图向量;A

将计算得到的相似度与预先设置的相似度阈值进行比较,当计算得到的相似度大于相似度阈值时,判断为社交机器人。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

本发明先检测出个体社交机器人,再通过通过基于图神经网络的相似用户判断,寻找与检测出的个体社交机器人相似的用户,能够实现快速检测社交媒体机器人群体。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的社交媒体机器人群体快速检测方法的流程图。

图2为本发明实施例的从社交网络平台获取个体社交账户各类信息示意图。

图3为本发明实施例构建的图神经网络示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

如图1所示,本实施例提出一种社交媒体机器人群体快速检测方法,包括如下步骤:

步骤一,特征分析:从社交网络平台获取个体社交账户的基本信息、行为信息、内容信息和关系信息,并通过向量转化得到所述个体社交账户的基本属性特征向量、行为特征向量、文本特征向量和关系属性特征向量,然后将所述个体社交账户的基本属性特征向量、行为特征向量、文本特征向量和关系属性特征向量进行拼接融合,得到所述个体社交账户的用户特征向量;

如图2所示,从社交网络平台获取个体社交账户的基本信息包括年龄、性别、所属行业、居住地等;对应的基本属性特征向量包括年龄特征、性别特征、所属行业特征、居住地特征;

从社交网络平台获取个体社交账户的行为信息包括行为时间、活跃时间等;对应的行为特征向量包括行为时间特征、活跃时间特征等;

从社交网络平台获取个体社交账户的内容信息包括偏好主题、偏好内容形式等;对应的文本特征向量包括偏好主题特征、偏好内容形式特征等;

从社交网络平台获取个体社交账户的关系信息包括共同好友关系和共同关注关系;对应的关系属性特征向量包括共同好友关系特征和共同关注关系特征。

本实施例中所述向量转化的方法包括:

(1)基于预先构建的第一向量转化特征工程,将所述个体社交账户的基本信息转化为所述个体社交账户的基本属性特征向量;

(2)基于预先构建的第二向量转化特征工程,将所述个体社交账户的行为信息转化为所述个体社交账户的行为特征向量;

其中,所述第一向量转化特征工程和第二向量转化特征工程均采用onehot编码技术实现,具体地,对于分布区间小的离散值类型,采用基础onehot编码,对于分布区间大的离散值类型以及连续值类型采用分区间段的onehot编码。

(3)基于预先构建的第三向量转化特征工程,将所述个体社交账户的内容信息转化为所述个体社交账户的文本特征向量;

所述第三向量转化特征工程为利用深度神经网络构建并预训练的sentence_bert模型;所述基于预先构建的第三向量转化特征工程将所述个体社交账户的内容信息转化为所述个体社交账户的文本特征向量的方法包括:

基于预训练的sentence_bert模型用预设的训练集进行微调(fine_tune),取CLS位置的输出向量作为整个句子向量表达语义;

将所述个体社交账户的内容信息分别送入已经完成微调(fine_tune)的sentence_bert模型,得到各个文本内容的语义向量;

利用池化层将各个文本内容的语义向量进行池化融合,得到与单个语义向量维度不变的综合语义向量,并以此作为用户文本特征向量。

(4)基于预先构建的第四向量转化特征工程,将所述个体社交账户的关系信息转化为所述个体社交账户的关系属性特征向量。

所述第四向量转化特征工程根据数据的独特性构建特定公式表达,本实施例中所述第四向量转化特征工程为构建的共同好友占比量公式,如下:

Co_friend表示共同好友占比量,w表示两个个体社交账户的共同好友,n表示个体社交账户一的好友,P表示个体社交账户二的好友。

步骤二,个体检测:利用所述个体社交账户的基本属性特征向量、行为特征向量和文本特征向量,通过机器学习模型检测出个体社交机器人;

所述通过机器学习模型检测出社交机器人的方法为:

根据监督学习的方法,对个体社交账号进行打标,标记出典型机器人账号和部分正常账号;

将标记出的典型机器人账号和部分正常账号的基本属性特征向量、行为特征向量和文本特征向量,按照1:1比例组成训练样本,并利用训练样本训练机器学习模型;

利用训练完成后的机器学习模型检测出个体社交机器人。

虽然可以采用训练完成后的机器学习模型对所有个体社交账户检测是否为社交机器人,但是这种个体检测方式效率低,发掘面低造成漏检,所以本发明通过后续结合图神经网络进行群体检测,提高效率和召回率。

步骤三,图向量表达:基于图神经网络中node2vec算法对所有个体社交账户的用户特征向量进行编码,得到所有个体社交账户在图上的向量表达,将所述个体社交账户在图神经网络上的向量表达成为图向量;

步骤三中基于图神经网络中node2vec算法对所有个体社交账户的用户特征向量进行编码得到所有个体社交账户在图上的向量表达的方法包括:

利用所有个体社交账户的关系信息构建图神经网络,如图3所示;图神经网络中个体社交账户作为节点,如图3中的节点u和节点S

通过两个节点的特征向量做内积计算连接节点的边的权重:

式中,a表示节点a对应个体社交账户的基本属性特征向量、行为特征向量和文本特征向量;b表示节点b对应个体社交账户的基本属性特征向量、行为特征向量和文本特征向量;a

利用节点以及边的权重进行node2vec算法得到所有个体社交账户在图上的向量表达。图神经网络具有表达同质性和结构性的特点,其中:

DFS方式得到的embedding有很好的聚类性质,每个簇的边界结点跟内部的联系要比跟外部的联系更多。反映了网络的同质性。

BFS方式得到的embedding是按功能划分的,处于graph边缘的结点有类似的embedding,连接graph边缘和中心的结点有类似的embedding,这些结点并不都是互相连接的,node2vec得到的embedding仍然能学习出这样的信息。反映了网络的结构性。

同质性是能模型能找出每个簇的边界,使得簇内结点彼此联系的紧密程度要超过跟簇外结点的联系,结构性能够反映节点连接的结构特点,图神经网络能够有效的表达出这些特征。

由此本实施例中利用节点以及边的权重进行node2vec算法得到所有个体社交账户在图上的向量表达具体步骤如下:

(1)边的权重值作为一个节点到它的邻居节点的转移概率。

(2)将这个转移概率加到图神经网络G中形成G';

(3)walks用来存储随机游走,先初始化为空;

(4)外循环r次表示每个节点作为初始节点u要生成r个随机游走;

(5)然后对G'中每个节点生成一条长度为L的随机游走walk。其中随机游走walk的生成方式如下:

将初始节点u添加到一条随机游走walk中进去;

walk的长度为L,因此还要再循环添加L-1个节点;

当前节点设为walk最后添加的节点;

找出当前节点的所有邻居节点;

根据转移概率采样选择某个邻居节点s;

将该邻居节点添加到walk中;

(6)将walk添加到walks中保存;

(7)使用SGD的方法对walks进行训练,即可得到所有个体社交账户在图上的向量表达。其中,SGD方法就是训练skip-gram时用到的随机梯度下降算法,该方法为现有技术,在此不再赘述。

步骤四,群体检测:利用所有个体社交账户的图向量,通过计算尚未检测的个体社交账户的图向量与步骤二中已检测出的个体社交机器人对应个体社交账户的图向量的相似度,来判断所述尚未检测的个体社交账户是否为社交机器人。

经过步骤三通过node2vec算法后能够把图神经网络中各个节点表达为长度相同的图向量,利用所有个体社交账户的图向量,步骤四中通过计算尚未检测的个体社交账户的图向量与步骤二中已检测出的个体社交机器人对应个体社交账户的图向量的相似度来判断所述尚未检测的个体社交账户是否为社交机器人的方法包括:

通过如下公式计算相似度(余弦相似度):

式中,similarity表示计算得到的尚未检测的个体社交账户的图向量与步骤二中已检测出的个体社交机器人对应个体社交账户的图向量的相似度,A、B分别表示已检测出的个体社交机器人对应个体社交账户的图向量和尚未检测的个体社交账户的图向量,A、B也对应图神经网络中的两个节点;A

将计算得到的相似度与预先设置的相似度阈值进行比较,当计算得到的相似度大于相似度阈值时,判断为社交机器人。由此,本发明先检测出个体社交机器人,再通过通过基于图神经网络的相似用户判断,寻找与检测出的个体社交机器人相似的用户,能够实现快速检测社交媒体机器人群体。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号