公开/公告号CN112905662A
专利类型发明专利
公开/公告日2021-06-04
原文格式PDF
申请/专利权人 上海宏原信息科技有限公司;
申请/专利号CN202110171747.3
申请日2021-02-08
分类号G06F16/2458(20190101);G06Q50/00(20120101);
代理机构31287 上海容慧专利代理事务所(普通合伙);
代理人于晓菁
地址 200233 上海市徐汇区钦州北路1001号12幢1601部位03单元
入库时间 2023-06-19 11:16:08
技术领域
本发明涉及流量分析技术领域,具体涉及一种互联网真伪消费者判别方法、系统和装置。
背景技术
目前,对于甄别虚假消费者(网络异常账号)的方法主要有3种:基于内容特征分析、基于用户行为特征分析以及基于用户关系特征的分析方法。
内容特征分析是指通过自然语言处理相关技术,如文本分析、情感分析去识别文本间的相似性和情感倾向,从而达到识别异常账号的目的。这一技术主要在互联网时代早期广泛应用,比如通过检测重复内容来识别垃圾邮件。但是随着互联网的进步,异常账号越来越会隐藏自己,甚至可以模仿真实消费者发言,单纯的从文本内容已经无法有效的进行异常账号识别了。随着网络趋于多元化,消费者的发言形式也更复杂,会充斥着更多无意义的内容(如重复跟帖)。所以仅凭文本内容进行判定,会把很多真实用户识别为异常账号。
基于用户行为特征的方法依赖于机器学习模型,如逻辑回归、朴素贝叶斯、随机森林等等,可以避免因为异常账号发言内容趋近于真人而无法识别的问题,而且经过数据验证,能够取得比较高的准确率和召回率。但是这种基于用户特征的方法应用随着社交平台上的数据量越来越大(十亿、百亿级),在商业应用中几乎不可能被实现。原因在于,1)模型需要人工判断和标注哪些是异常账号作为训练数据,如果要在1亿条用户数据中找出哪些是异常账号,需要人工标注大量数据,成本高。2)即使有了标注好的异常账号数据,预测需要花费大量的计算资源和时间。3)此类模型的准确率通常在80%左右,离商业应用还有一段差距。
同理,基于用户关系识别的方法依赖于图论、概率图等模型,也会在应用中会遇到和机器学习模型相似的问题。除此以外,随着互联网用户更加注重个人隐私的保护,基于用户关系识别的方法所必要的用户社交网络数据变得非常难获取,进一步增加了该方法实施的难度。
发明内容
本发明的目的是提供一种互联网真伪消费者判别方法、系统和装置,用以识别互联网平台中真假消费者。
为了达到上述目的,本发明一方面提供一种互联网真伪消费者判别方法包括以下步骤:
数据获取,随机选取样本用户,提取用户的行为数据和发布内容数据;
确定阈值,建立特征异常判定的动态阈值,所述动态阈值用以表示用户异常行为与正常行为的量化差异;
账号识别,根据动态阈值建立评估机制动态评估用户的状态,识别出异常用户账号。
进一步的,在数据获取过程中,提取的用户的行为数据和发布内容数据包括:
用户信息,包括用户名、用户账号、关注数、粉丝数;
主动发布内容,包括文字、发布时间;
转发、评论内容,包括被转发或评论的内容、转发或评论时写的内容、转发或评论的时间。
进一步的,所述阈值确定过程中,包括:
计算用户账号存在异常行为次数的分位点,上下四分位点分别记为Q3和 Q1;
计算上异常值边界和下异常值边界,上异常值边界=Q3+1.5(Q3-Q1),下异常值边界=Q1-1.5(Q3-Q1);
将上异常值边界作为阈值,大于上异常值边界的为异常值。
进一步的,本方法还包括:
计算用户账号的活跃天数和不活跃天数;
根据用户账号的活跃天数和不活跃天数作为边界绘制箱型图,根据箱型图设定阈值。
进一步的,本方法根据下述步骤判断用户账号异常特征:
判断用户账号的关注数或粉丝数大于阈值1且关注数大于阈值2;
半年内异常行为次数大于阈值3,所述异常行为包括:
回复单条内容次数大于阈值4;
单条内容下回复了重复次数大于阈值4且长度大于阈值5的内容;
转发同一条内容次数大于阈值4;
发布重复次数大于阈值6且长度>阈值5的内容;
其中阈值1=9.6,阈值2=110,阈值3=4,阈值4=4,阈值5=10,阈值6=7。
进一步的,异常用户账号判断还包括:
计算用户账号用户名与已识别的异常账号账号用户名的编辑距离,所述编辑距离为EditDistance(s1,s2),S1为用户名字符串,S2为异常账号账号用户名字符串;
当所述编辑距离大于2,判断用户账号为异常账号。
另一方面,本发明还提供一种互联网真伪消费者判别系统,包括:
数据获取单元,用以随机选取样本用户,提取用户的行为数据和发布内容数据;
确定阈值单元,用以建立特征异常判定的动态阈值,所述动态阈值用以表示用户异常行为与正常行为的量化差异;
账号识别单元,用以根据动态阈值建立评估机制动态评估用户的状态,识别出异常用户账号;
另一方面,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述方法的步骤。
本发明提供的一种互联网真伪消费者判别方法、系统和装置,针对社交类和垂直类平台设计多模式的异常账号识别方法,将用户的发言内容与行为相结合,其通过随机选取样本用户,提取用户的行为数据和发布内容数据;建立特征异常判定的动态阈值,以确定用户异常行为与正常行为的量化差异;根据动态阈值建立评估机制动态评估用户的状态,识别出异常用户账号。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的互联网真伪消费者判别方法的流程图。
图2是本发明实施例的互联网真伪消费者判别系统的框架图。
图3是本发明实施例的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本发明主要解决社交类平台和行业垂直平台中的真伪消费者识别问题。由于平台特性不一样,需要为社交平台和行业垂直平台分别设计网络异常账号识别的方法。
图1为本发明实施例的互联网真伪消费者判别方法的流程图。如图1所示,本发明的一种互联网真伪消费者判别方法包括以下步骤:
S100,数据获取,随机选取样本用户,提取用户的行为数据和发布内容数据。
具体的,本发明的样本用户提取自社交类平台和行业垂直平台。提取的信息包括:用户信息,含用户名、用户ID、关注数、粉丝数等。所有主动发布的内容,包括文字、发布时间等。所有转发、评论过的内容,包括被转发或评论的内容、转发或评论时写的内容、转发或评论的时间等。
S200,确定阈值,建立特征异常判定的动态阈值,所述动态阈值用以表示用户异常行为与正常行为的量化差异。
在一个实施例中,针对行业垂直网站,使用场景推理得出异常账号的行为和内容特征。行业垂直平台上,主要的异常账号行为和内容特征包含:
特征一:大量回复平台上的活动贴、或者参与发布活动相关的内容。平台型异常账号通常用来配合平台发布的活动来造势,通过回复的方式。
特征二:长期不发帖,之后又开始活跃,且之后的活跃内容以参与活动或讨论品牌为主。这是废弃账号型异常账号的典型特征之一,平台会把长期不发帖的用户账号回收,拿这些账号去为平台增加活跃度。
特征三:注册时间和首次发帖时间间隔很长。这是废弃账号型异常账号的典型特征之一,平台会把长期不发帖的用户账号回收,拿这些账号去为平台增加活跃度。
特征四:有多个月都会发布或回复很多和品牌相关的帖子。这是营销账号型异常账号的特征。
具体的,本实施例通过数据驱动的方式,找到每个平台的异常账号和普通用户账号,在行为和内容的特征上的量化差异,通过阈值的方式加以区分。
可以理解的是,异常账号的数量相对普通用户数量是较少的,他们的行为和内容在上述特征上会表现出异常,而一个异常账号账号会表现出至少一个特征上的异常。因此,阈值可被设置为每年动态更新一次。
在一个实施例中,可通过阈值计算方式,确定动态阈值,计算过程包括:
计算用户账号存在异常行为次数的分位点,上下四分位点分别记为Q3和 Q1。
计算上异常值边界和下异常值边界,上异常值边界=Q3+1.5(Q3-Q1),下异常值边界=Q1-1.5(Q3-Q1)。
将上异常值边界作为阈值,大于上异常值边界的为异常值。
在另一个实施例中,在确定上异常值边界和下异常值边界后,可通过绘制箱型图,设定箱型图的上边缘是异常值的阈值,即图形上大于上边缘的都是异常值。
例如,判定账号中的“长期不发帖,之后又开始活跃”的特征吗,采用以上的方式,绘制箱型图。
具体的,发现该平台上,绝大部分用户如果超过122天不活跃,之后都不会再活跃。将阈值设置为122,如果有用户超过122天不活跃,就满足了“长期不发帖,之后又开始活跃”这个特征。
在另一个实施例中,针对社交类平台,其异常账号行为和内容特征包括:
特征一:关注很多账号,自己只有很少的粉丝。这是假粉丝型异常账号的重要特征。这些异常账号账号通常存在用于给买粉丝的人增加粉丝量。
特征二:回复或转发同一条内容多次,且回复或转发的内容不完全一样。这是营销账号型异常账号的特征,重复的回复或转发是为了让内容看起来活跃度很高。
特征三:回复或转发同一条内容多次,且回复或转发的内容完全一样。这是机器人账号型异常账号的特征,重复的回复或转发是为了让内容看起来活跃度很高。
特征四:发布同一条内容多次。这是机器人账号型异常账号的特征,重复的内容是为了让该信息可以更多次地传播。
特征五:和已识别的异常账号账号的账号名相似。这是机器人账号型异常账号的特征,通常是通过机器人程序自动注册了很多姓名相似的账号。
具体的,本实施例通过数据驱动的方式,找到每个平台的异常账号和普通用户账号,在行为和内容的特征上的量化差异,通过阈值的方式加以区分。
其中,判断用户账号异常特征包括以下步骤:
判断用户账号的关注数或粉丝数大于阈值1且关注数大于阈值2;
半年内异常行为次数大于阈值3,其中,所述异常行为包括:
回复单条内容次数大于阈值4;
单条内容下回复了重复次数大于阈值4且长度大于阈值5的内容;
转发同一条内容次数大于阈值4;
发布重复次数大于阈值6且长度>阈值5的内容。
其中,阈值1=9.6,阈值2=110,阈值3=4,阈值4=4,阈值5=10,阈值6=7。
进一步的,异常用户账号判断还包括:
计算用户账号用户名与已识别的异常账号账号用户名的编辑距离,所述编辑距离为EditDistance(s1,s2),S1为用户名字符串,S2为异常账号账号用户名字符串。其中编辑的定义包括:增加一个字符、修改一个字符、删除一个字符。
当所述编辑距离大于2,判断用户账号为异常账号。
S300,账号识别,根据动态阈值建立评估机制动态评估用户的状态,识别出异常用户账号。
具体的,评估机制如图4所示,满足以下条件的是异常账号,其余的为真实消费者账号。
其中,图中有多处蓝色的判断框(蓝色菱形),蓝色判断框意味着各个平台在不同时间段类都有相同的阈值。图中有四处黄色的判断框(黄色菱形),黄色判断框意味着各个平台或随时间变化,平台的阈值会发生变化。
S400,校验,在平台中抽取抽样1000个用户,人工标注和预测结果进行比较,计算真伪消费者账号识别算法的准确率。
在一个实施例中,比较衡量技术效果的两个主要指标是准确率(accuracy),其计算方法为:
准确率=样本中识别正确的账号数/样本账号数。
经过分别随机抽样1000个账号样本并进行人工标注过后,统计准确率结果,行业垂直平台准确率=95.3%,社交类平台的准确率=97.6%。远高于学术论文、市场上的平均水平。
图2是本发明实施例的互联网真伪消费者判别系统的框架图。如图2所示,本实施例的互联网真伪消费者判别系统包括:
数据获取单元100,用以随机选取样本用户,提取用户的行为数据和发布内容数据。
确定阈值单元200,用以建立特征异常判定的动态阈值,所述动态阈值用以表示用户异常行为与正常行为的量化差异.
账号识别单元300,用以根据动态阈值建立评估机制动态评估用户的状态,识别出异常用户账号。
测试单元400,用以在平台中抽取抽样1000个用户,人工标注和预测结果进行比较,计算真伪消费者账号识别算法的准确率。
另一方面,本发明还提供一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行执行上述方法的步骤。
图3是本发明一个实施例的一种电子设备的结构示意图。如图3所示,本发明一个实施例的一种电子设备包括一个或多个输入设备1000、一个或多个输出设备1000、一个或多个处理器3000和存储器4000。
在本发明一个实施例中,处理器1000、输入设备2000、输出设备3000和存储器4000可以通过总线或其它方式连接。输入设备2000、输出设备3000可以是标准的有线或无线通信接口。
处理器1000可以是中央处理模块(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器4000可以是高速RAM存储器,也可为非不稳定的存储器,例如磁盘存储器。存储器4000用于存储一组计算机程序,输入设备2000、输出设备 3000和处理器1000可以调用存储器4000中存储的程序代码。
存储器4000存储的计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述实施例中所述专利价值评估方法的步骤。
本发明的一个实施例还提供一种计算机可读存储介质。该计算机可读存储介质可以是高速RAM存储器,也可为非不稳定的存储器,例如磁盘存储器。该计算机可读存储介质可通过外部计算设备或网络进行连接,以读取该计算机可读存储介质所存储的一组计算机程序。该计算机可读存储介质存储的计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述实施例中上述方法的步骤。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 确定纸张的真伪和真伪判别方法,真伪确定装置和真伪判别系统
机译: 利用互联网在消费者中基于消费者信用度判别服务点的方法
机译: 印刷品制造方法,印刷物制造装置,真伪识别方法,真伪判别装置及印刷品