首页> 中国专利> 一种羊毛党账号检测方法、装置、电子设备及存储介质

一种羊毛党账号检测方法、装置、电子设备及存储介质

摘要

本申请提供一种羊毛党账号检测方法、装置、电子设备及存储介质,该方法包括:获取待检测数据集,待检测数据集中包括若干用户账号,用户账号均为未标注是否为羊毛党账号;对所有用户账号进行检测,从待检测数据集中筛选出明显的羊毛党账号,将所有明显的羊毛党账号作为第一数据集;将待检测数据集中剩余的用户账号作为第二数据集;第二数据集基于预建神经网络模型,确定第三数据集;输出第一数据集和第三数据集。该方案可以有效帮助电商平台发现隐藏得更深得羊毛党账号,减少经济损失;且能有效帮助电商平台提高检测效率,提高模型准确度,降低检测投入的成本。

著录项

  • 公开/公告号CN114925253A

    专利类型发明专利

  • 公开/公告日2022-08-19

    原文格式PDF

  • 申请/专利权人 中央财经大学;

    申请/专利号CN202210669104.6

  • 发明设计人 王秀利;梁舒昱;

    申请日2022-06-14

  • 分类号G06F16/9035(2019.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06Q30/02(2012.01);G06Q30/06(2012.01);

  • 代理机构北京市诚辉律师事务所 11430;北京市诚辉律师事务所 11430;

  • 代理人成丹;耿慧敏

  • 地址 100081 北京市海淀区学院南路39号

  • 入库时间 2023-06-19 16:26:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-06

    实质审查的生效 IPC(主分类):G06F16/9035 专利申请号:2022106691046 申请日:20220614

    实质审查的生效

说明书

技术领域

本发明属于金融信用技术领域,特别涉及一种羊毛党账号检测方法、装置、电子设备及存储介质。

背景技术

如今,电商平台为了吸引用户、促进销售,经常推出0元购、限时降价、优惠券、新人礼等多种让利促销活动,催生了一大批羊毛党,严重损害了商家和平台的合法利益。羊毛党的本意是指利用规则漏洞获取小额利益的用户,现在它成为了通过平台漏洞、技术手段获取非法利益的团伙的代名词。这些团伙内部专人负责监控全网优惠信息,通过代码和程序自动注册、下单,抢到优惠商品或优惠券后,通过刷单、倒卖等方式获利,俨然已经在我国形成了超过千亿元的市场,更是有200多万的职业羊毛党。

现有羊毛党账号检测方法中,用少数特征属性进行检测,难以应对如今复杂场景下的羊毛党账号检测。而羊毛党团队中出现了更深层次的隐藏IP地址、黑市盗买真人身份信息手机号注册账号等应对方法;甚至有的羊毛党团队开发出了卷积神经网络模型用于自动识别、填写验证码。这点不足还会带来投入了检测成本,但是检测效率低,仍有被薅羊毛从而带来经济损失的后果。

发明内容

本说明书实施例的目的是提供一种羊毛党账号检测方法、装置、电子设备及存储介质。

为解决上述技术问题,本申请实施例通过以下方式实现的:

第一方面,本申请提供一种羊毛党账号检测方法,该方法包括:

获取待检测数据集,待检测数据集中包括若干用户账号,用户账号均为未标注是否为羊毛党账号;

对所有用户账号进行检测,从待检测数据集中筛选出明显的羊毛党账号,将所有明显的羊毛党账号作为第一数据集;将待检测数据集中剩余的用户账号作为第二数据集;

第二数据集基于预建神经网络模型,确定第三数据集;

输出第一数据集和第三数据集。

第二方面,本申请提供一种羊毛党账号检测装置,该装置包括:

获取模块,用于获取待检测数据集,待检测数据集中包括若干用户账号,用户账号均为未标注是否为羊毛党账号;

第一检测模块,用于对所有用户账号进行检测,从待检测数据集中筛选出明显的羊毛党账号,将所有明显的羊毛党账号作为第一数据集;将待检测数据集中剩余的用户账号作为第二数据集;

第二检测模块,用于第二数据集基于预建神经网络模型,确定第三数据集;

输出模块,用于输出第一数据集和第三数据集。

第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的羊毛党账号检测方法。

由以上本说明书实施例提供的技术方案可见,该方案:通过两个阶段分别检测用户账号中明显的羊毛党账号(即第一数据集)和不明显的羊毛党账号(第三数据集),能有效帮助电商平台发现隐藏得更深得羊毛党账号,减少经济损失;且能有效帮助电商平台提高检测效率,提高模型准确度,降低检测投入的成本。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的羊毛党账号检测方法的流程示意图;

图2为本申请提供的数据预处理流程示意图;

图3为本申请提供的新样本生成流程示意图;

图4为本申请提供的神经网络模型示意图;

图5为本申请提供的预建神经网络模型的训练流程图;

图6为本申请提供的羊毛党账号检测装置的结构示意图;

图7为本申请提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

在不背离本申请的范围或精神的情况下,可对本申请说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。

本申请中的“份”如无特别说明,均按质量份计。

相关技术中,羊毛党账号的检测方法一般可以分为基于规则的方法和基于用户行为的方法两大类。基于规则的方法是指推出让利促销活动的平台,即检测方根据羊毛党账号的交易特征和技术手段进行一定的研究后,设置相应的规则条件,当某一用户触发某规则条件时,系统判定该用户为羊毛党,并限制该用户的操作。基于用户行为的方法是指检测方对用户行为进行一段时间的观测,对其行为特征进行数据收集、处理和分析,构建特殊行为库与阈值,当某一账号行为超出阈值时,系统判定该用户为羊毛党,并限制该用户的操作。

基于规则的方法在实际应用中,具体方案有两种。第一种是根据羊毛党账号登录、注册的特点,为用户的登录IP和注册手机号这两个属性设置规则条件;验证用户的IP是否属于IP黑名单、虚拟号和手机号是否属于猫池、虚拟号,触发阈值时标注为疑似羊毛党账号,通过图形验证、语音验证、人工审核的方法进行进一步验证。第二种是根据羊毛党账号抢购商品、优惠券的特点,为单个账号下单次数、IP下单次数等属性设置规则条件和阈值;某一账号的行为出发阈值时标注为疑似羊毛党账号,通过图形验证、语音验证、人工审核的方法进行进一步验证。

基于用户行为的方法在实际应用中,运用较为广泛。第一种具体方案是收集用户的地理位置信息,即获取下单用户的经纬度,通过预设函数计算出地理编码字符串,通过检查地理位置字符串确认是否为羊毛党账号。或是获取用户的通信识别码,基于移动位置服务利用通信识别码得到用户位置信息、生成用户位置关系图,根据用户位置关系图判断多个用户中是否存在羊毛党。第二种具体方案是收集用户的设备信息和行为数据,包括电话号码、社交账号、消费金额、实名信息、APP使用忠诚度、活动识别码等,采用随机森林作为羊毛党账号识别的模型,该方法适用于新用户邀请的场景。

除此之外,还有创新性的概率验证方法。该方法从训练数据中获得用户属于羊毛党的先验概率、每个用户特征在用户属于羊毛党条件下的条件概率、每个用户特征的特征概率。从测试集中获得上述的三个概率后,再获得目标属于羊毛党的后验概率。根据目标用户属于羊毛党的后验概率来识别目标用户是否属于羊毛党。

上述检测方法中,主要有两点不足:

一是只是用少数特征属性进行检测,难以应对如今复杂场景下的羊毛党账号检测。首先,设置账号下单次数、IP下单次数等阈值的方法已经严重过时。羊毛党团队只需要迅速切换账号、全国各地团伙分散下单即可规避被检测出的风险。其次,IP地址验证、手机号验证、图形验证等方法只能识别出技术层次较低的羊毛党账号,难以满足如今电商平台的需求。羊毛党团队中出现了更深层次的隐藏IP地址、黑市盗买真人身份信息手机号注册账号等应对方法;甚至有的羊毛党团队开发出了卷积神经网络模型用于自动识别、填写验证码。这点不足还会带来投入了检测成本,但是检测效率低,仍有被薅羊毛从而带来经济损失的后果。

二是使用的模型、方法较为单一。在基于用户行为的方法中,使用的模型是机器学习模型,其中常用的模型有:1)逻辑回归,该模型实现简单,可解释性较强,但是数据特征维度高时需要做大量的处理工作,无法考虑特征之间的相关性,容易过拟合。2)随机森林,该模型适用于大型数据集,泛化能力强,但是容易过拟合,取值划分结果对结果影响很大。3)支持向量机,该模型可以处理非线性问题,具有一定的稳健性,但是难以运用在大型数据集上,对于缺失值敏感。

基于上述缺陷,本申请实施例提出一种羊毛党账号检测方法,通过前后关联的两个阶段检测出明显的羊毛党账号和不明显的羊毛党账号,其中第一阶段为对待检测数据集中的用户账号进行检测,筛选出明显的羊毛党账号,而其余的用户账号进入下一阶段检测。在第二阶段中,对第一阶段剩余的用户账号输入训练好的神经网络模型中检测,以检测出不明显的羊毛党账号。

下面结合附图和实施例对本发明进一步详细说明。

参照图1,其示出了适用于本申请实施例提供的羊毛党账号检测方法的流程示意图。

如图1所示,羊毛党账号检测方法,可以包括:

S110、获取待检测数据集,待检测数据集中包括若干用户账号,用户账号均为未标注是否为羊毛党账号。

具体的,待检测数据集可以从实时参加电商平台的例如限时降价、优惠券等促销活动时收集的数据集,也可以为存储于存储服务器或存储介质等具有存储功能的设备的数据集,在此不做限制。可以将待检测数据集记为T

待检测数据集中可以包括若干参加电商平台的例如0元购、限时降价、优惠券、新人礼等促销活动的用户账号,该用户账号均为未标注是否为羊毛党账号。

其中,用户账号包括用户注册手机号(或可以简称为注册手机号)和用户登录IP(或可以简称为登录IP)。

S120、对所有用户账号进行检测,从待检测数据集中筛选出明显的羊毛党账号,将所有明显的羊毛党账号作为第一数据集;将待检测数据集中剩余的用户账号作为第二数据集,包括:

遍历所有用户账号的用户注册手机号码和用户登录IP,所有符合检测条件的用户账号构成第一数据集;

所有不符合检测条件的用户账号构成第二数据集。

其中,检测条件为用户注册手机号码为虚拟手机号和用户登录IP为异常IP地址或黑名单IP地址。

具体的,遍历T

遍历T

S130、第二数据集基于预建神经网络模型,确定第三数据集,包括:

对第二数据集进行数据预处理,得到第四数据集;

将第四数据集输入预建神经网络模型,得到第三数据集。

具体的,经过研究发现,羊毛党账号的用户行为特征与普通账号不同,例如:羊毛党账号只在抢购商品时上线下单,没有或很少有浏览商品、加入购物车等行为,每购买一个商品的平均商品介绍界面浏览量、平均商品介绍界面浏览时间、平均加入购物车的数量远远低于普通用户;羊毛党账号通过倒卖商品、代下单使用优惠券等方式获利,没有固定使用的收件人地址信息,收件人地址信息改变频率比一般账户更高;羊毛党账号一经注册就抢购商品,或是经过漫长的养号时期才开始抢购商品,因此首次付款间隔时长明显与普通用户不同。羊毛党账号存在特殊的行为特征,若不对数据集进行相应的处理,只依靠模型自身的学习能力去学习各类特征之间的关系,容易造成过拟合、分类准确率低、模型解释性差等结果。因此,在数据处理时学习羊毛党账号的行为特征进行提取尤为重要。

在一个实施例中,对第二数据集进行数据预处理,得到第四数据集,包括:

提取第二数据集中每个用户账号对应的基础属性、每个用户账号的商品浏览属性、每个用户账号的购买属性,分别构成基础属性数据集、浏览属性数据集、购买属性数据集;

根据基础属性数据集、浏览属性数据集、购买属性数据集,创建用户名标记属性、平均浏览时长属性、平均浏览数量属性、放入购物车比例属性、首次付款间隔时长属性、付款权重属性、地址编号频率属性、地址是否一致属性;

将用户名标记属性、平均浏览时长属性、平均浏览数量属性、放入购物车比例属性、首次付款间隔时长属性、付款权重属性、地址编号频率属性、地址是否一致属性及是否为羊毛党账号标记组合成属性数据集;

对属性数据集中的平均浏览时长属性、平均浏览数量属性、放入购物车比例属性进行归一化处理,得到归一化后平均浏览时长属性、归一化后平均浏览数量属性、归一化后放入购物车比例属性;

用户名标记属性、归一化后平均浏览时长属性、归一化平均浏览数量属性、归一化后放入购物车比例属性、首次付款间隔时长属性、付款权重属性、地址编号频率属性、地址是否一致属性及是否为羊毛党账号标记组合成第四数据集。

具体的,如图2所示,对第二数据集进行数据预处理包括:

步骤1-1-1:输入第二数据集(即图中的原始数据集)。提取第二数据集中用户账号的基础属性:用户名、注册时间、注册手机号、注册手机号归属地、登录IP、登录设备号、是否为羊毛党账号标记值(说明:待检测数据集中包括的用户账号均为未标注是否为羊毛党账号,因此,此处是否为羊毛党账号标记值为0),组合成基础属性数据集A

步骤1-1-2:创建新属性:用户名标记。具体的:遍历A

步骤1-1-3:创建新属性:平均浏览时长(每下单一件商品,平均商品介绍界面浏览时长)、平均浏览数量(每下单一件商品,平均商品介绍界面浏览数量)、放入购物车比例(商品介绍界面浏览数量与放入购物车商品数量之比)。遍历B

步骤1-1-4:创建新属性:首次付款间隔时长(账号注册到首次付款之间的时间间隔时长)、付款权重(平均实付金额与商品价格之间的比例)、地址变换频率(收件人地址总数与支付订单数之间的比例)、地址是否一致(常用收件人地址是否与注册手机号归属地一致)。遍历B

步骤1-1-5:将用户名标记、平均浏览时长、平均浏览数量、放入购物车比例、首次付款间隔时长、付款权重、地址变换频率、地址是否一致、是否为羊毛党账号标记组合成新数据集,记为D

步骤1-1-6:对D

在一个实施例中,预建神经网络模型包括输入层、隐藏层和输出层;

预建神经网络模型通过下述方式构建:

获取训练集;

根据训练集进行神经网络模型的训练;

随机初始化隐藏层的权重和偏置,根据权重和偏置进行神经网络模型的前向传播反馈;

计算输出层的每个结点的误差值及结点到下一层结点的误差率;

根据误差率对权重和偏置进行更新,完成神经网络模型的逆向反馈,得到训练后神经网络模型;

若训练后神经网络模型满足预设条件,则将训练后神经网络模型作为预建神经网络模型;

若训练后神经网络模型不满足预设条件,则返回随机初始化隐藏层的权重和偏置。

可选的,预设条件为:

神经网络模型的全局误差小于或等于精度值;

或神经网络模型的学习次数大于或等于学习次数阈值。

其中,神经网络模型的全局误差可以根据误差函数计算确定。精度值可以根据实际需求进行设定。学习次数阈值可以根据实际需求进行设定。

其中,训练集可以使用实际的所有电商平台的用户账号,但是实际的电商平台的用户账号中羊毛党账号只占用所有账号中比例较小的部分,正负样本比例失衡严重,因此本申请可以获取训练集中使用Borderline-SMOTE算法生成新样本,与数据预处理后得到的数据集构成训练集,解决了数据集中样本平衡的问题。

在一个实施例中,获取训练集可以包括:

获取原始数据集,原始数据集包括若干原始账号,原始账号已标记是否为羊毛党账号;

对原始数据集进行数据预处理,得到第五数据集D

遍历第五数据集D

对于第六数据集P

若m=m

对于第八数据集P

分别计算p

将所有新的少数类样本加入到D

具体的,获取训练集可以包括:

步骤1-2-1:获取原始数据集,其中原始数据集包括若干原始账号,原始账号已标记是否为羊毛党账号;对原始数据集进行数据预处理可以采用上述步骤1-1-1~步骤1-1-6的方法,可以理解的是,上述步骤中用户账号为未标记羊毛党账号,而此处的原始账号已标记是否为羊毛党账号,只需将上述是否标记羊毛党账号的标记值对应设置即可,需要说明的是,是否为羊毛党账号标记的标记值为1的数据样本即为少数类样本;是否为羊毛党账号标记的标记值为0的数据样本即为多数类样本。按照上述方式对原始数据集预处理后得到第五数据集D

如图3所示,下述使用Borderline-SMOTE(Borderline-Synthetic MinorityOversampling Technique,仅使用边界少数类样本的合成少数类过采样技术)算法生成新样本:

步骤1-2-2:新建数据集P

步骤1-2-3:对于P

步骤1-2-4:若m=m

步骤1-2-5:对于P

步骤1-2-6:分别计算p

步骤1-2-7:将上述得到的新的少数类样本加入到D

可以理解的,可以通过上述获取训练集的方式获取测试集,其中,训练集和测试集的比例可以根据实际需求进行设定,例如训练集:测试集为7:3或8:2等。

还可以理解的,可以将上述获取的训练集按照实际需求设定的比例(例如7:3或8:2等)分为真正的训练集和测试集。下述实施例中以将上述获取的训练集按照实际需求设定的比例划分为训练集和测试集。

具体的,对神经网络模型(如图4所示,神经网络模型包括输入层、隐藏层和输出层)进行训练得到预建神经网络模型,如图5所示,可以包括:

步骤1-3-1:将D

步骤1-3-2:输入TrainSet和TestSet进行模型训练。

步骤1-3-3:随机初始化权重和偏置。对每一个权重取一个取值范围为[-1,1]的随机实数;对每一个偏置取一个取值范围为[0,1]的随机实数。进行前向传播反馈。

步骤1-3-4:对于输出层,记录每个结点的误差值,计算其到下一层结点的误差率,根据误差率对权重和偏置进行更新。完成逆向反馈。

步骤1-3-5:根据误差函数e计算全局误差E。若E≤ε,停止迭代,输出最优模型BP

将步骤1-1-6输出的第四数据集输入模型BP

S140、输出第一数据集和第三数据集。

具体的,第一数据集为第一阶段输出的明显的羊毛党账号,第三数据集为采用预建神经网络模型输出的不明显的羊毛党账号,两个数据集组合为最终检测的羊毛党账号。

本申请实施例,第一阶段使用IP地址和手机号检测出明显的羊毛党账号,第二阶段使用用户行为特征属性检测出不明显的羊毛党账号。使用的用户行为特征属性是经过研究羊毛党账号与普通账号在购买习惯、浏览习惯的行为特征区别后,总结出的特征属性。通过两阶段检测方法可以提高检测效率,减少电商平台经济损失。除此之外,本申请还采用了神经网络模型。神经网络模型深度更深,能更好地学习各属性之间的关系;神经网络模型泛化能力更强,允许输入样本中带有较大误差甚至个别错误,因为反应正确规律的知识来自全体样本,个别样本中的误差不能左右对权矩阵的调整。

本申请实施例中,通过两个阶段分别检测用户账号中明显的羊毛党账号和不明显的羊毛党账号,相较于单纯的IP地址和手机号验证,本申请能有效帮助电商平台发现隐藏得更深得羊毛党账号,减少经济损失;相较于单纯的基于用户行为的检测方法,本申请能有效帮助电商平台提高检测效率,提高模型准确度,降低检测投入的成本。

本申请实施例中,在第二阶段检测中,使用账号行为特征作为属性输入神经网络模型进行训练和检测,可以使得检测更准确。

相较于用于训练的已标记是否为羊毛党账号的数据集中,羊毛党账号样本数与正常用户样本数相比,存在严重失衡。在严重失衡的数据集上难以建模,容易造成过拟合、测试结果误差大等结果。因此本申请实施例中使用技术扩增较少类样本,调节样本比例。羊毛党账号善于隐藏,因此部分样本容易被误分类。本申请使用的Borderline-SMOTE算法根据边界样本进行扩增,从数据集的角度强化了模型的分类能力,降低了易混淆样本被误分类的可能性。

本申请实施例,在第二阶段检测中,使用预建神经网络模型进行检测。模型训练时,通过前向传播和逆向反馈两个阶段实现自动学习和调整参数,能够更好地学习各属性之间的关系。在检测时,具有操作简单、检测时间短、分类准确率高等优点。

参照图6,其示出了根据本申请一个实施例描述的羊毛党账号检测装置的结构示意图。

如图6所示,羊毛党账号检测装置600,可以包括:

获取模块610,用于获取待检测数据集,待检测数据集中包括若干用户账号,用户账号均为未标注是否为羊毛党账号;

第一检测模块620,用于对所有用户账号进行检测,从待检测数据集中筛选出明显的羊毛党账号,将所有明显的羊毛党账号作为第一数据集;将待检测数据集中剩余的用户账号作为第二数据集;

第二检测模块630,用于第二数据集基于预建神经网络模型,确定第三数据集;

输出模块640,用于输出第一数据集和第三数据集。

可选的,用户账号包括用户注册手机号码和用户登录IP;第一检测模块620还用于:

遍历所有用户账号的用户注册手机号码和用户登录IP,所有符合检测条件的用户账号构成第一数据集;

所有不符合检测条件的用户账号构成第二数据集。

可选的,检测条件为用户注册手机号码为虚拟手机号和用户登录IP为异常IP地址或黑名单IP地址。

可选的,第二检测模块630还用于:

对第二数据集进行数据预处理,得到第四数据集;

将第四数据集输入预建神经网络模型,得到第三数据集。

可选的,第二检测模块630还用于:

提取第二数据集中每个用户账号对应的基础属性、每个用户账号的商品浏览属性、每个用户账号的购买属性,分别构成基础属性数据集、浏览属性数据集、购买属性数据集;

根据基础属性数据集、浏览属性数据集、购买属性数据集,创建用户名标记属性、平均浏览时长属性、平均浏览数量属性、放入购物车比例属性、首次付款间隔时长属性、付款权重属性、地址编号频率属性、地址是否一致属性;

将用户名标记属性、平均浏览时长属性、平均浏览数量属性、放入购物车比例属性、首次付款间隔时长属性、付款权重属性、地址编号频率属性、地址是否一致属性及是否为羊毛党账号标记组合成属性数据集;

对属性数据集中的平均浏览时长属性、平均浏览数量属性、放入购物车比例属性进行归一化处理,得到归一化后平均浏览时长属性、归一化后平均浏览数量属性、归一化后放入购物车比例属性;

用户名标记属性、归一化后平均浏览时长属性、归一化平均浏览数量属性、归一化后放入购物车比例属性、首次付款间隔时长属性、付款权重属性、地址编号频率属性、地址是否一致属性及是否为羊毛党账号标记组合成第四数据集。

可选的,预建神经网络模型包括输入层、隐藏层和输出层;

该羊毛党账号检测装置600还包括构建模块,用于预建神经网络模型:

获取训练集;

根据训练集进行神经网络模型的训练;

随机初始化隐藏层的权重和偏置,根据权重和偏置进行神经网络模型的前向传播反馈;

计算输出层的每个结点的误差值及结点到下一层结点的误差率;

根据误差率对权重和偏置进行更新,完成神经网络模型的逆向反馈,得到训练后神经网络模型;

若训练后神经网络模型满足预设条件,则将训练后神经网络模型作为预建神经网络模型;

若训练后神经网络模型不满足预设条件,则返回随机初始化隐藏层的权重和偏置。

可选的,预设条件为:

神经网络模型的全局误差小于或等于精度值;

或神经网络模型的学习次数大于或等于学习次数阈值。

可选的,构建模块还用于:

获取原始数据集,原始数据集包括若干原始账号,原始账号已标记是否为羊毛党账号;

对原始数据集进行数据预处理,得到第五数据集D

遍历第五数据集D

对于第六数据集P

若m=m

对于第八数据集P

分别计算p

将所有新的少数类样本加入到D

本实施例提供的一种羊毛党账号检测装置,可以执行上述方法的实施例,其实现原理和技术效果类似,在此不再赘述。

图7为本发明实施例提供的一种电子设备的结构示意图。如图7所示,示出了适于用来实现本申请实施例的电子设备700的结构示意图。

如图7所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口706。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地,根据本公开的实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述羊毛党账号检测方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

作为另一方面,本申请还提供了一种存储介质,该存储介质可以是上述实施例中前述装置中所包含的存储介质;也可以是单独存在,未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的羊毛党账号检测方法。

存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号