首页> 中国专利> 汽车主机厂网络数据的水军识别方法及装置

汽车主机厂网络数据的水军识别方法及装置

摘要

本申请公开了一种汽车主机厂网络数据的水军识别方法及装置,其中,方法包括:从网络爬取初始汽车主机厂网络数据;对初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据;根据最终网络数据对每位用户创建不同维度的特征变量,并基于每位用户的特征变量生成聚类模型;将聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据。由此,解决相关技术中水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈的问题,从而剔除相关水军异常数据,为后续产品运营以及优化,舆情监控等应用提供正确的策略建议。

著录项

  • 公开/公告号CN113326412A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利号CN202110512233.X

  • 发明设计人 张娈英;

    申请日2021-05-11

  • 分类号G06F16/951(20190101);G06F16/35(20190101);G06F40/279(20200101);G06K9/62(20060101);G06Q30/00(20120101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人刘梦晴

  • 地址 210000 江苏省南京市经济技术开发区恒达路3号科创基地213室

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本申请涉及数据挖掘技术领域,特别涉及一种汽车主机厂网络数据的水军识别方法及装置。

背景技术

目前,网络媒体作为主机厂了解用户对产品的反馈的重要渠道,通过收集相关汽车媒体用户评论信息并且进行数据清洗以及分析,了解用户对自己品牌的主要意见以及反馈,对于主机厂产品的改进方向有着重要的指导意义。

然而,各主机厂为宣传自己的品牌,会选择雇佣专职网络评论人员(水军)进行品牌的舆论引导,而水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈,进而影响主机厂产品的改进方向,亟待解决。

申请内容

本申请提供一种汽车主机厂网络数据的水军识别方法及装置,以解决相关技术中水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈的问题,从而剔除相关水军异常数据,为后续产品运营以及优化,舆情监控等应用提供正确的策略建议。

本申请第一方面实施例提供一种汽车主机厂网络数据的水军识别方法,包括以下步骤:

从网络爬取初始汽车主机厂网络数据;

对所述初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据;

根据所述最终网络数据对每位用户创建不同维度的特征变量,并基于所述每位用户的特征变量生成聚类模型;以及

将所述聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用所述水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据。

可选地,所述初始汽车主机厂网络数据包括与主机厂相关的文章信息、视频信息及评论信息。

可选地,所述基于所述每位用户的特征变量生成聚类模型,包括:

将所述用户的特征变量进行标准化处理,得到处理后的特征变量;

将所有处理后的特征变量分别进行KMeans与DBSCAN(Density-Based SpatialClustering of Applications with Noise,聚类算法)聚类模型估计,融合得到所述聚类模型。

可选地,特征变量的标准化公式为:

其中,x

可选地,所述对所述初始汽车主机厂网络数据进行数据处理,包括:

筛选出所述初始汽车主机厂网络数据中重复的数据;

和/或,去除所述初始汽车主机厂网络数据中包含预设字符的数据。

本申请第二方面实施例提供一种汽车主机厂网络数据的水军识别装置,包括:

爬取模块,用于从网络爬取初始汽车主机厂网络数据;

获取模块,用于对所述初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据;

生成模块,用于根据所述最终网络数据对每位用户创建不同维度的特征变量,并基于所述每位用户的特征变量生成聚类模型;以及

识别模块,用于将所述聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用所述水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据。

可选地,所述初始汽车主机厂网络数据包括与主机厂相关的文章信息、视频信息及评论信息。

可选地,所述生成模块,包括:

将所述用户的特征变量进行标准化处理,得到处理后的特征变量;

将所有处理后的特征变量分别进行KMeans与DBSCAN聚类模型估计,融合得到所述聚类模型。

可选地,特征变量的标准化公式为:

其中,x

可选地,所述获取模块,包括:

筛选出所述初始汽车主机厂网络数据中重复的数据;

和/或,去除所述初始汽车主机厂网络数据中包含预设字符的数据。

由此,可以从网络爬取初始汽车主机厂网络数据,并对初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据,并根据最终网络数据对每位用户创建不同维度的特征变量,并基于每位用户的特征变量生成聚类模型,并将聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据,解决了相关技术中水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈的问题,从而剔除相关水军异常数据,为后续产品运营以及优化,舆情监控等应用提供正确的策略建议。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本申请实施例提供的一种汽车主机厂网络数据的水军识别方法的流程图;

图2为根据本申请一个实施例的KMeans聚类模型的处理结果示意图;

图3为根据本申请一个实施例的一种DBSCAN聚类模型的处理结果示意图;

图4为根据本申请一个实施例的预设的水军特征的示例图;

图5为根据本申请一个实施例的水军规则识别模型的示意图;

图6为根据本申请一个实施例的汽车主机厂网络数据的水军识别方法的流程图;

图7为根据本申请实施例的汽车主机厂网络数据的水军识别装置的示例图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的汽车主机厂网络数据的水军识别方法及装置。针对上述背景技术中心提到的相关技术中水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈的问题,本申请提供了一种汽车主机厂网络数据的水军识别方法,在该方法中,可以从网络爬取初始汽车主机厂网络数据,并对初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据,并根据最终网络数据对每位用户创建不同维度的特征变量,并基于每位用户的特征变量生成聚类模型,并将聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据,解决了相关技术中水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈的问题,从而剔除相关水军异常数据,为后续产品运营以及优化,舆情监控等应用提供正确的策略建议。

具体而言,图1为本申请实施例所提供的一种汽车主机厂网络数据的水军识别方法的流程示意图。

如图1所示,该汽车主机厂网络数据的水军识别方法包括以下步骤:

在步骤S101中,从网络爬取初始汽车主机厂网络数据。

可选地,在一些实施例中,初始汽车主机厂网络数据包括与主机厂相关的文章信息、视频信息及评论信息。

具体而言,本申请实施例可以根据业务需求(如主机厂舆情分析等需求),获取相关网站不同主机厂,不同品牌车型的文章/视频以及相关用户的评论信息。其中,本申请实施例可以获取近两年(具体时间可以根据实际情况进行调整)的评论时间,评论文章/视频标题,评论内容。

需要说明的是,在从网络爬取初始汽车主机厂网络数据时,本申请实施例可以通过Python语言完成相关数据爬取的工作,也可以通过其他方式,在此不做具体限定。

在步骤S102中,对初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据。

可选地,在一些实施例中,对初始汽车主机厂网络数据进行数据处理,包括:筛选出初始汽车主机厂网络数据中重复的数据;和/或,去除初始汽车主机厂网络数据中包含预设字符的数据。

应当理解的是,为保证数据的准确性,本申请实施例可以对步骤S101中爬取的初始汽车主机厂网络数据进行处理,例如,筛选出初始汽车主机厂网络数据中重复的数据,或者去除初始汽车主机厂网络数据中包含预设字符的数据,其中,预设字符可以根据实际需求进行选择,在此不做具体限定。

在步骤S103中,根据最终网络数据对每位用户创建不同维度的特征变量,并基于每位用户的特征变量生成聚类模型。

举例而言,如果获取近两年(具体时间可以根据实际情况获取)的评论时间,评论文章/视频标题,评论内容,则本申请实施例的不同维度的特征变量可以如下所示:

(1)近两年来发表评论总数量。

(2)近两年来评论各主机厂品牌数量。

(3)近两年来评论各车型数量。

(4)近一个月发表评论总数量。

(5)近一个月评论各主机厂品牌数量。

(6)近一个月评论各车型数量。

(7)最近一次的评论时间。

(8)用户评论内容的评论长度。

(9)用户评论平均间隔时间。

(10)其他变量。

可选地,在一些实施例中,基于每位用户的特征变量生成聚类模型,包括:将用户的特征变量进行标准化处理,得到处理后的特征变量;将所有处理后的特征变量分别进行KMeans与DBSCAN聚类模型估计,融合得到聚类模型。

具体而言,本申请实施例可以对上述用户的特征变量进行标准化处理,例如Z-Score标准化。

可选地,在一些实施例中,特征变量的标准化公式为:

其中,x

进一步地,KMeans模型原理如下:

(1)将用户根据多项维度分为独立的几个群体;

(2)群体内的个体尽可能的相似,不同群体的个体尽可能的不同;

(3)聚类算法:无监督的分类方法,基于样本,利用不同的相似度计算方法,将相似的个体分为一类,概括总结该分群的特征。

具体地,给定一个具有n个对象的集合(x1,x2,…,xn),每个xi是d维的变量,K-Means旨在将n个对象分成K个集合(k≤n),S={S1,S2,…,Sk},使得群体间误差平方和最小。

其中,μ

根据设定不同的指标,通过上述算法,将所有车主划分为指定的K类,选择出具有显著影响的变量,观察这些变量在不同的群体的分布特征,从而概括出这些不同群体的特征,结果如图2中1、2和3所示。

进一步地,DBSCAN模型原理如下:

DBSCAN基于密度的聚类算法,能够将具有足够高密度的区域划分为簇,并在具有噪声的数据中发现任意形状的簇和K—Means聚类方法相比,可去除噪声的影响,但对时间和算力有较高的要求。

任意两个足够靠近,相互之间的距离在Eps之内的核心点将放在同一个簇中,任何与核心点足够靠近的边界点也需放到与核心点相同的簇中。

DBSCAN的一般步骤是:(在已知epsilon和minPts的前提下)

步骤1:任意选择一个点(既没有指定到一个类也没有特定为外围点),计算它的NBHD(p,epsilon)判断是否为核点。如果是,在该点周围建立一个类,否则,设定为外围点。

步骤2:遍历其他点,直到建立一个类。把directly-reachable的点加入到类中,接着把density-reachable的点也加进来。如果标记为外围的点被加进来,修改状态为边缘点。

重复步骤1和2,直到所有的点满足在类中(核点或边缘点)或者为外围点,最终遍历所有点后,将种群划分为n类(种类数目不一定,取决于epsilon和minPts两个参数的大小),结果如图3所示。

KMeans模型与DBSCAN模型都是基于用户的各个特征,利用不同的算法将相似的用户划分为同一个种群,两个模型具有不同的优势,KMeans模型主要利用欧氏距离来评估各用户之间的相似度,但对于噪音数据预测效果不佳,DBSCAN模型在处理噪音数据的组群识别具有一定的优势。

由此,本申请实施例可以将所有处理后的特征变量分别进行KMeans与DBSCAN聚类模型估计,融合得到聚类模型。

在步骤S104中,将聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据。

具体而言,对于KMeans模型与DBSCAN模型,本申请实施例可以不断调整相应参数(Kmeans:主要设置K的种群个数,DBSCAN模型:epsilon和minPts两个参数),从而保证水军特征划分规则符合一般的认知。例如,经过调整,两个模型的最终生成的水军规则(即预设的水军特征)如图4所示。

进一步地,将聚类模型与预设的水军特征合并,可参考业务人员的建议,实际应用中,可适当进行规则的删减(也可根据实际情况,采取其他规则进行模型的融合),并形成最终规则,选取符合最终规则的群体作为水军人群。两个模型的最终融合规则如图5所示,从而以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据。

为使得本领域技术人员进一步了解本申请实施例的汽车主机厂网络数据的水军识别方法,下面结合图6进行详细说明。

S601,数据爬取。

S602,数据清洗。

S603,特征工程。

S604,聚类模型生成。

该聚类模型可以包括KMeans聚类模型与DBSCAN聚类模型。

S605,水军特征生成。

其中,生成水军特征时,包括KMeans水军特征规则与DBSCAN水军特征规则,KMeans水军特征规则根据KMeans聚类模型得到,DBSCAN水军特征规则通过DBSCAN聚类模型得到。

S606,水军规则模型融合。

需要说明的是,在水军规则模型融合之前,需要业务人员介入。

根据本申请实施例提出的汽车主机厂网络数据的水军识别方法,可以从网络爬取初始汽车主机厂网络数据,并对初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据,并根据最终网络数据对每位用户创建不同维度的特征变量,并基于每位用户的特征变量生成聚类模型,并将聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据,解决了相关技术中水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈的问题,从而剔除相关水军异常数据,为后续产品运营以及优化,舆情监控等应用提供正确的策略建议。

其次参照附图描述根据本申请实施例提出的汽车主机厂网络数据的水军识别装置。

图7是本申请实施例的汽车主机厂网络数据的水军识别装置的方框示意图。

如图7所示,该汽车主机厂网络数据的水军识别装置10包括:爬取模块100、获取模块200、生成模块300和识别模块400。

其中,爬取模块100用于从网络爬取初始汽车主机厂网络数据;

获取模块200用于对初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据;

生成模块300用于根据最终网络数据对每位用户创建不同维度的特征变量,并基于每位用户的特征变量生成聚类模型;以及

识别模块400用于将聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据。

可选地,在一些实施例中,初始汽车主机厂网络数据包括与主机厂相关的文章信息、视频信息及评论信息。

可选地,在一些实施例中,生成模块,包括:

将用户的特征变量进行标准化处理,得到处理后的特征变量;

将所有处理后的特征变量分别进行KMeans与DBSCAN聚类模型估计,融合得到聚类模型。

可选地,在一些实施例中,特征变量的标准化公式为:

其中,x

可选地,在一些实施例中,获取模块,包括:

筛选出初始汽车主机厂网络数据中重复的数据;

和/或,去除初始汽车主机厂网络数据中包含预设字符的数据。

需要说明的是,前述对汽车主机厂网络数据的水军识别方法实施例的解释说明也适用于该实施例的汽车主机厂网络数据的水军识别装置,此处不再赘述。

根据本申请实施例提出的汽车主机厂网络数据的水军识别装置,

可以从网络爬取初始汽车主机厂网络数据,并对初始汽车主机厂网络数据进行数据处理,得到清洗后的最终网络数据,并根据最终网络数据对每位用户创建不同维度的特征变量,并基于每位用户的特征变量生成聚类模型,并将聚类模型与预设的水军特征合并,生成水军规则识别模型,以利用水军规则识别模型识别任一网络数据中的水军数据,得到有效汽车主机厂网络数据,解决了相关技术中水军的大量舆论引导,无法反映用户真实的对于汽车品牌的认知以及反馈,导致得不到有效的用户产品反馈的问题,从而剔除相关水军异常数据,为后续产品运营以及优化,舆情监控等应用提供正确的策略建议。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号