法律状态公告日
法律状态信息
法律状态
2023-08-25
实质审查的生效 IPC(主分类):G06F18/241 专利申请号:2023105098984 申请日:20230508
实质审查的生效
2023-08-08
公开
发明专利申请公布
技术领域
本发明属于网络空间安全领域,涉及一种匿名环境中的网络用户舆论画像构建方法。
背景技术
社交网络平台等各类社交媒体凭借着其信息传播速度快、分享范围广、时效性强以及交互性好等特点快速渗入了人们生活,吸引了数以亿计的用户。为了保护用户隐私,匿名功能成为了用户对于敏感话题发表言论的重要途径。但是匿名功能也给网络舆论的治理带来了困难,一个用户能够发布多条匿名言论,这些匿名言论难以溯源至同一用户,因此使用传统舆论画像构建方法会引起画像库规模剧烈膨胀。同时,由于网络舆论具有动态性、实时性,用户画像的产生速度决定了舆论监管者能否及时对话题下的新用户进行评估,而在用户数量巨大的热点话题下,频繁进行用户画像重构成本过高,且时效性不足;由于冗余匿名用户画像导致画像库规模膨胀,通过画像库匹配快速构建画像同样效率不高。此外,恶意利用匿名功能可以达到网络水军的效果,对舆论产生严重的负面导向,在关键时机利用匿名功能结合网络水军能够形成一种舆论攻击,打击目标舆论形象,干扰目标的正常行动。
发明内容
为解决上述问题,本发明提出了一种以等价类方法为核心,从“人以群分”的思想入手,提出了一种基于标签的等价类构建方法,在匿名环境中构建用户舆论画像,实现对海量用户画像的约简,并提高新用户画像构建的效率,从而为网络舆情治理的决策提供有力的数据支持。
为了达到上述目的,本发明提供如下技术方案:
一种匿名环境中的网络用户舆论画像构建方法,包括如下步骤:
步骤1:实匿名用户特征获取;
步骤2:实匿名用户等价类构建;
步骤3:新用户画像识别。
进一步地,所述步骤1具体包括如下子步骤:
(1)对话题下匿名用户,其特征为向量C
(2)对话题下实名用户,其特征为三元组C
进一步地,所述步骤2具体包括如下子步骤:
步骤2.1:用户向量化特征点集构建;
步骤2.2:用户间等价关系描述;
步骤2.3:用户等价类构建;
步骤2.4:用户画像空间约简。
进一步地,所述步骤2.1包括如下过程:
构造Set={c
进一步地,所述步骤2.3包括如下过程:
(1)输入等价中心个数K,从Set选择一个特征点作为初始中心Z
(2)从特征点集Set中选择一个未加入等价类的点c,若min{||c-Z
(3)计算
(4)重新执行(2)和(3),直至Z
(5)计算等价类S
(6)输出等价类S
进一步地,所述步骤2.4包括如下过程:
若匿名用户点c
(1)根据C
(2)计算
(3)计算M
(4)计算
若特征矩阵C
进一步地,所述步骤3具体包括如下子步骤:
步骤3.1:用户特征初始化;
步骤3.2:基于约简画像空间的等价关系搜索;
步骤3.3:新用户画像构建。
进一步地,所述步骤3.1包括如下过程:
若新用户为匿名用户,从C
根据C
进一步地,所述步骤3.2包括如下过程:
(1)定义约简画像空间SP={P
(2)若新用户为匿名用户,进一步约简画像空间至SP
(3)若新用户为实名用户,且C
进一步地,所述步骤3.3包括如下过程:
若P
与现有技术相比,本发明具有如下优点和有益效果:
(1)通过建立一种等价关系、构建等价类来约简用户画像空间,解决了匿名环境下大量冗余匿名用户画像占用画像库、画像搜索效率低的问题,从而用较小的空间代价实现新用户画像的快速匹配,能高效地为实匿名用户评论构造可信度标签,为舆论治理提供辅助。
(2)本发明方法弥补了过往研究对匿名舆论环境关注度不足的漏洞。本方法通过使用基于点集的等价类特征和类标签对用户画像空间进行了约简,将大量用户简化为少量的典型用户画像,从而缩小了用户画像库的规模,解决了匿名机制带来的画像空间膨胀问题。
(3)本发明通过约简的画像空间可以对新加入用户进行快速的画像构建,并对画像库进行更新,提高了新用户画像构建的效率,提高了新用户画像的构建效率,同时对约简画像空间进行了有限更新,一定程度上填补了两次舆论画像重构之间的真空期,保证了舆论分析的实时性,从而支持舆论监管者对舆论风向的把控和对评论用户的评估。
附图说明
图1为本发明提供的一种匿名环境中的网络用户舆论画像构建方法的流程图。
图2为网络用户特征提取模型。
图3为用户等价类构建算法流程图。
图4为用户画像约简流程图。
图5为实名用户独立画像示例。
图6为匿名用户典型画像示例。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的一种匿名环境中的网络用户舆论画像构建方法,其流程如图1所示,具体包括以下步骤:
步骤1,实匿名用户特征获取
针对知乎编写python爬虫程序,爬取目标话题下实匿名用户评论及各实名用户ID、昵称、性别以及其历史信息,如图2所示。对得到数据集进行预处理,去除广告信息和无用数据。创建包含7列的列表List1来存储实匿名用户的C
步骤2,实匿名用户等价类构建
2.1、用户向量化特征点集构建
构造Set={c
2.2、用户间等价关系描述
对于用户向量化特征点集Set中的两个特征点c
2.3、用户等价类构建
(1)输入等价中心个数K,从Set选择一个特征点作为初始中心Z
(2)从特征点集Set中选择一个未加入等价类的点c,若min{||c-Z
(3)计算
(4)重新执行(2)和(3),直至Z
(5)计算等价类S
(6)输出等价类S
本例中编写python程序实现用户等价类构建算法,其流程图如图3所示。该算法输入为用户特征点集Set与对应标签,设置权重α=0.9,β=0.1。从K=2开始递增,将参数输入等价类构建算法,计算误差平方和
2.4、用户画像空间约简
如图4所示,将K个等价类点集S
(1)根据C
(2)计算
(3)计算M
(4)计算
将剩余每个实名用户的画像P
步骤3,新用户画像识别方法
3.1、用户特征初始化
若新用户为匿名用户,从C
根据C
3.2、基于约简画像空间的等价关系搜索
从步骤2.3输出的约简画像空间SP={P
3.3、新用户画像构建
根据步骤3.2输出的等价画像在约简画像空间SP中的分类,若新用户画像P
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
机译: 通过通信网络按需将内容分发给订户终端的系统。从一个或多个电缆系统中为有线系统中的用户终端分发内容的方法。通过通信网络按需将第一和第二内容分发给终端用户的系统,一种使用密码更新系统的方法,以及一种从第一和第二通信系统向用户分发预先加密的内容的方法
机译: 在网络中的多个用户数据中匿名确定给定用户数据的方法
机译: 基于对称密钥的用户认证方法,能够在无线传感器网络环境中保证匿名性