首页> 中国专利> 一种基于大数据技术的品牌舆情监测方法及系统

一种基于大数据技术的品牌舆情监测方法及系统

摘要

本发明公开了一种基于大数据技术的品牌舆情监测方法及系统,其中,一种基于大数据技术的品牌舆情监测方法包括:通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;对品牌舆情样本数据进行预处理;对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;利用训练后的品牌舆情监测模型进行舆情监测,并通过数据可视化工具实时呈现监测结果;本发明通过融合LSTM神经网络和残差网络,有效地降低样本数据标记的工作量和提高了模型识别准确率。

著录项

  • 公开/公告号CN116467447A

    专利类型发明专利

  • 公开/公告日2023-07-21

    原文格式PDF

  • 申请/专利权人 南京特尔顿信息科技有限公司;

    申请/专利号CN202310440996.7

  • 发明设计人 陈庆;

    申请日2023-04-23

  • 分类号G06F16/35(2019.01);G06F40/30(2020.01);G06N3/0442(2023.01);G06N3/048(2023.01);G06F16/338(2019.01);G06F16/958(2019.01);

  • 代理机构南京汇业佳知识产权代理事务所(普通合伙) 32708;

  • 代理人朱军

  • 地址 210000 江苏省南京市江北新区中山科技园科创大道9号A11幢415室

  • 入库时间 2024-01-17 01:16:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-08

    实质审查的生效 IPC(主分类):G06F16/35 专利申请号:2023104409967 申请日:20230423

    实质审查的生效

  • 2023-07-21

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及舆情监测的技术领域,尤其涉及一种基于大数据技术的品牌舆情监测方法及系统。

背景技术

随着互联网技术的迅速发展,信息量大、类型繁多、价值密度低、速度快、时效高的大数据吸引了越来越多的关注目光,大数据带来的信息风暴正在改变我们的生活、工作和思维。毋庸讳言,與情服务在进行行业规范和整合的同时,正面临着大数据的挑战。

海量的网上信息难以掌控,大量相关性、偶发性因素使與情更加复杂多变,传统的舆情监测研判手段和方法难以奏效,新的技术手段和方法要求更高。网上数据无限性和网民关注能力有限性之间的矛盾,加剧了社会與论的“盲人摸象”效应。社会化媒体促进信息的开放和沟通的便捷,分众传播、个性化传播凸显,使偏激的观点更容易找到“同类”,从而相互支持、强化放大,加剧舆论偏激情绪。大数据时代各类数据随手可得,越来越多的机构、个人通过数据挖掘和分析得出的各种结论会不胫而走,有效管理舆情的难度不断加大。

发明内容

鉴于上述现有存在的问题,提出了本发明。

为解决上述技术问题,本发明提供如下技术方案,包括:通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;对所述品牌舆情样本数据进行预处理,包括数据清洗和标记处理;对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;利用训练后的品牌舆情监测模型进行舆情监测,从而自动识别正面舆情和负面舆情,并通过数据可视化工具实时呈现监测结果。

作为本发明所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述预处理包括:利用Jieba库进行数据清洗,而后将50%的品牌舆情样本数据分别标记为正面舆情样本和负面舆情样本,剩余的50%的品牌舆情样本数据标记为未标记样本。

作为本发明所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述特征提取包括:提取品牌舆情样本数据的多层语义特征,并根据预设的采样率,对多层语义特征先后进行下采样和上采样操作,获得第一特征矩阵;将所述第一特征矩阵进行卷积和下采样操作,获得特征矩阵。

作为本发明所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述降维包括:对所述特征矩阵进行中心化处理,并计算中心化处理后的特征矩阵的协方差矩阵;对所述协方差矩阵进行特征分解,得到特征值和其对应的特征向量;根据特征值的大小进行排序,取前k个特征值对应的特征向量作为基向量;将所述中心化处理后的特征矩阵乘以所述基向量,获得降维后的特征矩阵。

作为本发明所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述品牌舆情监测模型包括双向LSTM网络、残差网络和全连接层;所述双向LSTM网络包括第一LSTM网络和第二LSTM网络,分别通过所述第一LSTM网络和所述第二LSTM网络记忆降维后的特征矩阵的上文信息和下文信息;所述残差网络包括映射层、多个注意力机制层和激活层,通过所述映射层将第一LSTM网络和第二LSTM网络记忆的上文信息和下文信息等维映射到所述注意力机制层,而后通过激活层的Hard-sigmoid激活函数计算第一LSTM网络和第二LSTM网络输出的上文信息和下文信息被分配到各个注意力机制层的权重,形成概率分布,并输入至所述全连接层,所述全连接层通过Hard-sigmoid激活函数获得监测结果。

作为本发明所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述第一LSTM网络和第二LSTM网络包括:所述第一LSTM网络包括输入门、遗忘门、输出门和ReLU层;所述第一LSTM网络包括输入门、遗忘门、输出门和LeakyReLU层。

作为本发明所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:训练包括:步骤1:从未标记样本对应的降维后的特征矩阵上随机选取d个示例样本;步骤2:分别利用正面舆情样本和负面舆情样本对应的降维后的特征矩阵集合训练出第一分类器和第二分类器;步骤3:利用第一分类器对所述示例样本进行标记,从中选出置信度高的n个正面舆情样本和m个负面舆情样本,加入到负面舆情样本对应的降维后的特征矩阵集合中;步骤4:利用第二分类器对所述示例样本进行标记,从中选出置信度高的n个正面舆情样本和m个负面舆情样本,加入到正面舆情样本对应的降维后的特征矩阵集合中;步骤5:步骤2~步骤4进行g次迭代,输出最优的分类器,即训练后的品牌舆情监测模型。

作为本发明所述的基于大数据技术的品牌舆情监测系统的一种优选方案,其中:数据采集模块,被配置为执行通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;数据预处理模块,被配置为执行对所述品牌舆情样本数据进行预处理,包括数据清洗和标记处理;特征处理模块,被配置为执行对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;模型训练模块,被配置为执行利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;舆情监测模块,被配置为执行利用训练后的品牌舆情监测模型进行舆情监测,从而自动识别正面舆情和负面舆情,并通过数据可视化工具实时呈现监测结果。

作为本发明所述的基于大数据技术的品牌舆情监测系统的一种优选方案,其中:所述数据预处理模块,具体被配置为执行利用Jieba库进行数据清洗,而后将50%的品牌舆情样本数据分别标记为正面舆情样本和负面舆情样本,剩余的50%的品牌舆情样本数据标记为未标记样本。

作为本发明所述的基于大数据技术的品牌舆情监测系统的一种优选方案,其中:所述特征处理模块,具体被配置为执行提取品牌舆情样本数据的多层语义特征,并根据预设的采样率,对多层语义特征先后进行下采样和上采样操作,获得第一特征矩阵;将所述第一特征矩阵进行卷积和下采样操作,获得特征矩阵;对所述特征矩阵进行中心化处理,并计算中心化处理后的特征矩阵的协方差矩阵;对所述协方差矩阵进行特征分解,得到特征值和其对应的特征向量;根据特征值的大小进行排序,取前k个特征值对应的特征向量作为基向量;将所述中心化处理后的特征矩阵乘以所述基向量,获得降维后的特征矩阵。

本发明的有益效果:通过融合LSTM神经网络和残差网络,能够快速准确地识别品牌舆情类别,同时通过半监督学习算法对品牌舆情监测模型进行训练,有效地降低样本数据标记的工作量和提高了模型识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:

图1为本发明第一个实施例所述的基于大数据技术的品牌舆情监测方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1,为本发明的第一个实施例,该实施例提供了一种基于大数据技术的品牌舆情监测方法,包括:

S1:通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据。

本实施例通过聚焦网络爬虫技术从社交媒体、论坛、博客和新闻的网页中收集品牌舆情样本数据,聚焦网络爬虫技术是面向特定需求的一种网络爬虫程序,在实施网页抓取的时候会对网页内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。

较佳的是,聚焦网络爬虫技术极大地节省了硬件和网络资源,很好地满足了公司舆情信息的需求。

S2:对品牌舆情样本数据进行预处理,包括数据清洗和标记处理。

为了得到更好的数据分析结果,需要对这些数据集进行数据清洗等操作,本实施例利用Python的第三方库Jieba库进行数据清洗,进一步地,将50%的品牌舆情样本数据分别标记为正面舆情样本和负面舆情样本,剩余的50%的品牌舆情样本数据标记为未标记样本。

S3:对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理。

(1)特征提取

提取品牌舆情样本数据的多层语义特征,并根据预设的采样率,对多层语义特征先后进行下采样和上采样操作,获得第一特征矩阵;

将第一特征矩阵进行卷积和下采样操作,获得特征矩阵。

(2)降维处理

对特征矩阵进行中心化处理,即对特征矩阵按列求均值得到行向量,然后用特征矩阵减去行向量(由于python的广播机制,行向量扩充为和特征矩阵同等维度的矩阵),完成中心化处理;

计算中心化处理后的特征矩阵的协方差矩阵;

对协方差矩阵进行特征分解,得到特征值和其对应的特征向量;

根据特征值的大小进行排序,取前k个特征值对应的特征向量作为基向量;

将中心化处理后的特征矩阵乘以基向量,获得降维后的特征矩阵。

本发明通过主成分分析法进行特征降维处理,能有效提高模型计算速度。

S4:利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练。

品牌舆情监测模型包括双向LSTM网络、残差网络和全连接层;双向LSTM网络包括第一LSTM网络和第二LSTM网络,具体的,第一LSTM网络包括输入门、遗忘门、输出门和ReLU层(采用ReLU激活函数);第一LSTM网络包括输入门、遗忘门、输出门和LeakyReLU层(采用LeakyReLU激活函数)。分别通过第一LSTM网络和第二LSTM网络记忆降维后的特征矩阵的上文信息和下文信息;通过设置不同的激活函数以设置不同的LSTM网络,对连续的序列分析起到了促进作用。

残差网络包括映射层、多个注意力机制层和激活层,通过映射层将第一LSTM网络和第二LSTM网络记忆的上文信息和下文信息等维映射到注意力机制层,而后通过激活层的Hard-sigmoid激活函数计算第一LSTM网络和第二LSTM网络输出的上文信息和下文信息被分配到各个注意力机制层的权重,形成概率分布,并输入至全连接层,全连接层通过Hard-sigmoid激活函数获得监测结果。

进一步地,利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,即先标记部分样本数据,未标记数据通过协同训练来进行分类与标注,得到了新的标签信息之后模型继续迭代,这样的过程一直重复下去,从而提高了模型的泛化性能,具体的训练步骤如下:

步骤1:从未标记样本对应的降维后的特征矩阵上随机选取d个示例样本;

步骤2:分别利用正面舆情样本和负面舆情样本对应的降维后的特征矩阵集合训练出第一分类器和第二分类器;

步骤3:利用第一分类器对示例样本进行标记,从中选出置信度高的n个正面舆情样本和m个负面舆情样本,加入到负面舆情样本对应的降维后的特征矩阵集合中;

步骤4:利用第二分类器对示例样本进行标记,从中选出置信度高的n个正面舆情样本和m个负面舆情样本,加入到正面舆情样本对应的降维后的特征矩阵集合中;

步骤5:步骤2~步骤4进行g次迭代,输出最优的分类器,即训练后的品牌舆情监测模型,g设置为500。

S5:利用训练后的品牌舆情监测模型进行舆情监测,从而自动识别正面舆情和负面舆情,并通过数据可视化工具实时呈现监测结果。

通过采用改进的神经网络模型进行舆情监测,可以提高待监控公司相关的舆情判断结果的准确性,并通过PowerBI可视化工具以进行实时查看,监测结果,以及时地掌握公司的动向和预测热点事件的发生。

实施例2

本实施例不同于第一个实施例的是,提供了一种基于大数据技术的品牌舆情监测系统,包括,

数据采集模块,被配置为执行通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;

数据预处理模块,被配置为执行对品牌舆情数据进行预处理,包括数据清洗和标记处理;

特征处理模块,被配置为执行对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;

模型训练模块,被配置为执行利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;

舆情监测模块,被配置为执行利用训练后的品牌舆情监测模型进行舆情监测,从而自动识别正面舆情和负面舆情,并通过数据可视化工具实时呈现监测结果。

进一步地,数据处理模块,具体被配置为执行利用Jieba库进行数据清洗,而后将50%的品牌舆情样本数据分别标记为正面舆情样本和负面舆情样本,剩余的50%的品牌舆情样本数据标记为未标记样本。

再进一步地,特征处理模块,具体被配置为执行提取品牌舆情样本数据的多层语义特征,并根据预设的采样率,对多层语义特征先后进行下采样和上采样操作,获得第一特征矩阵;将第一特征矩阵,并对第一特征矩阵进行卷积和下采样操作,获得特征矩阵;对特征矩阵进行中心化处理,并计算中心化处理后的特征矩阵的协方差矩阵;对协方差矩阵进行特征分解,得到特征值和其对应的特征向量;根据特征值的大小进行排序,取前k个特征值对应的特征向量作为基向量;将中心化处理后的特征矩阵乘以基向量,获得降维后的特征矩阵。

应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。

此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号