公开/公告号CN114897270A
专利类型发明专利
公开/公告日2022-08-12
原文格式PDF
申请/专利权人 青岛文达通科技股份有限公司;
申请/专利号CN202210673988.2
申请日2022-06-15
分类号G06Q10/04(2012.01);G06Q50/00(2012.01);G06N3/04(2006.01);G06N5/00(2006.01);G06N20/20(2019.01);G06K9/62(2022.01);G06F40/30(2020.01);
代理机构济南圣达知识产权代理有限公司 37221;
代理人董雪
地址 266500 山东省青岛市黄岛区望江路500号
入库时间 2023-06-19 16:22:17
法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G06Q10/04 专利申请号:2022106739882 申请日:20220615
实质审查的生效
技术领域
本发明涉及信息处理技术领域,具体涉及一种融合语义信息的舆情传播量预测方法及系统。
背景技术
对于微博的传播量预测,模型对提取出来的特征进行建模,对微博的点赞量、转发量、评论量等特征在低维度上进行表达,但是如果只使用基于集成学习的回归模型进行传播量预测,可能其准确率会较低,因为微博的传播量不仅跟微博主的特征有关系,还与微博内容本身有关系。如果微博内容中有“@他人”,或者是带有明显的感情色彩,那么它传播的概率会相应的变大。因此,如果能将微博内容输入模型,那么模型在处理不同的微博内容的时候就会有所偏重,进而提高预测效果。
在以往的预测模型中,通过LDA主题模型,TF-IDF等模型可以提取文本的主要特征,但是这些特征在一定程度上仅基于统计方法的抽取,并没有对微博的文本内容做出理解。为了使得模型能够通过理解微博内容来进行预测,建立深度神经网络进行微博内容的特征提取。
现有的一种基千时变阻尼运动的在线社交网络信息传播构建方法,包括以下步骤:S1,获取在线社交网络节点上的个体特征;S2,根据步骤S1获取的个体特征计算信息传播加速度;S3,获取信息传播在网络节点上的受力状况;S4,判断信息剩余能量是否大千或者等千信息预设能量阅值;S5,统计网络节点上用户传播量,预测热点度。
然而,上述现有的当前对于舆情传播量预测的模型大多仅考虑特定的数据属性或使用与TF-IDF类似的统计特征进行训练,忽略了微博语义信息对传播量预测的影响,因此无法准确对舆情传播量进行预测。
发明内容
本发明的目的在于提供一种能够准确有效的预测消息传播量的融合语义信息的舆情传播量预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种融合语义信息的舆情传播量预测方法,包括:
对于获取的微博数据,利用预先构建的回归模型提取维度特征;
使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征;
将提取的维度特征和语义特征进行合并;
对合并后的特征通过决策树算法完成传播量的预测。
可选的,对微博数据利用特征工程,提取出构建回归模型所需要的特征。
可选的,使用基于注意力机制的双向长短时记忆模型提取微波数据的语义特征,使模型对不同的文字具有不同训练权重,同时加入防止过拟合的策略实现语义特征提取。
可选的,将预先构建的回归模型和双向长短时记忆模型所提取的特征进行合并送入决策树,使网络既能进行用户建模又能对微博内容进行理解,以提升传播量预测准确率。
可选的,维度特征包括在转发量、点赞量和评论量三个维度上的特征。
可选的,采用LSTM模型、RNN模型、BiRNN模型或者XGboost模型中的一种对微博转发量、点赞量和评论量特征值进行预测。
第二方面,本发明提供一种融合语义信息的舆情传播量预测系统,包括:
第一提取模块,用于对于获取的微博数据,利用预先构建的回归模型提取维度特征;
第二提取模块,用于使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征;
融合模块,用于将提取的维度特征和语义特征进行合并;
预测模块,用于对合并后的特征通过决策树算法完成传播量的预测。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的融合语义信息的舆情传播量预测方法。
第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的融合语义信息的舆情传播量预测方法。
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的融合语义信息的舆情传播量预测方法的指令。
本发明有益效果:首先使用特征工程对微博数据在转发量、点赞量和评论量等维度进行了特征提取,提取出模型建模过程中需要的特征,并借助集成学习的方法完成回归模型的构建;然后进行微博语义信息的提取,使用基于注意力机制的双向LSTM提取语义特征,使模型对不同的文字具有不同训练权重,同时加入防止过拟合的策略实现语义信息提取;最后将两个模型所提取的特征进行合并送入决策树,使网络既能进行用户建模又能对微博内容进行理解,提升了消息传播量预测的准确率。
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的融合语义信息的舆情传播量预测方法流程图。
图2为本发明实施例所述的融合语义信息的舆情传播量预测模型结构图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
如图1、图2所示,本实施例1提供一种融合语义信息的舆情传播量预测系统,包括:
第一提取模块,用于对于获取的微博数据,利用预先构建的回归模型提取维度特征;
第二提取模块,用于使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征;
融合模块,用于将提取的维度特征和语义特征进行合并;
预测模块,用于对合并后的特征通过决策树算法完成传播量的预测。
本实施例1中,利用上述的系统,实现了融合语义信息的舆情传播量预测方法,包括:使用第一提取模块,对于获取的微博数据,利用预先构建的回归模型提取维度特征;利用第二提取模块,使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征;利用融合模块,将提取的维度特征和语义特征进行合并;利用预测模块,对合并后的特征通过决策树算法完成传播量的预测。
其中,对微博数据利用特征工程,提取出构建回归模型所需要的特征。使用基于注意力机制的双向长短时记忆模型提取微波数据的语义特征,使模型对不同的文字具有不同训练权重,同时加入防止过拟合的策略实现语义特征提取。将预先构建的回归模型和双向长短时记忆模型所提取的特征进行合并送入决策树,使网络既能进行用户建模又能对微博内容进行理解,以提升传播量预测准确率。
其中,维度特征包括在转发量、点赞量和评论量三个维度上的特征。
本实施例1中,采用LSTM模型、RNN模型、BiRNN模型或者XGboost模型中的一种对微博转发量、点赞量和评论量特征值进行预测。
综上,本发明实施例1提出的融合语义信息的舆情传播量预测方法,首先对微博数据采集及预处理;对微博数据在转发量、点赞量和评论量等维度进行特征工程,提取出模型建模过程中需要的特征,并借助集成学习的方法完成回归模型的构建;使用基于注意力机制的双向LSTM提取语义特征,使模型对不同的文字具有不同训练权重,同时加入防止过拟合的策略实现语义信息提取;将两个模型所提取的特征进行合并送入决策树,使网络既能进行用户建模又能对微博内容进行理解,以提升传播量预测准确率。
本实施例所述的方法借助集成学习方法,采用LSTM、RNN、BiRNN,XGboost等回归模型对微博转发量,点赞量,评论量等多个特征值进行预测;在语义分析过程中,首先Bert预训练模型进行编码,然后使用基于注意力机制的BILSTM进行语义特征分析。
首先对微博数据在转发量,点赞量和评论量等维度进行特征工程,提取出模型建模过程中需要的特征,并借助集成学习的方法完成回归模型的构建。然后进行微博语义信息的提取,使用基于注意力机制的双向LSTM提取语义特征,使模型对不同的文字具有不同训练权重,同时加入防止过拟合的策略实现语义信息提取。最后将两个模型所提取的特征进行合并送入决策树,使网络既能进行用户建模又能对微博内容进行理解,提升传播量预测准确率。
实施例2
本发明实施例2提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现融合语义信息的舆情传播量预测方法,该方法包括:
对于获取的微博数据,利用预先构建的回归模型提取维度特征;
使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征;
将提取的维度特征和语义特征进行合并;
对合并后的特征通过决策树算法完成传播量的预测。
实施例3
本发明实施例3提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现融合语义信息的舆情传播量预测方法,该方法包括:
对于获取的微博数据,利用预先构建的回归模型提取维度特征;
使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征;
将提取的维度特征和语义特征进行合并;
对合并后的特征通过决策树算法完成传播量的预测。
实施例4
本发明实施例4提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现融合语义信息的舆情传播量预测方法的指令,该方法包括:
对于获取的微博数据,利用预先构建的回归模型提取维度特征;
使用基于注意力机制的双向长短时记忆模型提取微博数据的语义特征;
将提取的维度特征和语义特征进行合并;
对合并后的特征通过决策树算法完成传播量的预测。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
机译: 用于访问控制主机处理系统的防回传容量预测系统和方法
机译: 预测超融合基础架构环境中升级完成时间的方法和系统
机译: 基于融合神经网络模型的发动机喘振故障预测系统与方法