公开/公告号CN116245241A
专利类型发明专利
公开/公告日2023-06-09
原文格式PDF
申请/专利权人 人民网股份有限公司;西安交通大学;
申请/专利号CN202310214902.4
申请日2023-03-08
分类号G06Q10/04(2023.01);G06Q50/00(2012.01);G06F40/30(2020.01);G06F40/289(2020.01);G06N3/04(2023.01);G06N3/0442(2023.01);
代理机构西安通大专利代理有限责任公司 61200;
代理人王艾华
地址 100082 北京市西城区新街口外大街28号B座234号
入库时间 2023-06-28 06:30:04
法律状态公告日
法律状态信息
法律状态
2023-06-27
实质审查的生效 IPC(主分类):G06Q10/04 专利申请号:2023102149024 申请日:20230308
实质审查的生效
2023-06-09
公开
发明专利申请公布
技术领域
本发明涉及信息流行度预测技术领域,具体为一种基于话题变化趋势的信息流行度预测方法。
背景技术
随着在线社交网络的发展,人们可以通过网络随时随地进行沟通,这导致社交网络每天都产生大量的短文本,从中及时检测出热点话题,可以帮助用户获得更好的使用体验,同时,预测某个事件相关信息的未来传播规模,可使平台更早的做出应对措施,所以在线社交网络的话题检测和信息流行度预测就非常重要,当前也有较多的相关研究。
信息流行度预测任务目前国内外已有不少的相关研究,根据模型方法的不同可以分为基于特征构造的方法、基于生成模型的方法和基于深度学习的方法。
1)基于特征构造的方法
基于特征提取的方法是早期比较流行的方法,根据特征的不同类型可以分为用户,内容,时序和结构。用户特征主要包括参与传播的用户粉丝数量、影响力等。时序特征包括发布时间、用户参与时间等。结构特征是对早期传播网络进行建模并分析网络的结构特征。内容特征包括了文本、图片和视频等多种类型。通过对这些特征进行提取后,结合朴素贝叶斯、线性回归等机器学习算法进行预测。
2)基于生成模型的方法
在社交网络上的信息传播预测提出之前,复杂网络传播动力学就在对信息传播过程进行建模,这种方法对传播过程具有较好的可解释性。基于生成模型的信息流行度预测方法将信息传播过程看成是用户转发行为的一个到达过程。按照建模方法不同可以分为传染病模型、随机点过程等。
3)基于深度学习的方法
深度学习算法目前已经在图像识别、自然语言处理等方面证明了其有效性。由于人工特征难以获取,现在已经有许多研究利用深度学习的方法来进行流行度预测。
现有的流行度预测方法多利用传播网络或用户网络,网络结构在信息传播过程中是动态变化的,且结构复杂,不便于获取和分析,网络未知的方法在处理文本时大多只提取语义信息,而没有考虑到文本内容中话题的变化同样会对传播造成影响。
发明内容
针对现有技术中存在的问题,本发明提供一种基于话题变化趋势的信息流行度预测方法。
本发明是通过以下技术方案来实现:
一种基于话题变化趋势的信息流行度预测方法,包括以下步骤:
S1,从已公开的数据集中提取表示话题的关键词集合,并构建关键词集合的趋势变化图和词汇共现图;
S2,以趋势变化图的整体趋势作为话题突发特征,利用人工提取方式对话题突发特征进行特征学习,获取人工特征序列;利用图表示学习方法对话题突发特征进行特征学习,获取词汇共现图向量和趋势变化图向量;
S3,通过长短期记忆网络对人工特征序列、词汇共现图向量和趋势变化图向量进行学习,获取话题变化趋势特征;将话题变化趋势特征与文本语义预测信息流行度结合,预测话题的流行度。
优选的,在S1中,构建趋势变化图和词汇共现图的具体步骤如下:
S11,令每个节点为一个三元组
S12,对已公开的数据集中的短文本按照观察期进行划分,获得观察期短文本集合;其中,每个观察期短文本集合作为一个样本,包括观察期内用户产生的所有短文本,记作
S13,对观察期短文本集合按照时间窗口
S14,根据相邻的词汇共现图得到趋势变化图,即由词汇共现图集合
优选的,在S13中,词汇共现图的获取步骤为:首先对所有的短文本进行分词,将每个短文本表示为一个词语集合,短文本中每两个词语之间记作一次共现,即将词语视为节点,共现次数视为边的个数,那么短文本的词语集合构成初始的词汇共现图,将初始的词汇共现图合并相同节点与边构成了最终的词汇共现图。
优选的,在S14中,趋势变化图的获取步骤为:输入相邻两个词汇共现图的邻接矩阵及节点集;遍历邻接矩阵中的所有节点,对每个节点计算词频的变化特征,并计算共现次数的变化特征。
优选的,在S2中,人工特征序列由话题热度特征、相对话题热度特征和话题中心性
优选的,话题热度特征的获取方式如下:按照公式
相对话题热度特征的获取方式如下:令相对话题热度特征为第一相对特征
话题中心性的获取方式如下:节点的话题中心性特征记作
人工特征的话题中心性由所有节点中心性求和得到,
优选的,在S2中,获取词汇共现图向量和趋势变化图向量的具体步骤如下:将
优选的,在S3中,预测时的具体步骤如下:
S31,通过长短期记忆网络对提取到的人工特征、词汇共现图表示向量和趋势变化图表示向量进行学习和拼接,获得话题变化趋势特征;其中,人工特征序列、趋势变化图的表示向量和词汇共现图表示向量分别记做
S32,将话题变化趋势特征序列
S33,利用多层感知机对再拼接序列进行预测,获得预测话题的流行度。
优选的,在S32中,文本语义信息W的提取步骤如下:
S321,选择预训练模型BERT并调用bert-as-service对所有的短文本进行嵌入,获得训练模型;
S322,封装训练模型,获得所有短文本的表示向量;
S323,利用平均池化和最大池化从短文本的表示向量中获得样本语义信息W。
一种基于话题变化趋势的信息流行度预测系统,包括词汇共现图和趋势变化图构造模块、人工特征模块、图表示学习特征模块、文本语义信息提取模块和信息流行度预测模块,所述词汇共现图和趋势变化图构造模块用于提取表示话题的关键词集合,并构建关键词的趋势变化图,所述人工特征模块用于提取话题突发特征,图表示学习特征模块用于进行话题突发特征的学习,所述文本语义信息提取模块用于提取文本语义信息,所述信息流行度预测模块用于进行话题的流行度预测并获取预测结果。
与现有技术相比,本发明具有以下有益效果:
本发明一种基于话题变化趋势的信息流行度预测方法是在考虑网络结构在信息传播过程中的动态变化下进行的,首先,提取关键词集合来表示话题,构造关键词的趋势变化图;其次,将趋势变化图的整体趋势看作话题突发特征,利用人工提取和图表示学习方法进行特征学习;最后,通过长短期记忆网络对话题突发特征序列进行学习,得到话题变化趋势特征,结合文本语义预测信息流行度,充分考虑到文本内容中话题的变化对传播造成的影响,可以精确地进行流行度预测。
本发明提取关键词集合来表示话题,构造关键词的词汇共现图和趋势变化图,不仅考虑了当前时刻的数据状态对预测结果的影响,更考虑了连续多个时刻的变化趋势对预测结果的影响,增强了预测结果的准确度。
本发明将趋势变化图的整体趋势看作话题突发特征,分别利用人工提取和图表示学习方法进行特征学习,从不同角度挖掘趋势变化图中的信息,增强了信息表征能力。
本发明通过长短期记忆网络对话题突发特征序列进行学习,得到话题变化趋势特征,符合事件随时间发展的客观规律,具有良好的可解释性。
本发明将话题变化趋势特征与文本语义相结合用于预测信息流行度,充分考虑到文本内容对传播造成的影响,大大提升了流行度预测任务的性能。
进一步的,bert-as-service在基于数据集进行训练后,将预训练模型进行封装,作为服务提供,用户可以从客户端输入文本,传输给服务端,服务端通过模型得到文本的表示向量后,将结果传给客户端做进一步的处理,从而可以对样本中所有文本进行嵌入,在得到所有文本表示向量后,使用平均池化和最大池化,获得样本语义信息表示。
附图说明
图1为本发明实施例提供的一种基于话题变化趋势的信息流行度预测方法的示意图;
图2为本发明中构造词汇共现图的示意图;
图3为本发明中图表示学习特征模块的示意图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明公开了一种基于话题变化趋势的信息流行度预测方法,参照图1,包括以下步骤:
S1,从已公开的数据集中提取表示话题的关键词集合,并构建关键词集合的趋势变化图和词汇共现图,具体步骤如下:
S11,令每个节点为一个三元组
S12,对已公开的数据集中的短文本按照观察期进行划分,获得观察期短文本集合;其中,每个观察期短文本集合作为一个样本,包括观察期内用户产生的所有短文本,记作
S13,对观察期短文本集合按照时间窗口
之后分别提取每个超文本对应的词汇共现图
如图2所示,图中的四个短文本
S14,根据相邻的词汇共现图得到趋势变化图,即由词汇共现图集合
S2,以趋势变化图的整体趋势作为话题突发特征,利用人工提取方式对话题突发特征进行特征学习,获取人工特征序列;利用图表示学习方法对话题突发特征进行特征学习,获取词汇共现图向量和趋势变化图向量。
其中,人工特征序列由话题热度特征、相对话题热度特征和话题中心性
话题热度特征的获取方式如下:按照公式
相对话题热度特征的获取方式如下:令相对话题热度特征为第一相对特征
话题中心性的获取方式如下:节点的话题中心性特征记作
人工特征的话题中心性由所有节点中心性求和得到,
参照图3,词汇共现图向量和趋势变化图向量具体步骤如下:将
S3,通过长短期记忆网络对人工特征序列、词汇共现图向量和趋势变化图向量进行学习,获取话题变化趋势特征;将话题变化趋势特征与文本语义预测信息流行度结合,预测话题的流行度。
具体步骤如下:
S31,通过长短期记忆网络(LSTM)对提取到的人工特征、词汇共现图表示向量和趋势变化图表示向量进行学习和拼接,获得话题变化趋势特征;其中,人工特征序列、趋势变化图的表示向量和词汇共现图表示向量分别记做
S32,将话题变化趋势特征序列
S321,选择预训练模型BERT并调用bert-as-service对所有的短文本进行嵌入,获得训练模型;
S322,封装训练模型,获得所有短文本的表示向量。
S323,利用平均池化和最大池化从短文本的表示向量中获得样本语义信息W。
S33,利用多层感知机(Multilayer Perceptron, MLP)对再拼接序列进行预测,获得预测话题的流行度。
本发明还公开了一种基于话题变化趋势的信息流行度预测系统,包括词汇共现图和趋势变化图构造模块、人工特征模块、图表示学习特征模块、文本语义信息提取模块和信息流行度预测模块,词汇共现图和趋势变化图构造模块用于提取表示话题的关键词集合,并构建关键词的趋势变化图,人工特征模块用于提取话题突发特征,图表示学习特征模块用于进行话题突发特征的学习,文本语义信息提取模块用于提取文本语义信息,信息流行度预测模块用于进行话题的流行度预测并获取预测结果,问题定义为回归问题,损失函数选择均方误差,通过最小化损失函数对整个系统进行训练。
本发明还公开了一种终端设备,包括存储器、处理器以及存储所述存储器中并在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
本发明还公开了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。
机译: 用于确定企业的流行度并将基于流行度的排名因子与本地存储在通信设备上的企业的联系信息相关联的方法和系统
机译: 确定企业的流行度并将基于流行度与联系人信息的排名因子相关联的方法和系统用于存储在本地的企业通信设备
机译: 基于监测因子趋势变化趋势的容量管理和预测计划系统及其方法