首页> 中国专利> 一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法

一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法

摘要

本发明公开了一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,包括分析网络论坛中帖子的发表时间数据,将网络论坛及用户关注点,随时间变化的思想,加入所述关注点权值计算过程;结合运用时间窗口及时间遗忘算法,在为所述关注点权值赋予时间权重,并通过计算得到的时间窗口键值,连续去除过期关注点。本发明可以在一定程度上将时间特性对网络论坛用户的影响体现到最终的相似性计算中,使得基于时间遗忘函数的关注点相似度分析算法能够很好捕捉话题时间演变趋势,并客观反映到相似度度量上,从而实现网络论坛相似度随时间变化的分析,进而对论坛的关注点变化情况进行捕捉。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-14

    实质审查的生效 IPC(主分类):G06F40/216 专利申请号:2022102333865 申请日:20220310

    实质审查的生效

  • 2023-01-20

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及数据处理技术领域,具体为一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法。

背景技术

以百度贴吧为代表的网络论坛,与新浪微博等短文本社交平台,或抖音、快手等短视频社交平台有不同之处:每个贴吧以一个实体作为其名义上最为关注的内容而命名。

时事热点和流行文化经常随时间推移而发生改变,网络论坛中人们的关注点也会随之发生变化。一些关注点会逐渐被用户忘记,新的关注点会被补充进来,而也有一些关注点始终是用户感兴趣的对象。

发掘时间变化对网络论坛、用户及舆论情况的影响,能够进一步强化对网络态势的感知力与敏感程度,同样具有一定的研究价值。

正如其它网络舆情聚集的网上社交平台一样,网络论坛的关注点经常会随时间而改变。事实上对网络论坛关注响应快慢、持续时间是分析网络论坛舆论变化非常重要的特性之一。如何将这些反映了网络论坛用户的兴趣、爱好相关的信息的特性体现到论坛关注点的相似性计算中来,是需要研究的一个重要问题。

在基于TF-IDF的Simrank算法中,通过使用TF-IDF值代替词频作为图中边的权值,提升了词对网络论坛的关注点区分度,但是如同传统Simrank 关注点相似度算法一样,仍没有考虑时间在其中的影响。

所以我们提出了一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,以便于解决上述中提出的问题。

发明内容

本发明的目的在于提供一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,以解决上述背景技术提出的在基于TF-IDF的Simrank算法中,通过使用TF-IDF值代替词频作为图中边的权值,提升了词对网络论坛的关注点区分度,但是如同传统Simrank关注点相似度算法一样,仍没有考虑时间在其中影响的问题。

针对现有关注点相似度分析方法未考虑时间维度、时间分析方法难以动态调整的问题,本算法将时间窗口权值和时间遗忘权值进行结合,据此求得网络论坛发帖数据的时间权值,并将此与TF-IDF关注点权值结合,得出带有网络论坛时间特征权值的PTTF-IDF特征值,并通过Simrank算法计算出关注点相似度随时间变化情况。

为实现上述目的,本发明提供如下技术方案:一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,包括:分析网络论坛中帖子的发表时间数据,将网络论坛及用户关注点,随时间变化的思想,加入所述关注点权值计算过程;结合运用时间窗口及时间遗忘算法,在为所述关注点权值赋予时间权重,并通过计算得到的时间窗口键值,连续去除过期关注点。

优选的,本算法包括:结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算和基于语义和时间权重的Simrank关注点相似度算法。

优选的,所述结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算,包括以下步骤:

S10、通过使用基于时间变化率的时间窗口,为不断变化的文本数据设置一个新的权值;

S11、改良现有的基于时间窗口的关注点权重计算因过期数据带来的误差;

S12、基于时间变化率的时间窗口计算出平均时间变化率的权值;

S13、为时间窗口筛选过时数据提供键值的结合。

优选的,所述基于语义和时间权重的Simrank关注点相似度算法,包括以下步骤:

S20、通过使用基于时间窗口和时间遗忘特性的关注点权重计算方法得到权重;

S21、所述权重代替用户词频进行TF-IDF计算;

S22、与Simrank相似度计算方法结合,获取各网络论坛随时间变化而变化的关注点偏移轨迹。

优选的,在步骤S11中,为所述关注点权值赋予时间权重时,通过所述步骤10计算得到的时间窗口键值,不断去除过期关注点。

优选的,在步骤21中,将新获得的结合时间权重的TF-IDF计算结果称为PTTF-IDF,并将所述PTTF-IDF与Simrank相似度计算方法结合,获取各网络论坛随时间变化而变化的关注点偏移轨迹。

优选的,所述文本数据采集来自百度贴吧的实时数据和历史数据。

与现有技术相比,本发明的有益效果是:

本发明通过将基于时间观察窗口和时间遗忘特性的关注点权重计算结合到基于TF-IDF的Simrank算法中,得到基于时间遗忘特性的Simrank算法,可以在一定程度上将时间特性对网络论坛用户的影响体现到最终的相似性计算中,使得基于时间遗忘函数的关注点相似度分析算法能够很好捕捉话题时间演变趋势,并客观反映到相似度度量上,从而实现网络论坛相似度随时间变化的分析,进而对论坛的关注点变化情况进行捕捉。

附图说明

图1为本发明一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法的原理框架图;

图2为本发明一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法的整体流程图;

图3为主题贴吧随时间变化的关注点相似度折线图;

图4为g吧与(d吧-f吧)关注点相似度变化情况的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施条例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

请参阅图1-4,本发明提供一种技术方案:一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,通过将基于时间观察窗口和时间遗忘特性的关注点权重计算结合到基于TF-IDF的Simrank算法中,得到基于时间遗忘特性的Simrank算法,可以在一定程度上将时间特性对网络论坛用户的影响体现到最终的相似性计算中。

针对现有关注点相似度分析方法未考虑时间维度、时间分析方法难以动态调整的问题。该算法将时间窗口权值和时间遗忘权值进行结合,据此求得网络论坛发帖数据的时间权值,并将此与TF-IDF关注点权值结合,得出带有网络论坛时间特征权值的PTTF-IDF特征值,并通过Simrank算法计算出关注点相似度随时间变化情况。

本发明原理框架如图1所示,主要过程为结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算,以及基于语义和时间权重的Simrank关注点相似度计算。

针对时间分析在网络论坛关注点相似度研究中的缺乏,以及时间分析算法计算准确性问题,分析网络论坛中帖子的发表时间数据。将网络论坛及用户关注点随时间变化的思想加入关注点权值计算过程中,结合运用时间窗口及时间遗忘算法,在为关注点权值赋予时间权重的同时通过计算得到的时间窗口键值不断去除过期关注点,从而确保算法的时间敏感度以及计算结果的有效性。

本发明所提出算法分为两个部分:结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算、基于语义和时间权重的Simrank关注点相似度算法。

(1)结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算

针对现有的关注点时间权重计算方法难以动态调整、不够准确的问题,本发明提出了结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算方法。

首先,通过使用基于时间变化率的时间窗口,为不断变化的文本数据设置一个新的权值,从而改良现有的基于时间窗口的关注点权重计算因过期数据带来的误差干扰问题。

其次,人类对于不同关注点的时间遗忘特性是不一样的。短期关注点对应于变化迅速的短时记忆,这类关注点往往出现很快,消失也很快,对用户的影响较小;而长期关注点对应于相对稳定的长时记忆,这类关注点往往和用户的兴趣、爱好或者工作性质相关,出现之后变化缓慢,对用户的影响更为重要。

最后,现有的基于时间窗口和遗忘函数的关注点分析方法,主要通过动态调整窗口宽度或者遗忘速度来应对关注点在时间上的变化。但不幸的是,长期关注和短期关注往往同时存在,而不论是时间窗口还是遗忘函数,其窗口宽度或者遗忘速度的调整都是和时间相关而不是和关注类型相关,造成了在同一时刻窗口宽度或者遗忘速度对所有的关注点都是固定不变的,难以同时兼顾长期关注和短期关注,只能在二者之间取一个相对合适的折衷。为了解决这一问题,本分析工作在现有方法原理分析的基础上,对其进行改进。最终形成基于时间变化率的时间窗口计算方法能够计算出平均时间变化率的权值,同时为时间窗口筛选过时数据提供键值的结合,从而确保算法不会因为过时数据挤占,而造成准确率的降低,这个过程的整体流程如图2所示。

(2)基于语义和时间权重的Simrank关注点相似度算法

在TF-IDF计算过程中,通过用户词频大小和词关联用户数量的相互竞争提升那些具有更大用户区分度的词的权重,使用词频的好处是直观且运算简单,但是缺点是不能体现词的时间分布不同的影响。

在描述用户当前状态的时候,新近出现的关注点要比过去出现的关注点更具有代表性,同时那些持续出现的长期关注点要比快速变化的短期关注点更能表示用户的特性。因此,通过使用基于时间窗口和时间遗忘特性的关注点权重计算方法得到的权重,来代替用户词频进行TF-IDF计算,可以进一步提升词对用户区分度的合理性。本发明将新获得的结合时间权重的TF-IDF计算结果称为“PTTF-IDF”,并将之与Simrank相似度计算方法结合,能够发现各网络论坛随时间变化而变化的关注点偏移轨迹。

实施例2

根据爬取的百度贴吧数据情况,将时间窗口以月份为单位划分为15个,即设置k=15。考虑到贴吧数据中较为严重的数据稀疏问题,更细粒度的时间窗口划分,会导致计算准确率降低。在此基础上,根据数据情况设置时间分析参数α与β,依次对时间窗口权值、时间窗口键值、时间衰减权值、网络论坛时间权值等数值进行计算,并将这些结果与TF-IDF权重相结合,计算出基于时间遗忘的Simrank相似度结果。通过以上实验过程,即可得出各主题贴吧随时间发展,关注点变化的确切过程,如表1至表14所示。

表1贴吧数据2020年2月相似度计算结果

表2贴吧数据2020年3月相似度计算结果

表3贴吧数据2020年4月相似度计算结果

表4贴吧数据2020年5月相似度计算结果

表5贴吧数据2020年6月相似度计算结果

表6贴吧数据2020年7月相似度计算结果

表7贴吧数据2020年8月相似度计算结果

表8贴吧数据2020年9月相似度计算结果

表9贴吧数据2020年10月相似度计算结果

表10贴吧数据2020年11月相似度计算结果

表11贴吧数据2020年12月相似度计算结果

表12贴吧数据2021年1月相似度计算结果

表13贴吧数据2021年2月相似度计算结果

表14贴吧数据2021年3月相似度计算结果

从表1至表14可以看出,随着时间变化,各主题贴吧之间的关注点相似度持续变化。为进行便于直观可视的计算结果比较,本研究从上述表中抽取部分数据进行结果比较。具体的,抽取对象为2020年2月至2021年3月间a 吧、b吧、c吧、e吧之间的相似度情况。为了表达简洁,这里分别设a吧为对象a,b吧为对象b,c吧为对象c,e吧为对象d,则其关注点相似度的变化情况如表15所示。

表15主题贴吧随时间变化的关注点相似度偏移情况

将表15中的结果可绘制成关注点相似度折线图,如图3所示。该可以展现出结合时间窗口与时间衰减的关注点相似度计算方法,对网络论坛随时间变化情况的敏感程度。例如,a吧、b吧、c吧三者间的相似度随时间的变化逐渐提高,特别是a吧与b吧,结合社会热点观察实例可以发现,此段时间刚好是a吧中对相关热点话题探讨密集的时段;相对地,比例a吧与e吧间的相似度随着时间的变化逐渐降低,这主要是由于此段时间e吧的话题主要集中于历史回顾等相关主题,因而与关注特定话题的a吧间的相似度呈现下降趋势,从而印证了本章提出算法的有效性。

通过对实验数据进行分析可以发现,用户关注点随时间呈现明显区分。为了更进一步反映本文方法对关注点随时间发展而变化结果的准确性,本节以七个不同的贴吧分别为观察对象,分析不同贴吧在不同时段与其它贴吧的相似度,并利用matlab工具绘制三维图像。

对以上结果结合实事热点进一步分析可得,不同贴吧间相似度随时间的变化情况均有迹可循。以g吧和d吧为例,其同属于讨论各领域内容的热点事件。可以看出从2020年2月到2020年4月,两个贴吧之间相似度急速下降;而从2020年6月份开始,两个贴吧话题相似度开始上升至较高水平,2020年10月至2021年1月两个贴吧关注热点领域重叠度较高。

此外,为了更加明显体现Simrank挖掘效果,我们可对实验结果进一步作如下处理和分析。对g吧与f吧、d吧这两组相似度分析结果,我们将g吧和d吧的相似度与g吧和f吧的相似度做差值,观察其随时间的变化情况,称之为g吧与(d吧-f吧)关注点相似度评判,如图4所示。当g吧与d吧的相似度接近,则图中关注点相似度上涨;当g吧与f吧的相似度接近,则呈现出下降柱状。

通过以上实验结果对比与分析,本发明提出的基于时间遗忘函数的关注点相似度分析算法能够很好捕捉话题时间演变趋势,并客观反映到相似度度量上,从而实现网络论坛相似度随时间变化的分析,进而对论坛的关注点变化情况进行捕捉。

尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号