首页> 中国专利> 一种基于用户内容消费分析的热点发现方法及系统

一种基于用户内容消费分析的热点发现方法及系统

摘要

本发明实施例提供一种基于用户内容消费分析的热点发现方法及系统,包括:将具有交互功能的平台内所产生的各种信息流的数据进行保存,形成海量用户消费数据;对该平台的海量用户消费数据进行分类处理,形成待用数据,所述待用数据包括如下类型:内容数据、用户脱敏冷数据、关系数据;通过训练得到的热点结构化模型对内容数据进行筛选关联、将具有关联的内容数据归类,并对各类内容数据分别计算形成各自的热点,通过关系数据将各热点分别与用户脱敏冷数据内的用户进行关联。通过对海量的内容数据进行分析归类,构建了庞大的内容库,并且保证了内容数据的实时性,保证了热点能够在最初就被预判到,进而能够掌控热点整个周期。

著录项

  • 公开/公告号CN113127576A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 微梦创科网络科技(中国)有限公司;

    申请/专利号CN202110405034.9

  • 发明设计人 王东星;李云辉;鄂佳;

    申请日2021-04-15

  • 分类号G06F16/28(20190101);G06F16/215(20190101);G06Q30/02(20120101);G06F21/62(20130101);G06N3/04(20060101);G06N3/08(20060101);G06F40/295(20200101);

  • 代理机构11624 北京卓岚智财知识产权代理事务所(特殊普通合伙);

  • 代理人蔡永波

  • 地址 100193 北京市海淀区东北旺西路中关村软件园二期(西扩)N-1、N-2地块新浪总部科研楼2层

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及互联网领域,具体涉及一种基于用户内容消费分析的热点发现方法及系统。

背景技术

在现有技术中,对大数据平台的热点发现中,通过对大数据平台的大量文本进行分析,从而进行热点发现。在实现本发明过程中,申请人发现现有技术中至少存在如下问题:在进行分析时仅依靠术语进行文本识别,从而实现热点提取。没有实时有效的内容支撑,如果一旦术语更新不及时,便会错过热点发现的初期时机,热点的实时性得不到保障。

发明内容

本发明实施例提供一种基于用户内容消费分析的热点发现方法及系统,通过对海量的内容数据进行分析归类,构建了庞大的内容库,并且保证了内容数据的实时性,保证了热点能够在最初就被预判到,进而能够掌控热点整个周期。

为达上述目的,一方面,本发明实施例提供一种基于用户内容消费分析的热点发现方法,包括:

将具有交互功能的平台内所产生的各种信息流的数据进行保存,形成海量用户消费数据;

对该平台的海量用户消费数据进行分类处理,形成待用数据,所述待用数据包括如下类型:内容数据、用户脱敏冷数据、关系数据;其中,所述内容数据是指用户在该平台上真实产生消费行为的数据,所述用户脱敏冷数据是指经过清洗脱敏后、采用用户画像技术形成的多粒度用户画像数据,所述关系数据是指用户和内容之间的互动关系;

通过训练得到的热点结构化模型对内容数据进行筛选关联、将具有关联的内容数据归类,并对各类内容数据分别计算形成各自的热点,通过关系数据将各热点分别与用户脱敏冷数据内的用户进行关联。

另一方面,本发明实施例提供一种基于用户内容消费分析的热点发现系统,包括:

数据获取单元,用于将具有交互功能的平台内所产生的各种信息流的数据进行保存,形成海量用户消费数据;

数据处理单元,用于对该平台的海量用户消费数据进行分类处理,形成待用数据,所述待用数据包括如下类型:内容数据、用户脱敏冷数据、关系数据;其中,所述内容数据是指用户在该平台上真实产生消费行为的数据,所述用户脱敏冷数据是指经过清洗脱敏后、采用用户画像技术形成的多粒度用户画像数据,所述关系数据是指用户和内容之间的互动关系;

热点发现单元,用于通过训练得到的热点结构化模型对内容数据进行筛选关联、将具有关联的内容数据归类,并对各类内容数据分别计算形成各自的热点,通过关系数据将各热点分别与用户脱敏冷数据内的用户进行关联。

上述技术方案具有如下有益效果:通过对海量的内容数据进行分析归类,构建了庞大的内容库,并且保证了内容数据的实时性,保证了热点能够在最初就被预判到,进而能够掌控热点整个周期。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于用户内容消费分析的热点发现方法的流程图;

图2是本发明实施例的一种基于用户内容消费分析的热点发现系统的结构图;

图3是本发明实施例的另一种基于用户内容消费分析的热点发现方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,结合本发明的实施例,提供一种基于用户内容消费分析的热点发现方法,包括:

S101:将具有交互功能的平台内所产生的各种信息流的数据进行保存,形成海量用户消费数据;

S102:对该平台的海量用户消费数据进行分类处理,形成待用数据,所述待用数据包括如下类型:内容数据、用户脱敏冷数据、关系数据;其中,所述内容数据是指用户在该平台上真实产生消费行为的数据,所述用户脱敏冷数据是指经过清洗脱敏后、采用用户画像技术形成的多粒度用户画像数据,所述关系数据是指用户和内容之间的互动关系;

S103:通过训练得到的热点结构化模型对内容数据进行筛选关联、将具有关联的内容数据归类,并对各类内容数据分别计算形成各自的热点,通过关系数据将各热点分别与用户脱敏冷数据内的用户进行关联。

优选地,还包括S104:

获取互联网历史热点数据,对各互联网历史热点数据所对应的内容数据分别进行标签标注,所述互联网历史热点数据相应的标签包括一级热点标签或者二级热点标签,通过支持信息抽取的算法模型对标注好标签的内容数据进行训练,得到热点标签结构化模型;

对各互联网历史热点数据所对应的内容数据分别进行主题标注,从而标注出各内容数据的热点主题关键词,通过概率主题类模型对标注好热点主题关键词的内容数据进行训练,得到热点主题分析模型;

将所述热点标签结构化模型和所述热点主题分析模型作为热点结构化模型。

优选地,在步骤103中,所述通过热点结构化模型对内容数据进行筛选关联、将具有关联的内容数据归类,并对各类内容数据分别计算形成各自的热点,具体包括:

S1031:通过热点标签结构化模型确定内容数据的标签,将具有关联的标签所对应的内容数据自动筛选出来归为一类;

S1032:针对筛选出来的每类内容数据,通过热点主题分析模型确定其热点主题关键词,根据热点主题关键词确定相应的热点,所述热点主题关键词包括实体词,所述实体词是通过实体识别模型自每类内容数据中识别得到的。

优选地,还包括:

S105:通过热点因果模型对各热点进行因果推理,判断每个热点是否会产生新热点;

S106:通过实时热点监测模型监测每个热点是否成为该平台的热搜话题。

优选地,还包括:

S107:将热点结构化模型用于行业内其他具有交互功能的平台,从其他具有交互功能的平台中获取历史信息流数据并从获取到的历史信息流数据中发现历史热点,将各历史热点所对应的热点主题关键词和标签加入热点库,所述热点库是用于存放行业内热点主题关键词和标签的数据库。

如图2所示,结合本发明的实施例,提供一种基于用户内容消费分析的热点发现系统,包括:

数据获取单元21,用于将具有交互功能的平台内所产生的各种信息流的数据进行保存,形成海量用户消费数据;

数据处理单元22,用于对该平台的海量用户消费数据进行分类处理,形成待用数据,所述待用数据包括如下类型:内容数据、用户脱敏冷数据、关系数据;其中,所述内容数据是指用户在该平台上真实产生消费行为的数据,所述用户脱敏冷数据是指经过清洗脱敏后、采用用户画像技术形成的多粒度用户画像数据,所述关系数据是指用户和内容之间的互动关系;

热点发现单元23,用于通过训练得到的热点结构化模型对内容数据进行筛选关联、将具有关联的内容数据归类,并对各类内容数据分别计算形成各自的热点,通过关系数据将各热点分别与用户脱敏冷数据内的用户进行关联。

优选地,还包括:

热点结构化模型构建单元24,用于获取互联网历史热点数据,对各互联网历史热点数据所对应的内容数据分别进行标签标注,所述互联网历史热点数据相应的标签包括一级热点标签或者二级热点标签,通过支持信息抽取的算法模型对标注好标签的内容数据进行训练,得到热点标签结构化模型;

对各互联网历史热点数据所对应的内容数据分别进行主题标注,从而标注出各内容数据的热点主题关键词,通过概率主题类模型对标注好热点主题关键词的内容数据进行训练,得到热点主题分析模型;

将所述热点标签结构化模型和所述热点主题分析模型作为热点结构化模型。

优选地,所述热点发现单元23包括:

热点标签确定子单元231,用于通过热点标签结构化模型确定内容数据的标签,将具有关联的标签所对应的内容数据自动筛选出来归为一类;

热点确定子单元232,用于针对筛选出来的每类内容数据,通过热点主题分析模型确定其热点主题关键词,根据热点主题关键词确定相应的热点,所述热点主题关键词包括实体词,所述实体词是通过实体识别模型自每类内容数据中识别得到的。

优选地,还包括:

热点推理单元25,用于通过热点因果模型对各热点进行因果推理,判断每个热点是否会产生新热点;

热点监测单元26,用于通过实时热点监测模型监测每个热点是否成为该平台的热搜话题。

优选地,所述热点结构化模型还包括:

对外服务单元27,用于将热点结构化模型用于行业内其他具有交互功能的平台,从其他具有交互功能的平台中获取历史信息流数据并从获取到的历史信息流数据中发现历史热点,将各历史热点所对应的热点主题关键词和标签加入热点库,所述热点库是用于存放行业内热点主题关键词和标签的数据库。

本发明所取得的有益效果如下:

1、热点内容的时效性和量级

通过对海量的内容数据进行分析归类,构建了庞大的内容库,并且保证了内容数据的实时性,保证了热点能够在最初就被预判到,进而能够掌控热点整个周期。

2、热点的真实性和用户强关联

本发明将内容数据和用户数据通过行为数据进行强关联,保证了数据和用户之间有转发、评论、点赞等真实的互动行为,是真正由用户关心关注进而推进产生的热点。

3、热点的趋势跟踪

通过强大的数据计算和模型能力。实现了对热点的趋势监控,完整掌控热点的发生、上升、下降、消失的整个链路。可对热点的趋势进行合理的预判。

下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。

本发明为一种基于多粒度用户内容消费分析的热点发现系统,用于解决“热点发现时,没有实时有效的内容支撑,如果一旦术语更新不及时,便会错过热点发现的初期时机,热点的实时性得不到保障”的问题。

同时由于具有实时有效的声量数据支撑,容易发现热点,且形成反馈闭环,热点发现后通过数据进行合理论证,避免发现的热点对使用者来说起误导作用;还能通过声量数据进行热点的趋势跟踪,从而判断热点何时上升,何时下降。对实体词识别使得不在仅仅依靠对内容进行分词,避免“高度依赖分词性能和网页信息爬取;在识别文档内容质量较低的情况下,分析出的地域热点可能置信度并不高”情况的发生。可用于面向法治宣传的目标分类、群体画像与精准传播技术研究。

本发明从用户的真实行为出发,从多个渠道对数据进行汇总分析,既保证了热点的发现时效性,也保证了真实性,同时以趋势数据进行佐证和热点的趋势分析,更准确更快速的协助使用者进行分析预判。

如图3所示,本发明通过用户的消费行为对内容数据进行筛选关联,之后由模型进行计算并输出热点主题,之后再通过用户消费的实时更新,实现了对热点趋势的持续跟踪。本发明基于内容消费的热点发现方法,以及基于用户消费行为和内容热点的关联方法,具体的步骤如下:

1、信息收集归类

本技术基于处理海量数据的数据引擎,主要为微博信息流热门流、关系流、搜索流等,对多个渠道的海量数据进行合理高效的存储和计算。数据包括内容数据和用户脱敏冷数据(是指去掉用户隐私的、合法可用的用户数据)以及两者之间的关联,在处理后,存在三种类型的数据:内容数据、用户数据、关系数据。其中,最关键的是内容数据,是用户在微博等互联网内容平台上真实产生消费行为的数据,如点赞、转发、评论等。所以内容和用户之间有强关系,基于用户对内容的消费情况,所构建的关系数据库保证了真实性、时效性、强关系性。并且通过强大的实时计算系统,可以对庞大的消费行为数据进行统计,跟踪热点的变化趋势。从而对热点产生、上升、下降、消失的全过程有更好的掌控。其中,用户数据是指:经过清洗脱敏后的用户画像数据,如90后、男;关系数据是指:用户和内容之间的互动关系,如浏览、点赞、转发。

2、样本数据标注

借助模型训练实现样本的自动分类或预测,就需要提供基本的训练数据,为了训练热点结构化模型,需人工对历史互联网热点数据(内容数据)进行热点训练语料标注,热点结构化模型包括热点标签模型,训练得到热点标签模型需标一级热点标签标注、二级热点标签标注等,热点结构化模型还包括热点主题分析模型,训练得到热点主题分析模型需标注热点主题关键词等。其中,热点主题是指热点的名称。

3、模型训练

模型训练需要有训练环境,本发明中,构建了一个能支持信息抽取的算法平台,算法平台中的算法模型需要包括CNN(卷积神经网络)、RNN(循环神经网络)、DRN(深度残差网络)、RBM(受限玻尔兹曼机)等深度学习技术实现的标签分类模型。PLSA(概率潜在语义分析)、LDA(隐含狄利克雷分布)等概率主题类模型。HMM模型、基于字典方法等命名实体识别模型。以及增量聚类算法、判定树算法等实时热点监测和热点因果模型。最终,构建了以下几个模型:

(1)实时热点监测和热点因果模型

利用新浪微博的实时跟踪热点话题的后台能力,利用热点的产生、传播、发展进行实时的跟踪更新,判断产生的热点是否会成为微博热搜或者热点话题。对热点进行因果推理,判断一件热点是否会产生相对应的另一热点。其中,热点话题是指在媒体上引发群众广泛关注、讨论的热点主题。

(2)内容标签识别主题分析模型

利用TextCNN,fastText,Bert等文本分类模型对内容打上标签,训练数据采用经过标注过的内容数据,对模型进行训练,然后对给定内容进行分类,识别出内容的标签,以及用户的标签,然后进行热点和用户关联。

利用主题分析模型对内容进行主题判断,主题模型包括:LDA等。在主题模型中,主题是以文本中所有字符为支撑集的概率分布,表示该字符在该主题中出现的频繁程度,即与该主题关联性高的字符有更大概率出现。在文本拥有多个主题时,每个主题的概率分布都包括所有字符,但一个字符在不同主题的概率分布中的取值是不同的。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

4、热点结构化模型获取

基于热点训练语料标注,借助算法平台提供的CNN、RNN等算法模型,训练热点标签分类器,获取一级热点标签分类模型、二级热点标签分类模型等热点标签结构化模型。

训练HMM、基于字典方法等模型,获取能够识别人名、地名、时间等实体词的命名实体识别模型。

训练LDA、PLSA等主题模型生成识别热点主题特征的热点内容主题模型(热点主题分析模型)。

基于热点的语义信息、热点词语共现的统计特征、热点的相似度距离等特征,建立能对热点之间的因果分析进行分析推理的热点因果模型。

基于信息检索技术构建查询方法,建立向量空间模型,同时结合增量聚类算法、判定树算法、加窗策略等方法获取实时热点监测模型,实现对同主题热点的追踪和新热点的发现。

训练获取的热点结构化模型提供对外服务,对外服务是指对本公司以外的有热点发现需求的各行业的公司机构进行服务,用于对其他公司的历史社会热点的识别和结构化,完善传播热点库的建设。建立热点库的目的在于用以建立存储该行业的热点主题关键词和各类标签体系,能够将实时发生的热点或历史热点,迅速识别热点主题关键词,或关联到相关标签。

本发明所取得的有益效果如下:

1、热点内容的时效性和量级

通过对海量的内容数据进行分析归类,构建了庞大的内容库,并且保证了内容数据的实时性,保证了热点能够在最初就被预判到,进而能够掌控热点整个周期。

2、热点的真实性和用户强关联

本发明将内容数据和用户数据通过行为数据进行强关联,保证了数据和用户之间有转发、评论、点赞等真实的互动行为,是真正由用户关心关注进而推进产生的热点。

3、热点的趋势跟踪

通过强大的数据计算和模型能力。实现了对热点的趋势监控,完整掌控热点的发生、上升、下降、消失的整个链路。可对热点的趋势进行合理的预判。

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号