首页> 中国专利> 基于大数据分析的选题策划信息处理方法及系统

基于大数据分析的选题策划信息处理方法及系统

摘要

本申请实施例提供一种基于大数据分析的选题策划信息处理方法及系统,涉及大数据技术领域,包括:通过获取用户输入的选题策划信息,选题策划信息包括目标文本类型数据和初始文本数据;对初始文本数据进行预处理和向量化,得到第一文本数据;根据第一文本数据和初始网络文本数据,确定相关网络文本数据;将具有目标文本类型数据的相关网络文本数据,确定为目标网络文本数据,目标网络文本数据为部分相关网络文本数据;将目标网络文本数据中浏览量最高的目标网络文本数据对应的选题,确定目标选题。这样可以将与第一文本数据相类似的目标网络数据的中浏览量高的选题确定为目标选题,从而减少制作选题的步骤。

著录项

  • 公开/公告号CN116663537A

    专利类型发明专利

  • 公开/公告日2023-08-29

    原文格式PDF

  • 申请/专利权人 中信联合云科技有限责任公司;

    申请/专利号CN202310918939.5

  • 申请日2023-07-26

  • 分类号G06F40/258(2020.01);G06F40/216(2020.01);G06F18/22(2023.01);

  • 代理机构北京君有知识产权代理事务所(普通合伙) 11630;

  • 代理人潘丹

  • 地址 100026 北京市朝阳区东三环北路甲19号楼6层701-703号

  • 入库时间 2024-01-17 01:25:44

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-11-03

    授权

    发明专利权授予

  • 2023-09-15

    实质审查的生效 IPC(主分类):G06F40/258 专利申请号:2023109189395 申请日:20230726

    实质审查的生效

  • 2023-08-29

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及大数据技术领域,尤其涉及一种基于大数据分析的选题策划信息处理方法及系统。

背景技术

一个吸人眼球的标题,是一篇好文章的关键;一个吸引人的视频开头标语是短视频得到广泛传播的关键。

目前,文章作者为文章撰写标题和视频创作者为视频制作开头标语的方式,通常是根据自身的主观认识来进行的,需要消耗时间和脑力来思考如何制作文章的标题或视频的开头标语等。

因此,相关技术中在进行选题策划时,存在制作选题较繁琐的问题。

发明内容

本申请实施例提供了一种基于大数据分析的选题策划信息处理方法及系统,用于解决相关技术中在进行选题策划时,存在制作选题较繁琐的问题。

第一方面,本申请实施例提供一种于大数据分析的选题策划信息处理方法,所述方法包括:

获取用户输入的选题策划信息,所述选题策划信息包括目标文本类型数据和初始文本数据;

对所述初始文本数据进行预处理和向量化,得到第一文本数据;

根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据,所述相关网络文本数据为与所述第一文本数据的余弦相似度大于预设值的所述初始网络文本数据;

将具有所述目标文本类型数据的所述相关网络文本数据,确定为目标网络文本数据,所述目标网络文本数据为部分所述相关网络文本数据;

将所述目标网络文本数据中浏览量最高的所述目标网络文本数据对应的选题,确定目标选题。

可选地,在所述根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据之前,还包括:

根据所述初始文本数据,获取初始网络文本数据、所述初始网络文本数据的选题和所述初始网络文本数据浏览量。

可选地,所述根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据包括:

将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值;

将所述余弦相似度值大于预设值的所述初始网络文本数据确定为所述相关网络文本数据。

可选地,所述将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值的公式如下:

其中,

可选地,在所述

可选地,所述将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值的公式如下:

其中,

可选地,在所述

可选地,所述相关网络文本数据为与所述第一文本数据的余弦相似度大于0.6的文本数据。

可选地,所述对所述初始文本数据进行预处理和向量化,得到第一文本数据包括:

对所述初始文本数据进行分词处理,得到第二文本数据;

将所述第二文本数据去停用词,得到第三文本数据;

将所述第三文本数据向量化,得到所述第一文本数据。

第二方面,本申请实施例提供一种基于大数据分析的选题策划信息处理系统,所述系统包括:

第一获取模块,用于获取用户输入的选题策划信息,所述选题策划信息包括目标文本类型数据和初始文本数据;

得到模块,用于对所述初始文本数据进行预处理和向量化,得到第一文本数据;

第一确定模块,用于根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据,所述相关网络文本数据为与所述第一文本数据的余弦相似度大于预设值的所述初始网络文本数据;

第二确定模块,用于将具有所述目标文本类型数据的所述相关网络文本数据,确定为目标网络文本数据,所述目标网络文本数据为部分所述相关网络文本数据;

第三确定模块,用于将所述目标网络文本数据中浏览量最高的所述目标网络文本数据对应的选题,确定目标选题。

可选地,所述系统还包括:

第二获取模块,用于根据所述初始文本数据,获取初始网络文本数据、所述初始网络文本数据的选题和所述初始网络文本数据浏览量。

可选地,所述第一确定模块包括:

计算子模块,用于将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值;

确定子模块,用于将所述余弦相似度值大于预设值的所述初始网络文本数据确定为所述相关网络文本数据。

可选地,所述得到模块包括:

第一得到子模块,用于对所述初始文本数据进行分词处理,得到第二文本数据;

第二得到子模块,用于将所述第二文本数据去停用词,得到第三文本数据;

第三得到子模块,用于将所述第三文本数据向量化,得到所述第一文本数据。

在本申请实施例中,改进点主要如下:(1)所述选题策划信息包括目标文本类型数据和初始文本数据;(2)根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据。(3)将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值;将所述余弦相似度值大于预设值的所述初始网络文本数据确定为所述相关网络文本数据。(4)余弦相似度计算公式。

在本申请实施例中,通过获取用户输入的选题策划信息,选题策划信息包括目标文本类型数据和初始文本数据;对初始文本数据进行预处理和向量化,得到第一文本数据;根据第一文本数据和初始网络文本数据,确定相关网络文本数据,相关网络文本数据为与第一文本数据的余弦相似度大于预设值的初始网络文本数据;将具有目标文本类型数据的相关网络文本数据,确定为目标网络文本数据,目标网络文本数据为部分相关网络文本数据;将目标网络文本数据中浏览量最高的目标网络文本数据对应的选题,确定目标选题。这样可以将与第一文本数据相类似的目标网络数据的中浏览量高的选题确定为目标选题,从而减少制作选题的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于大数据分析的选题策划方法的流程示意图;

图2为本发明实施例中基于大数据分析的选题策划系统的结构示意图;

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示,本申请实施例提供了一种基于大数据分析的选题策划信息处理方法,所述方法包括:

步骤101,获取用户输入的选题策划信息,所述选题策划信息包括目标文本类型数据和初始文本数据;

步骤102,对所述初始文本数据进行预处理和向量化,得到第一文本数据;

步骤103,根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据,所述相关网络文本数据为与所述第一文本数据的余弦相似度大于预设值的所述初始网络文本数据;

步骤104,将具有所述目标文本类型数据的所述相关网络文本数据,确定为目标网络文本数据,所述目标网络文本数据为部分所述相关网络文本数据;

步骤105,将所述目标网络文本数据中浏览量最高的所述目标网络文本数据对应的选题,确定目标选题。

需要说明的是,获取用户输入的选题策划信息可以是每间隔10秒获取一次,也可以是每间隔20秒获取一次。

示例性的,用户输入一段短视频,所述选题策划信息为所述短视频,则所述目标文本类型数据为视频类型,所述初始文本数据为所述短视频内的台词。

应理解,所述相关网络文本数据为与所述短视频内的台词余弦相似度大于预设值的初始网络文本数据。

示例性,所述目标网络文本数据有三个,其浏览量分别为1百、1千和1万,则将浏览量为1万的目标网路文本数据所对应的选题确定目标选题。

在本申请实施例中,通过获取用户输入的选题策划信息,选题策划信息包括目标文本类型数据和初始文本数据;对初始文本数据进行预处理和向量化,得到第一文本数据;根据第一文本数据和初始网络文本数据,确定相关网络文本数据,相关网络文本数据为与第一文本数据的余弦相似度大于预设值的初始网络文本数据;将具有目标文本类型数据的相关网络文本数据,确定为目标网络文本数据,目标网络文本数据为部分相关网络文本数据;将目标网络文本数据中浏览量最高的目标网络文本数据对应的选题,确定目标选题。这样可以将与第一文本数据相类似的目标网络数据的中浏览量高的选题确定为目标选题,从而减少制作选题的步骤。

可选地,在一些实施例中,,在所述根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据之前,还包括:

根据所述初始文本数据,获取初始网络文本数据、所述初始网络文本数据的选题和所述初始网络文本数据浏览量。

可选地,在一些实施例中,所述根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据包括:

将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值;

将所述余弦相似度值大于预设值的所述初始网络文本数据确定为所述相关网络文本数据。

可选地,在一些实施例中,所述将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值的公式如下:

其中,

可选地,在一些实施例中,在所述

可选地,在一些实施例中,所述将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值的公式如下:

其中,

可选地,在一些实施例中,在所述

可选地,在一些实施例中,所述预设值可以是0.5、0.6或0.7,此处不作进一步限制。

可选地,在一些实施例中,所述相关网络文本数据为与所述第一文本数据的余弦相似度大于0.6的文本数据。

可选地,在一些实施例中,所述对所述初始文本数据进行预处理和向量化,得到第一文本数据包括:

对所述初始文本数据进行分词处理,得到第二文本数据;

将所述第二文本数据去停用词,得到第三文本数据;

将所述第三文本数据向量化,得到所述第一文本数据。

如图2所示,本申请实施例提供一种基于大数据分析的选题策划信息处理系统,其特征在于,所述系统包括:

第一获取模块201,用于获取用户输入的选题策划信息,所述选题策划信息包括目标文本类型数据和初始文本数据;

得到模块202,用于对所述初始文本数据进行预处理和向量化,得到第一文本数据;

第一确定模块203,用于根据所述第一文本数据和初始网络文本数据,确定相关网络文本数据,所述相关网络文本数据为与所述第一文本数据的余弦相似度大于预设值的所述初始网络文本数据;

第二确定模块204,用于将具有所述目标文本类型数据的所述相关网络文本数据,确定为目标网络文本数据,所述目标网络文本数据为部分所述相关网络文本数据;

第三确定模块205,用于将所述目标网络文本数据中浏览量最高的所述目标网络文本数据对应的选题,确定目标选题。

可选地,所述系统还包括:

第二获取模块,用于根据所述初始文本数据,获取初始网络文本数据、所述初始网络文本数据的选题和所述初始网络文本数据浏览量。

可选地,所述第一确定模块包括:

计算子模块,用于将每一所述初始网络文本数据与所述第一文本数据进行余弦相似度计算,得到余弦相似度值;

确定子模块,用于将所述余弦相似度值大于预设值的所述初始网络文本数据确定为所述相关网络文本数据。

可选地,所述得到模块包括:

第一得到子模块,用于对所述初始文本数据进行分词处理,得到第二文本数据;

第二得到子模块,用于将所述第二文本数据去停用词,得到第三文本数据;

第三得到子模块,用于将所述第三文本数据向量化,得到所述第一文本数据。

本申请实施例还提供一种电子设备。请参见图3,电子设备可以包括处理器301、存储器302及存储在存储器302上并可在处理器301上运行的程序3021。

程序3021被处理器301执行时可实现图1对应的实施例中的任意步骤及达到相同的有益效果,此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成,的程序可以存储于一可读取介质中。

本申请实施例还提供一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现上述图1对应的实施例中的任意步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。

本申请实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号