首页> 中国专利> 一种视频词云的生成方法及装置、存储介质及电子设备

一种视频词云的生成方法及装置、存储介质及电子设备

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种视频词云的生成方法及装置、存储介质及电子设备，该方法包括：获取待处理视频；将所述待处理视频划分为多个视频段；在每个所述视频段中选取出多个代表帧；对每个所述代表帧进行识别，获得每个所述代表帧的文本数据；确定出各个所述文本数据中的视频关键词；根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云。应用本发明实施例提供的方法，可以提取出待处理视频的各个视频关键词，然后，基于各个视频关键词生成待处理视频的词云，能够通过词云直观的展示出该待处理视频中包含的视频信息。

著录项

公开/公告号CN113850178A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人中国农业银行股份有限公司;
展开▼

申请/专利号CN202111108047.6
发明设计人黄雅欢;陈磊;
展开▼

申请日2021-09-22
分类号G06K9/00(20060101);G06K9/32(20060101);G06F40/216(20200101);G06F40/284(20200101);G06F40/289(20200101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人张倩
地址 100005 北京市东城区建国门内大街69号
入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及数据处理技术领域，特别涉及一种视频词云的生成方法及装置、存储介质及电子设备。

背景技术

随着大数据时代的来临，大量的视频和短视频涌入了人们的生活中，人们在生活中，无论是办公，学习还是各种娱乐活动，都需要观看各类的视频。

然而，每个视频的都有一定的播放时长，在对视频完成播放之前，用户都无法准确的了解到视频中所蕴含的信息。

发明内容

本发明所要解决的技术问题是提供一种视频词云的生成方法，能够快速的获取到视频的关键内容。

本发明还提供了一种视频词云的生成装置，用以保证上述方法在实际中的实现及应用。

一种视频词云的生成方法，包括：

获取待处理视频；

将所述待处理视频划分为多个视频段；

在每个所述视频段中选取出多个代表帧；

对每个所述代表帧进行识别，获得每个所述代表帧的文本数据；

确定出各个所述文本数据中的视频关键词；

根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云。

上述的方法，可选的，所述在每个所述视频段中选取多个代表帧，包括：

对于每个所述视频段，确定出该视频段的代表帧数量m，并对该视频段的每个视频帧执行第一操作；所述第一操作包括：确定该视频帧的在该视频段中的帧序号i；若i≤m，则将该视频帧存放到该视频段的代表帧集合中；若i＞m，则在所述视频段对应的帧数范围内确定出随机数d，若d≤m，则将该视频帧替换所述代表帧集合中的第d个视频帧；

在对每个视频段的所有视频帧的第一操作执行完毕后，将该视频段的代表帧集合当前存放的视频帧作为该视频段的代表帧。

上述的方法，可选的，所述对每个所述代表帧进行识别，获得每个所述代表帧的文本数据，包括：

应用预设的神经网络模型对每个所述代表帧进行特征提取，得到每个所述代表帧的特征图；

确定每个所述特征图中的文本图像；

对每个所述特征图的文本图像进行识别，得到每个代表帧的文本数据。

上述的方法，可选的，所述确定每个所述特征图中的文本图像，包括：

通过预设尺寸的滑动窗对每个所述特征图进行滑动检测，获得每个所述特征图的文本框坐标集合；

根据每个所述特征图的文本框坐标集合，确定出每个所述特征图中的各个文本框；

对每个所述特征图的各个文本框进行合并，获得每个所述特征图的文本行；

在每个所述特征图中截取出其文本行对应的文本图像。

上述的方法，可选的，确定出各个所述文本数据中的视频关键词，包括：

对每个所述文本数据进行分词，得到各个候选词；

确定每个所述候选词的词频以及逆文档频率；

基于每个所述候选词的词频以及逆文档频率，计算得到每个所述候选词的关键值；所述候选词的关键值表征所述候选词的重要程度；

根据每个所述候选词的关键值，在各个所述候选词中确定出各个所述文本数据的视频关键词。

上述的方法，可选的，所述根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云，包括：

确定每个所述视频关键词的权重值；

根据每个所述视频关键词的权重值以及所述待处理视频对应的背景图像的面积，计算得到每个所述视频关键词的大小信息；

调整每个所述视频关键词的大小信息，使得调整后的各个视频关键词的大小信息与所述背景图像的轮廓相匹配；

根据调整后的每个所述视频关键词的大小信息，将每个所述视频关键词填充至所述背景图像中，以生成所述待处理视频的词云。

上述的方法，可选的，还包括：

将所述词云在预设的显示界面上进行显示。

一种视频词云的生成装置，包括：

获取单元，用于获取待处理视频；

划分单元，用于将所述待处理视频划分为多个视频段；

选取单元，用于在每个所述视频段中选取出多个代表帧；

识别单元，用于对每个所述代表帧进行识别，获得每个所述代表帧的文本数据；

确定单元，用于确定出各个所述文本数据中的视频关键词；

生成单元，用于根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云。

一种存储介质，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的视频词云的生成方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的视频词云的生成方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频词云的生成方法及装置、存储介质及电子设备，首先，获取待处理视频；将所述待处理视频划分为多个视频段；在每个所述视频段中选取出多个代表帧；然后，对每个所述代表帧进行识别，获得每个所述代表帧的文本数据；确定出各个所述文本数据中的视频关键词；根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云。应用本发明实施例提供的方法，可以提取出待处理视频的各个视频关键词，然后，基于各个视频关键词生成待处理视频的词云，能够通过词云直观的展示出该待处理视频中包含的视频信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种视频词云的生成方法的方法流程图；

图2为本发明提供的一种获得每个代表帧的文本数据的过程的流程图；

图3为本发明提供的一种确定每个特征图中的文本图像的过程的流程图；

图4为本发明提供的一种确定出各个文本数据中的视频关键词的过程的流程图；

图5为本发明提供的一种将每个视频关键词填充至背景图像的过程的流程图；

图6为本发明提供的又一种视频词云的生成方法的方法流程图；

图7为本发明提供的一种视频词云的生成装置的结构示意图；

图8为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

当前一些视频平台通过让视频上传者在上传时打标签或者通过机器学习或深度学习进行视频种类的分类从而达到视频内容简单分类的效果，然而，现有技术在主要是通过简单的分类来给视频划分一个大致的内容方向，而不能很清楚的解决视频关键内容有什么信息的痛点，这样视频观看者可能在观看以后才发现此视频和本人口味的大相径庭，这样就会浪费大量的时间在寻找视频上，同时也会降低使用者对视频平台的满意度。

基于此，本发明实施例提供了一种视频词云的生成方法，该方法可以应用于电子设备，所述方法的方法流程图如图1所示，具体包括：

S101：获取待处理视频。

在实施例中，该待处理视频可以为各种视频格式的视频。

S102：将所述待处理视频划分为多个视频段。

在本实施例中，将待处理视频划分为多个视频段的一种可行的方式为：确定待处理视频的视频时长，根据视频时长T确定视频段时长阈值t；其中，视频段时长阈值可以设置为视频时长T的1/n，例如，可以设置为视频时长T的1/80。根据视频段时长阈值t对待处理视频进行划分，得到多个视频段，若不能将每个视频段的视频段时长均匀的划分为t，则将剩余的视频段时长小于t的视频段进行单独处理，具体可以将白板画面对该视频段进行填充，使得填充后的视频段的视频段时长为t。

其中，可以将各个视频段添加到视频段集中。

S103：在每个所述视频段中选取出多个代表帧。

其中，可以在每个视频段的各个视频帧中选取出多个代表帧，其中，视频段中的每个视频帧的选取为代表帧的概率可以一致。

具体的，可以通过随机选取的方式，在每个视频段中随机选取预设数量的代表帧。

S104：对每个所述代表帧进行识别，获得每个所述代表帧的文本数据。

在本实施例中，该文本数据可以为代表帧中包含的文字信息，文本数据的长度大于预先设置的长度阈值。

S105：确定出各个所述文本数据中的视频关键词。

其中，可以根据各个文本数据中的每个候选词的出现次数、出现频率和逆文档频率中的至少一种确定出各个文本数据中的视频关键词。

S106：根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云。

在本实施例中，可以根据每个视频关键词的权重值，确定出每个视频关键词的大小信息；基于每个视频关键词的大小信息将每个视频关键词填充到背景图像中，并对填充视频关键词后的背景图像进行渲染，生成待处理视频的词云。

应用本发明实施例提供的方法，可以提取出待处理视频的各个视频关键词，然后，基于各个视频关键词生成待处理视频的词云，能够通过词云快速、直观的展示出该待处理视频中包含的视频信息。

在本发明提供的一实施例中，基于上述的实施过程，具体的，在每个视频段中选取多个代表帧的一种可行方式，包括：

对于每个视频段，确定出该视频段的代表帧数量m，并对该视频段的每个视频帧执行第一操作；第一操作包括：确定该视频帧的在该视频段中的帧序号i；若i≤m，则将该视频帧存放到该视频段的代表帧集合中；若i＞m，则在所述视频段对应的帧数范围内确定出随机数d，若d≤m，则将该视频帧替换所述代表帧集合中的第d个视频帧；该视频段包含的帧数可以为N，其中，1≤i≤N，m≤N，1≤d≤N；m、N、i和d为正整数；

在对每个视频段的所有视频帧的第一操作执行完毕后，将该视频段的代表帧集合当前存放的视频帧作为该视频段的代表帧。

在本实施例中，每个视频段的代表帧数量可以相同或不同，对于每个视频段，先将该视频段中的前m个视频帧放入到代表帧集合中，对于帧序号大于m的每个视频帧，将视频帧的帧序号与该视频帧对应的随机数d进行对比，若该帧序号小于或等于该随机数d，则将该帧序号所属的视频帧对代表帧集合的第d个视频帧进行替换；若该帧序号大于该随机数d，则不将该帧序号所属的视频帧放入代表帧集合中，这样，就可以使得视频段中的每个视频帧被选取为代表帧的概率一致，均为m/N。

在本发明提供的一实施例中，基于上述的实施过程，具体的，对每个代表帧进行识别，获得每个代表帧的文本数据的过程，如图2所示，包括：

S201：应用预设的神经网络模型对每个所述代表帧进行特征提取，得到每个所述代表帧的特征图。

在本实施例中，可以先对每个代表帧进行预处理，具体可以先对每一代表帧进行灰度化处理，获得每一代表帧的灰度图；并用高斯滤波器对每一灰度图进行平滑处理。还可以对平滑处理后的灰度图缩小至原图的预设比例，如将灰度图缩小至原图的四分之一或三分之一等，从而可以提高运算效率。

将每个代表帧的灰度图输入到神经网络模型中，使得该神经网络模型输出每个代表帧的特征图，该神经网络模型可以为各种类型的卷积神经网络模型，例如，可以为VGG16网络模型，将灰度图输入到VGG16网络中，由VGG网络的卷积层conv5_3对灰度图进行卷积，得到代表帧的特征图。

S202：确定每个所述特征图中的文本图像。

在本实施例中，可以确定每个特征图中的文字图像区域，将该文字图像区域作为该特征图的文本图像，其中，文本图像中包含文本信息。

S203：对每个所述特征图的文本图像进行识别，得到每个代表帧的文本数据。

在本实施例中，可以通过级联的卷积神经网络、循环神经网络以及转录层对文本图像进行识别，得到文本图像中的文字字符，由识别到的文字字符组成代表帧的文本数据，对于识别得到的初始文本数据，可以判断每个初始文本数据的文本长度是否大于预设的长度阈值，将文本长度大于长度阈值的初始文本数据作为代表帧的文本数据，可以将文本长度未大于长度阈值的初始文本数据舍弃。

在本发明提供的一实施例中，基于上述的实施过程，具体的，确定每个特征图中的文本图像的过程，如图3所示，具体包括：

S301：通过预设尺寸的滑动窗对每个所述特征图进行滑动检测，获得每个所述特征图的文本框坐标集合。

在本实施例中，可以通过预设尺寸的滑动窗，按已设定的滑动步长对特征图进行滑动检测，得到特征图的每个滑窗图的各个文本框坐标，该文本框坐标集合中包括特征图的每个滑窗图的各个文本框坐标。

S302：根据每个所述特征图的文本框坐标集合，确定出每个所述特征图中的各个文本框。

在本实施例中，可以对文本框坐标集合中的每个滑窗图的各个文本框坐标进行过滤，得到每个滑窗图对应的文本框，从而得到特征图的各个文本框。

S303：对每个所述特征图的各个文本框进行合并，获得每个所述特征图的文本行。

在本实施例中，可以通过文本行构造算法，将特征图的各个文本框合并为文本行。

S304：在每个所述特征图中截取出其文本行对应的文本图像。

应用本发明实施例提供的方法中，能够快速准确的获取到特征图中的文本图像。

在本发明提供的一实施例中，基于上述的实施过程，具体的，确定出各个所述文本数据中的视频关键词的过程，如图4所示，具体包括：

S401：对每个所述文本数据进行分词，得到各个候选词。

其中，对文本数据进行分词的方式有多种，例如，在一种可行的方式中，可以基于字典的分词，先把文本数据按照字典切分成词，再寻找词的最佳组合方式。在另一种可行的方式中，可以基于字的分词，即由字构词，先把句子分成各个单字，再将字组合成词，寻找最优的切分策略，同时也可以转化成序列标注问题。

具体的，可以使用jieba分词库对已有的文本进行分词，同时对数据进行探索，加入未登陆词，提升分词准确率，再获取停用词表，在文本序列中去除停用词表中包含的词，对文本序列中剩余的词序列建立语料库，得到各个候选词。

S402：确定每个所述候选词的词频以及逆文档频率。

其中，该词频TF可以指候选词在语料库中出现的次数，或者候选词的出现次数与文本数据对应的语料库的总词数的比值。

可选的，候选词的逆文档频率

S403：基于每个所述候选词的词频以及逆文档频率，计算得到每个所述候选词的关键值；所述候选词的关键值表征所述候选词的重要程度。

其中，该候选词的关键值＝词频×逆文档频率，候选词的关键值越大，说明候选词的重要程度越高。

S404：根据每个所述候选词的关键值，在各个所述候选词中确定出各个所述文本数据的视频关键词。

在本实施例中，可以根据每个候选词的关键值由大至小的顺序，选取出多个候选词作为视频关键词。

应用本发明实施例提供的方法，能够从各个候选词中快速的选取出待处理视频的关键文本信息。

在本发明提供的一实施例中，基于上述的实施过程，具体的，根据每个视频关键词的权重值将每个视频关键词填充至待处理视频对应的背景图像中，以生成待处理视频的词云的过程，如图5所示，具体包括：

S501：确定每个所述视频关键词的权重值。

可选的，根据每个视频关键词的词频、逆文档频率和关键值中的至少一种计算得到每个视频关键词的权重值。例如，可以通过Softmax函数对各个视频关键词的关键值进行归一化处理，得到各个视频关键词的权重值。

S502：根据每个所述视频关键词的权重值以及所述待处理视频对应的背景图像的面积，计算得到每个所述视频关键词的大小信息。

在本实施例中，该背景图像可以是对用户上传的图片进行预处理后得到的，具体可以是对该图片进行灰度化处理，对灰度化处理后的图片进行二值化处理，得到二值化图像，根据二值化图像计算出图片中的形状轮廓像素点信息，提取图片的前景信息和背景信息，得到背景图像。

其中，视频关键词的大小信息可以包括视频关键词的字号或尺寸等。

S503：调整每个所述视频关键词的大小信息，使得调整后的各个视频关键词的大小信息与所述背景图像的轮廓相匹配。

其中，可以确定各个视频关键词的大小信息之间的比例，并对各个视频关键词的大小信息进行等比例进行放大或缩小的调整，使得调整后的各个视频关键词的大小信息与背景图像的轮廓相匹配。

S504：根据调整后的每个所述视频关键词的大小信息，将每个所述视频关键词填充至所述背景图像中，以生成所述待处理视频的词云。

在本实施例中，将各个视频关键词填充到背景图像中后，可以对已填充视频关键词的背景图像进行渲染，生成待处理视频的词云。

在本发明提供的一实施例中，基于上述的实施过程，具体的，生成待处理视频的词云之后，还包括：

将所述词云在预设的显示界面上进行显示。

本发明实施例提供的视频词云的生成方法，可以用于处理各个类型的视频，在实际应用过程中，如图6所示，为本发明实施例提供的视频词云的生成方法的又一方法流程图，具体如下：

第一，对待处理视频进行预处理。

其中，可以根据待处理视频的视频时长，可以设置不同的时长阈值对待处理视频进行划分，经过测试和一系列的实验，选定视频时长的1/80作为单个视频段的阈值。假设视频总时长的1/80为t，对于待处理的视频，每个t时长剪出一个视频段。若存在不足t的视频段，则将不足t的视频段单独处理，使用白板画面填充到t秒再加入到视频段集中，方便了对于后面的随机抽样进行统一处理。

第二，对每个视频段随机抽取代表帧。采取随机抽取帧则保证了在不丢失视频基本内容的前提下又提高的分析的效率。对此保证随机抽取的随机性，也就是保证每个帧被抽取到概率是相等的，能够获取视频中内容保真率。

具体的，通常的视频每秒60帧居多，假设每个视频段的总帧数为N，我们需要抽取m帧作为视频的代表帧，假设当前取的帧数时总帧数N的第i帧，当i<＝m时，此帧直接放进结果蓄水池中，所以第i个数据进入结果蓄水池的概率为1。当i>m时，在[1,i]内选取随机数d，此随机数可以使用python的随机数生产函数生成，如果d<＝m，则使用第i个数据替换蓄水池中第d个数据，因此第i个数据进入过蓄水池的概率＝m/i。当处理完所有的数据时，蓄水池中的每个数据都是以m/N的概率获得的。

第三，通过OCR技术获取视频文本。

对每一代表帧的图像都进行灰度化处理，并用高斯滤波器对提取的每一代表帧的图像对应的灰度图进行平滑处理。之后为了提高运算效率，本发明实施例还将每一帧图像对应的灰度图缩小至原图的预设比例，如将灰度图缩小至原图的四分之一或三分之一等。

预设的卷积神经网络可以为VGG16网络，如通过VGG16网络对视频关键帧进行特征提取，VGG16网络的卷积层conv5_3输出该视频关键帧对应的特征图。该特征图的大小为W×H×C。

通过预设尺寸的滑动窗对特征图进行滑动检测，得到每个滑动窗对应的多个文本框的坐标；对每个滑动窗对应的多个文本框的坐标进行过滤，得到每个滑动窗对应的文本框。

识别出特征图包括的各个文本框之后，使用基于图的文本行构造算法，将各个文本框合并为文本行，然后从特征图中截取文本行对应的文本行图像。

通过上述操作截取到文本行图像之后，进行文字识别。文字识别是在文字检测的基础上对文字进行识别，通过级联的卷积神经网络、循环神经网络以及转录层进行最终的识别，可以实现不定长的文字识别。将所有的视频帧经过提取获得文本数据放入统一的数据集中。

第四，对视频文本进行预处理。

对获取到的文本数据进行分词，使用jieba分词库对已有的文本进行分词，同时对数据进行探索，加入未登陆词，提升分词准确率。使用停用词表在文本序列中去掉特定的停用词。对去掉停用词的词序列建立语料库。

第五，对语料库中的词进行视频关键词提取。

获取语料库中的所有词的词频TF，并进行逆文档频率IDF的计算，根据词频和逆文档频率计算关键值TF-IDF，TF-IDF＝词频(TF)*逆文档频率(IDF)。TD-IDF即词在文本中的重要性程度。根据TF-IDF就可以提取出关键词和其排序。

第六，生成词云。

使用Softmax算计将关键词的权重进行归一化。获取用户上传的需要作为背景的图片，对图片进行灰度化处理，对图片进行二值化处理并根据二值化图像计算出图片中的形状轮廓像素点信息，提取出图片的前景、背景信息。根据关键词权重和上传图片面积计算出单词大小，并在不改变单词权重关系的情况下均匀放缩各单词大小以使单词能最大化填充提取的图片形状轮廓。生成关键词词云。

与图1所述的方法相对应，本发明实施例还提供了一种视频词云的生成装置，用于对图1中方法的具体实现，本发明实施例提供的视频词云的生成装置可以应用于电子设备中，其结构示意图如图7所示，具体包括：

获取单元701，用于获取待处理视频；

划分单元702，用于将所述待处理视频划分为多个视频段；

选取单元703，用于在每个所述视频段中选取出多个代表帧；

识别单元704，用于对每个所述代表帧进行识别，获得每个所述代表帧的文本数据；

确定单元705，用于确定出各个所述文本数据中的视频关键词；

生成单元706，用于根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云。

在本发明提供的一实施例中，基于上述的方案，可选的，所述选取单元703被配置为：

在对每个视频段的所有视频帧的第一操作执行完毕后，将该视频段的代表帧集合当前存放的视频帧作为该视频段的代表帧。

在本发明提供的一实施例中，基于上述的方案，可选的，所述识别单元704被配置为：

应用预设的神经网络模型对每个所述代表帧进行特征提取，得到每个所述代表帧的特征图；

确定每个所述特征图中的文本图像；

对每个所述特征图的文本图像进行识别，得到每个代表帧的文本数据。

在本发明提供的一实施例中，基于上述的方案，可选的，所述识别单元704进一步被配置为：

通过预设尺寸的滑动窗对每个所述特征图进行滑动检测，获得每个所述特征图的文本框坐标集合；

根据每个所述特征图的文本框坐标集合，确定出每个所述特征图中的各个文本框；

对每个所述特征图的各个文本框进行合并，获得每个所述特征图的文本行；

在每个所述特征图中截取出其文本行对应的文本图像。

在本发明提供的一实施例中，基于上述的方案，可选的，所述确定单元705被配置为：

对每个所述文本数据进行分词，得到各个候选词；

确定每个所述候选词的词频以及逆文档频率；

基于每个所述候选词的词频以及逆文档频率，计算得到每个所述候选词的关键值；所述候选词的关键值表征所述候选词的重要程度；

根据每个所述候选词的关键值，在各个所述候选词中确定出各个所述文本数据的视频关键词。

在本发明提供的一实施例中，基于上述的方案，可选的，所述生成单元706被配置为：

确定每个所述视频关键词的权重值；

根据每个所述视频关键词的权重值以及所述待处理视频对应的背景图像的面积，计算得到每个所述视频关键词的大小信息；

调整每个所述视频关键词的大小信息，使得调整后的各个视频关键词的大小信息与所述背景图像的轮廓相匹配；

根据调整后的每个所述视频关键词的大小信息，将每个所述视频关键词填充至所述背景图像中，以生成所述待处理视频的词云。

在本发明提供的一实施例中，基于上述的方案，可选的，视频词云的生成装置，还包括：

显示单元，用于将所述词云在预设的显示界面上进行显示。

上述本发明实施例公开的视频词云的生成装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的视频词云的生成方法相同，可参见上述本发明实施例提供的视频词云的生成方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述视频词云的生成方法。

本发明实施例还提供了一种电子设备，其结构示意图如图8所示，具体包括存储器801，以及一个或者一个以上的指令802，其中一个或者一个以上指令802存储于存储器801中，且经配置以由一个或者一个以上处理器803执行所述一个或者一个以上指令802进行以下操作：

获取待处理视频；

将所述待处理视频划分为多个视频段；

在每个所述视频段中选取出多个代表帧；

对每个所述代表帧进行识别，获得每个所述代表帧的文本数据；

确定出各个所述文本数据中的视频关键词；

根据每个所述视频关键词的权重值将每个所述视频关键词填充至所述待处理视频对应的背景图像中，以生成所述待处理视频的词云。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种视频词云的生成方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种视频词云的生成方法及装置、存储介质及电子设备 [P] . 中国专利： CN113850178A . 2021-12-28
2. 视频生成方法、视频生成装置、电子设备和可读存储介质 [P] . 中国专利： CN113507573A . 2021-10-15
3. Method and apparatus for decoding video bitstream, method and apparatus for generating video bitstream, storage medium, and electronic device [P] . US11146799B2 . 2021-10-12

机译：用于解码视频比特流，用于生成视频比特流，存储介质和电子设备的方法和装置的方法和装置
4. METHOD AND APPARATUS FOR DECODING VIDEO BITSTREAM, METHOD AND APPARATUS FOR GENERATING VIDEO BITSTREAM, STORAGE MEDIUM, AND ELECTRONIC DEVICE [P] . 美国专利： US2020351507A1 . 2020-11-05

机译：用于解码视频比特流的方法和装置，用于生成视频比特流，存储介质和电子设备的方法和装置
5. METHOD AND APPARATUS FOR DECODING VIDEO BITSTREAM, METHOD AND APPARATUS FOR GENERATING VIDEO BITSTREAM, STORAGE MEDIUM, AND ELECTRONIC DEVICE [P] . 世界知识产权组织专利： WO2019137171A1 . 2019-07-18

机译：用于解码视频比特流的方法和装置，用于生成视频比特流，存储介质和电子设备的方法和装置