首页> 中国专利> 封面图片配置方法、装置、电子设备以及存储介质

封面图片配置方法、装置、电子设备以及存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请公开了封面图片配置方法、装置、电子设备以及存储介质，包括：利用语音合成技术与自然语言处理技术获取到待配置封面的音频文件的高频词汇；基于每个高频词汇在预设图片库中进行查询；其中，预设图片库中的每张图片为经过目标检测模型检测并分类的图片，且每张图片均对应有分类标签；响应于存在与高频词汇相匹配的分类标签，将分类标签对应的图片作为候选图片；计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片。本申请通过结合目标检测技术、语音合成技术与自然语言处理技术，能够极大降低人力成本，从而满足内容平台中大量音频的配图需求。

著录项

公开/公告号CN116010633A

专利类型发明专利
公开/公告日2023-04-25

原文格式PDF
申请/专利权人科大讯飞股份有限公司;
展开▼

申请/专利号CN202211741959.1
发明设计人朱文金;徐顺暖;李杰;何诗明;
展开▼

申请日2022-12-30
分类号G06F16/53(2019.01);G06F16/68(2019.01);G06F40/289(2020.01);G06F40/284(2020.01);G06F18/24(2023.01);G06F16/55(2019.01);G06F16/951(2019.01);G06N3/04(2023.01);G06N3/08(2023.01);
代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280;
代理人柳芳
地址 230088 安徽省合肥市高新开发区望江西路666号
入库时间 2023-06-19 19:25:17

法律信息

法律状态公告日

法律状态信息

法律状态
2023-05-12

实质审查的生效 IPC(主分类):G06F16/53 专利申请号:2022117419591 申请日:20221230

实质审查的生效
2023-04-25

公开

发明专利申请公布

说明书

技术领域

本申请涉及计算机技术领域，特别是涉及封面图片配置方法、装置、电子设备以及存储介质。

背景技术

随着互联网技术的发展，互联网中传播的音频资源越来越多。为了提高音频资源对用户的吸引力，通常需要为音频资源设置封面图片，以提高音频播放界面的美观度和丰富度。

现有技术中，一般通过如下方式生成音频的封面图片：收集大量图片资源，并根据每张图片包含的物体和场景对图片进行分类，例如，将多张图片分别划分至人文、儿童、历史、健康以及宠物等多个类别；然后将每段音频文件的语音信息转化为文本信息，并从中提取出主题词语；最后利用主题词语与图片分类的相似度，在相似度最高的图片分类中进行人工查找，以找到匹配度最高的一张图片作为每段音频的封面图片。

然而，上述方法需要人工预先对海量的图片进行分类归档，还需要人工去翻译每一段音频并从中提取关键词，继而需要人工去对关键词与图片分类进行一一匹配，由于每一步都需要大量人力的投入，导致配置音频封面的成本较高，无法满足内容平台中大量音频的配图需求。

发明内容

本申请主要解决的技术问题是提供封面图片配置方法、装置、电子设备以及存储介质，能够解决现有技术中配置音频封面导致的高额人力成本问题。

为解决上述技术问题，本申请采用的第一技术方案是提供一种封面图片配置方法，包括：利用语音合成技术与自然语言处理技术获取到待配置封面的音频文件的至少一个高频词汇；基于每个高频词汇在预设图片库中进行查询；其中，预设图片库中的每张图片为经过目标检测模型检测并分类的图片，且每张图片均对应有至少一个分类标签；响应于预设图片库中存在与高频词汇相匹配的至少一个分类标签，将分类标签对应的至少一张图片作为候选图片；计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片。

其中，利用语音合成技术与自然语言处理技术获取到待配置封面的音频文件的至少一个高频词汇的步骤，包括：获取到待配置封面的音频文件；利用语音合成技术对音频文件的音频内容进行转换处理，以得到对应的文本内容；利用自然语言处理技术对文本内容进行分词处理，以得到多个分词；计算每个分词出现的频率，并对计算出的多个频率进行排序，将排序靠前的至少一个频率对应的分词作为高频词汇。

其中，利用自然语言处理技术对文本内容进行分词处理，以得到多个分词的步骤，包括：利用预训练语言模型对输入的文本内容中的每个字符进行词性标注与分类；从被标注的文本内容中识别出每个情感词、每个动词以及每个名词，并将识别出的情感词、动词以及名词作为成分词；计算每个分词出现的频率，并对计算出的多个频率进行排序，将排序靠前的至少一个频率对应的分词作为高频词汇的步骤，包括：计算每个成分词出现的频率，并对多个频率进行排序，将排序靠前的至少一个频率对应的成分词作为高频词汇。

其中，基于每个高频词汇在预设图片库中进行查询的步骤前，包括：获取到多张待分类图片；利用目标检测模型对每张待分类图片进行目标检测，并对识别出的多个物体进行分类；其中，每个物体对应一个分类词；计算每个物体在待分类图片中的面积占比；对多个面积占比进行排序，并将排序靠前的至少一个面积占比对应的物体的分类词作为待分类图片的分类标签，得到多张分类图片；利用得到的多张分类图片组成预设图片库。

其中，利用目标检测模型对每张待分类图片进行目标检测，并对识别出的多个物体进行分类的步骤前，包括：将已标注的多个样本图像输入到预设深度学习模型中；通过预设深度学习模型对样本图像的物体进行分类预测；基于预测结果与样本图像的标注类型对应的损失函数确定对预设深度学习模型是否进行再训练，并将训练完成的预设深度学习模型确定为目标检测模型。

其中，计算每个物体在待分类图片中的面积占比的步骤，包括：基于每个物体对应的边缘轮廓计算物体对应的面积占比。

其中，计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片的步骤，包括：计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的相似度；对多个相似度进行排序，将相似度最大的分类标签对应的候选图片作为音频文件的封面图片。

为解决上述技术问题，本申请采用的第二技术方案是提供一种封面图片配置装置，包括：获取模块，用于利用语音合成技术与自然语言处理技术获取到待配置封面的音频文件的至少一个高频词汇；查询模块，用于基于每个高频词汇在预设图片库中进行查询；其中，预设图片库中的每张图片为经过目标检测模型检测并分类的图片，且每张图片均对应有至少一个分类标签；匹配模块，用于响应于预设图片库中存在与高频词汇相匹配的至少一个分类标签，将分类标签对应的至少一张图片作为候选图片；计算模块，用于计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片。

为解决上述技术问题，本申请采用的第三技术方案是提供一种电子设备，包括：存储器，用于存储程序数据，程序数据被执行时实现如上述的封面图片配置方法中的步骤；处理器，用于执行存储器存储的程序数据以实现如上述的封面图片配置方法中的步骤。

为解决上述技术问题，本申请采用的第四技术方案是提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的封面图片配置方法中的步骤。

本申请的有益效果是：区别于现有技术，本申请提供封面图片配置方法、装置、电子设备以及存储介质，通过语音合成技术与自然语言处理技术获取到待配置封面的音频文件的高频词汇，能够较好地利用人工智能技术完成繁复的音频翻译工作与关键词提取工作。通过目标检测模型实现大量图片的分类检测，并利用分类后的图片组成预设图片库，能够实现图片的自动检测与分类。进一步地，通过计算候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并基于匹配度获取到最终的封面图片，能够利用机器计算取代人工匹配。本申请通过结合目标检测技术、语音合成技术与自然语言处理技术，能够在配置封面的每一步流程中均实现自动化操作，从而极大降低人力成本，继而满足内容平台中大量音频的配图需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请封面图片配置方法第一实施方式的流程示意图；

图2是本申请封面图片配置方法第二实施方式的流程示意图；

图3是本申请封面图片配置方法第三实施方式的流程示意图；

图4是本申请封面图片配置方法一应用场景的工作流程图；

图5是本申请封面图片配置装置一实施方式的结构示意图；

图6是本申请电子设备一实施方式的结构示意图；

图7是本发明计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

请参阅图1，图1是本申请封面图片配置方法第一实施方式的流程示意图。在本实施方式中，封面图片配置方法包括：

S11：利用语音合成技术与自然语言处理技术获取到待配置封面的音频文件的至少一个高频词汇。

本实施方式中，获取到待配置封面的音频文件后，首先利用语音识别技术将音频文件的音频内容转换为文本内容，继而利用自然语言处理技术对文本内容进行分词处理，并基于每个分词出现的频率确定出高频词汇，以利用每个高频词汇为音频文件打标签。

其中，音频文件可以是歌曲、戏曲，也可以为语音音频或其他包括有发音数据的任意文件(例如广播、朗诵等)。

其中，高频词汇为音频文件对应的文本内容中出现频率较高的词汇。例如，可以对每个词汇出现的频率进行排序，将排序在10％的频率所对应的词汇均作为高频词汇。又或者，仅将出现频率最高的词汇作为高频词汇，本申请对此不作限定。

其中，语音识别技术指的是将人类的语音中的词汇内容转换为计算机可读的输入的技术，其技术原理是利用语音识别模型将一段语音信号转化为相对应的文本内容。

其中，自然语言处理(Natural Language Processing，NLP)技术是计算机科学领域与人工智能领域中的重要分支，是一门融语言学、计算机科学、数学于一体的科学，通常包括文本处理、语义理解、即系翻译、机器人问答与知识图谱等技术。

本实施方式中，主要利用自然语言处理技术对语音识别技术翻译出的文本内容进行分词处理，其技术原理是基于本体词典、词频统计、上下文语义分析等方式对待处理文本进行分词，以形成以最小词性为单位且富含语义的词项单元。

具体地，自然语言处理技术通过预训练语言模型实现，例如，基于Transformer的双向深度语言模型BERT。

可以理解地，通过语音合成技术与自然语言处理技术对音频文件进行处理并获取到高频词汇，能够较好地利用人工智能技术完成繁复的音频翻译工作与关键词提取工作，从而减少对传统的人工翻译与提取的依赖程度，进而降低人工成本。

S12：基于每个高频词汇在预设图片库中进行查询；其中，预设图片库中的每张图片为经过目标检测模型检测并分类的图片，且每张图片均对应有至少一个分类标签。

本实施方式中，基于每个高频词汇在预设图片库的分类标签中进行查询，以确定是否有与每个高频词汇匹配的分类标签。

本实施方式中，分类标签指的是每张图片中面积占比较大的物体所对应的种类。

本实施方式中，目标检测模型是对深度学习模型进行训练得到的。其中，该目标检测模型是以深度学习模型为初始模型，通过标注图像进行训练后得到的。

其中，该深度学习模型可以为Faster-RCNN、Mask-RCNN等深度模型，本申请对此不作限定。

具体地，深度学习强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点，且明确了特征学习的重要性。也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更容易。深度学习模型利用大数据来学习特征，更能够刻画数据丰富的内在信息。通过设计建立适量的神经元计算节点和多层运算层次结构，选择合适的输入层和输出层，通过网络的学习和调优，建立起从输入到输出的函数关系，可以尽可能的逼近现实的关联关系。使用训练成功的深度学习模型，可以实现对复杂事务处理的自动化要求。

可以理解地，通过目标检测模型实现大量图片的分类检测，并利用分类后的图片组成预设图片库，能够实现图片的自动检测与分类，从而避免在图片分类归档上投入大量人力。

S13：响应于预设图片库中存在与高频词汇相匹配的至少一个分类标签，将分类标签对应的至少一张图片作为候选图片。

本实施方式中，将每个高频词汇与预设图片库中存储的多个分类标签进行比对，以确定是否达到设置的相似度阈值。

在一个具体的实施场景中，若某个高频词汇与预设图片库中存储的至少一个分类标签的匹配度达到设置的相似度阈值，表明该高频词汇与该分类标签的相似度较高，两者较匹配，从该分类标签对应的多张图片中获取到至少一张图片作为候选图片。

在另一个具体的实施场景中，若某个高频词汇与预设图片库中存储的任一分类标签的匹配度均未达到设置的相似度阈值，表明预设图片库中不存在与该高频词汇匹配的分类标签，继续基于其余高频词汇进行匹配。

S14：计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片。

本实施方式中，可采用余弦相似度(Cosine Similarity)、欧式距离(EuclideanDistance)、皮尔森相关系数(Pearson CorrelationCoefficient)、KL散度(Kullback-Leibler Divergence)、Jaccard相似系数(Jaccard Coefficient)、Tanimoto系数(广义Jaccard相似系数)以及互信息(Mutual Information)中的任意一种相似度算法确定每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，本申请对此不作限定。

可以理解地，通过计算分类标签与对应的高频词汇的匹配度，能够从多张候选图片中选择出与音频文件最相关的封面图片，从而准确反映出音频文件的内容。

区别于现有技术，本实施方式通过语音合成技术与自然语言处理技术获取到待配置封面的音频文件的高频词汇，能够较好地利用人工智能技术完成繁复的音频翻译工作与关键词提取工作。通过目标检测模型实现大量图片的分类检测，并利用分类后的图片组成预设图片库，能够实现图片的自动检测与分类。进一步地，通过计算候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并基于匹配度获取到最终的封面图片，能够利用机器计算取代人工匹配。通过结合目标检测技术、语音合成技术与自然语言处理技术，本实施方式能够在配置封面的每一步流程中均实现自动化操作，从而极大降低人力成本，继而满足内容平台中大量音频的配图需求。

请参阅图2，图2是本申请封面图片配置方法第二实施方式的流程示意图。在本实施方式中，封面图片配置方法包括：

S21：获取到多张待分类图片。

本实施方式中，待分类图片可以是通过网络爬取的方式从网络上获取的。

S22：利用目标检测模型对每张待分类图片进行目标检测，并对识别出的多个物体进行分类；其中，每个物体对应一个分类词。

本实施方式中，目标检测模型的训练方法如下：将已标注的多个样本图像输入到预设深度学习模型中；通过预设深度学习模型对样本图像的物体进行分类预测；基于预测结果与样本图像的标注类型对应的损失函数确定对预设深度学习模型是否进行再训练，并将训练完成的预设深度学习模型确定为目标检测模型。

其中，每次迭代训练时从样本集中选取设定数量的样本图像进行优化，待预设深度学习模型满足预设的收敛条件，可认为训练完成，并将训练完成后的模型确定为目标检测模型。

其中，收敛条件可以为预设深度学习模型的物体检测识别率达到95％。在其他实施方式中，物体检测识别率还可以设置为85、90％或其余高于80％的数值，本申请对此不作限定。

S23：计算每个物体在待分类图片中的面积占比。

本实施方式中，基于每个物体对应的边缘轮廓计算物体对应的面积占比。

具体地，利用目标检测模型对图片中的每个物体添加检测框，并基于检测框获取到每个物体的边缘轮廓，继而基于边缘轮廓获取到物体对应的面积占比。

S24：对多个面积占比进行排序，并将排序靠前的至少一个面积占比对应的物体的分类词作为待分类图片的分类标签，得到多张分类图片。

本实施方式中，可以对识别出的每个物体的面积占比进行排序，将排序在10％的面积占比所对应的物体的种类均作为分类标签。又或者，仅将面积占比最大的物体的所属种类作为分类标签，本申请对此不作限定。

在一个具体的实施场景中，响应于图片中面积占比排前二的两个物体分别为儿童与猫，则图片的分类标签可以为“儿童”和/或“宠物”。

S25：利用得到的多张分类图片组成预设图片库。

S26：利用语音合成技术与自然语言处理技术获取到待配置封面的音频文件的至少一个高频词汇。

具体过程请参见S11中的描述，此处不再赘述。

S27：基于每个高频词汇在预设图片库中进行查询。

具体过程请参见S12中的描述，此处不再赘述。

S28：响应于预设图片库中存在与高频词汇相匹配的至少一个分类标签，将分类标签对应的至少一张图片作为候选图片。

在一个具体的实施场景中，若高频词汇分别为“猫”与“小孩”，且“猫”与预设图片库中存储的分类标签“宠物”的匹配度达到设置的相似度阈值，“小孩”与预设图片库中存储的分类标签“儿童”的匹配度达到设置的相似度阈值，则从“宠物”对应的多张图片中获取到至少一张图片作为候选图片，以及从“儿童”对应的多张图片中获取到至少一张图片作为候选图片。

S29：计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片。

可以理解地，通过训练好的目标检测模型对待分类图片进行检测与分类，能够通过数据标注学习机制自适应调整深度学习模型中的模型参数，提升对待分类图片的预测效果，从而实现海量图片的自动检测与分类。进一步地，通过语音合成技术与自然语言处理技术获取到待配置封面的音频文件的高频词汇，以及通过计算候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并基于匹配度获取到最终的封面图片，能够结合目标检测技术、语音合成技术与自然语言处理技术，以在配置封面的每一步流程中均实现自动化操作，从而极大降低人力成本，继而满足内容平台中大量音频的配图需求。

请参阅图3，图3是本申请封面图片配置方法第三实施方式的流程示意图。在本实施方式中，封面图片配置方法包括：

S31：获取到待配置封面的音频文件。

本实施方式中，音频文件可以是用户主动上传的，也可以是通过网络爬取的方式从网络上获取的。

S32：利用语音合成技术对音频文件的音频内容进行转换处理，以得到对应的文本内容。

本实施方式中，将获取的音频文件作为语音识别模型的输入，以通过语音识别模型将音频文件对应的音频内容转化为文本内容，并输出文本内容。

其中，语音识别模型一般包括特征提取模块、声学模型、语言模型以及字典与解码四大模块，其中，特征提取模型用于将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型用于根据声学特性计算每一个特征向量在声学特征上的得分；语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

S33：利用自然语言处理技术对文本内容进行分词处理，以得到多个分词。

本实施方式中，将语音识别模型输出的文本内容作为预训练语言模型的输入，以通过预训练语言模型对文本内容进行分词处理，以得到多个分词。

具体地，利用预训练语言模型对输入的文本内容中的每个字符进行词性标注与分类，从被标注的文本内容中识别出每个情感词、每个动词以及每个名词，并将识别出的情感词、动词以及名词作为成分词。

可以理解地，成分词一般是句子的重要组成部分，成分词中不包括介词、连词、冠词、感叹词等虚词，也不包括代词、量词。

S34：计算每个分词出现的频率，并对计算出的多个频率进行排序，将排序靠前的至少一个频率对应的分词作为高频词汇。

本实施方式中，计算每个成分词出现的频率，并对多个频率进行排序，将排序靠前的至少一个频率对应的成分词作为高频词汇。

可以理解地，通过将出现频率较高的成分词作为高频词汇，能够利用高频词汇准确体现音频文件的主题内容。

S35：基于每个高频词汇在预设图片库中进行查询；其中，预设图片库中的每张图片为经过目标检测模型检测并分类的图片，且每张图片均对应有至少一个分类标签。

具体过程请参见S12与S21～S25中的描述，此处不再赘述。

S36：响应于预设图片库中存在与高频词汇相匹配的至少一个分类标签，将分类标签对应的至少一张图片作为候选图片。

具体过程请参见S13与S28中的描述，此处不再赘述。

S37：计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的相似度。

具体过程请参见S14中的描述，此处不再赘述。

S38：对多个相似度进行排序，将相似度最大的分类标签对应的候选图片作为音频文件的封面图片。

在一个具体的实施场景中，若某段音频文件的高频词汇分别为“猫”与“小孩”，且基于“猫”从预设图片库中获取到分类标签为“宠物”的一张候选图片，基于“小孩”从预设图片库中获取到分类标签为“儿童”的一张候选图片，采用余弦相似度分别计算“猫”与“宠物”之间的第一相似度以及“小孩”与“儿童”之间的第二相似度，响应于第一相似度大于第二相似度，则将分类标签为“宠物”的候选图片作为该段音频文件的封面图片；响应于第一相似度小于第二相似度，则将分类标签为“儿童”的候选图片作为该段音频文件的封面图片。

可以理解地，通过语音识别模型与预训练语言模型对待配置封面的音频文件进行处理，并获取到音频文件的高频词汇，能够较好地利用人工智能技术完成繁复的音频翻译工作与关键词提取工作。进一步地，通过计算候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并基于匹配度获取到最终的封面图片，能够利用机器计算取代人工匹配。通过结合目标检测技术、语音合成技术与自然语言处理技术，本实施方式能够在配置封面的每一步流程中均实现自动化操作，从而极大降低人力成本，继而满足内容平台中大量音频的配图需求。

请参阅图4，图4是本申请封面图片配置方法一应用场景的工作流程图。本实施方式中，首先获取到多张待分类图片，利用目标检测模型对每张待分类图片进行目标检测，并对识别出的多个物体进行分类，且每个物体对应一个分类词。接着计算每个物体在待分类图片中的面积占比，并对多个面积占比进行排序，并将排序靠前的至少一个面积占比对应的物体的分类词作为待分类图片的分类标签，得到多张分类图片，以利用得到的多张分类图片组成预设图片库。进而获取到待配置封面的音频文件，利用语音合成技术对音频文件的音频内容进行转换处理，得到对应的文本内容后，利用自然语言处理技术对文本内容进行分词处理，以得到多个分词。计算每个分词出现的频率，并对计算出的多个频率进行排序，将排序靠前的至少一个频率对应的分词作为高频词汇。接着基于每个高频词汇在预设图片库中进行查询，响应于预设图片库中存在与高频词汇相匹配的至少一个分类标签，将分类标签对应的至少一张图片作为候选图片，以得到多张候选图片。最后，计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片。

通过上述方法，本实施方式能够结合目标检测技术、语音合成技术与自然语言处理技术，以在配置封面的每一步流程中均实现自动化操作，从而极大降低人力成本，继而满足内容平台中大量音频的配图需求。

本实施方式的封面图片配置方法可以应用于电台或其余听歌软件中，以满足电台或听歌软件中大量音频的配图需求。

对应地，本申请提供一种封面图片配置装置。

请参阅图5，图5是本申请封面图片配置装置一实施方式的结构示意图。如图5所示，封面图片配置装置50包括获取模块51、查询模块52、匹配模块53以及计算模块54。

获取模块51，用于利用语音合成技术与自然语言处理技术获取到待配置封面的音频文件的至少一个高频词汇。

查询模块52，用于基于每个高频词汇在预设图片库中进行查询；其中，预设图片库中的每张图片为经过目标检测模型检测并分类的图片，且每张图片均对应有至少一个分类标签。

匹配模块53，用于响应于预设图片库中存在与高频词汇相匹配的至少一个分类标签，将分类标签对应的至少一张图片作为候选图片。

计算模块54，用于计算每张候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并将匹配度最高的分类标签对应的候选图片作为音频文件的封面图片。

其中，具体过程请参阅S11～S14、S21～S29、以及S31～S38中的相关文字描述，在此不再赘述。

区别于现有技术，本实施方式通过获取模块51获取到待配置封面的音频文件的高频词汇，能够较好地利用人工智能技术完成繁复的音频翻译工作与关键词提取工作。通过目标检测模型实现大量图片的分类检测，并利用分类后的图片组成预设图片库，能够实现图片的自动检测与分类。进一步地，通过计算模块54计算候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并基于匹配度获取到最终的封面图片，能够利用机器计算取代人工匹配。本申请通过结合目标检测技术、语音合成技术与自然语言处理技术，能够在配置封面的每一步流程中均实现自动化操作，从而极大降低人力成本，继而满足内容平台中大量音频的配图需求。

对应地，本申请提供一种电子设备。

请参阅图6，图6是本申请电子设备一实施方式的结构示意图。如图6所示，电子设备60包括存储器61以及处理器62。

本实施方式中，存储器61用于存储程序数据，程序数据被执行时实现如上述的封面图片配置方法中的步骤；处理器62用于执行存储器61存储的程序指令以实现如上述的封面图片配置方法中的步骤。

具体而言，处理器62用于控制其自身以及存储器61以实现如上述的封面图片配置方法中的步骤。处理器62还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由多个集成电路芯片共同实现。

区别于现有技术，本实施方式通过处理器62获取到待配置封面的音频文件的高频词汇，能够较好地利用人工智能技术完成繁复的音频翻译工作与关键词提取工作。通过目标检测模型实现大量图片的分类检测，并利用分类后的图片组成预设图片库，能够实现图片的自动检测与分类。进一步地，通过计算候选图片中每个匹配上的分类标签与对应的高频词汇之间的匹配度，并基于匹配度获取到最终的封面图片，能够利用机器计算取代人工匹配。本申请通过结合目标检测技术、语音合成技术与自然语言处理技术，能够在配置封面的每一步流程中均实现自动化操作，从而极大降低人力成本，继而满足内容平台中大量音频的配图需求。

对应地，本申请提供一种计算机可读存储介质。

请参阅图7，图7是本发明计算机可读存储介质一实施方式的结构示意图。

计算机可读存储介质70包括计算机可读存储介质70上存储的计算机程序701，所述计算机程序701被上述处理器执行时实现如上述的封面图片配置方法中的步骤。具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质100中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质70中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 通过图片检索视频的方法、装置、电子设备及存储介质 [P] . 中国专利：
2. 图片真实性的确定方法、装置、电子设备及可读存储介质 [P] . 中国专利：
3. 图片处理方法、装置、电子设备及存储介质 [P] . 中国专利：
4. 测量配置的方法、装置、电子设备和存储介质 [P] . 中国专利：
5. 商品活动规则的配置方法、装置、电子设备及存储介质 [P] . 中国专利：
6. 一种封面图片的显示方法、装置、电子设备及存储介质 [P] . 中国专利： CN113126942A . 2021-07-16
7. 确定封面图片的方法、装置、电子设备及存储介质 [P] . 中国专利： CN112231504A . 2021-01-15
8. METHOD FOR GENERATING VIDEO COVER, APPARATUS, ELECTRONIC DEVICE AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020029525A1 . 2020-02-13

机译：生成视频封面，装置，电子设备和存储介质的方法
9. METHOD AND DEVICE FOR PICTURE GENERATION, ELECTRONIC DEVICE, AND STORAGE MEDIUM [P] . WO2021169945A1 . 2021-09-02

机译：图片生成，电子设备和存储介质的方法和装置
10. METHOD AND DEVICE FOR PICTURE GENERATION, ELECTRONIC DEVICE, AND STORAGE MEDIUM [P] . 美国专利： US2021264191A1 . 2021-08-26

机译：图片生成，电子设备和存储介质的方法和装置