首页> 中国专利> 内容描述生成模型的损失值获取方法及装置

内容描述生成模型的损失值获取方法及装置

摘要

本发明实施例提供了一种内容描述生成模型的损失值获取方法及装置。在本发明实施例中,根据目标损失值就可以确定出预设内容描述生成模型生成的视频的内容描述的错误程度,之后选择与该错误程度相适应的优化方式来优化预设内容描述生成模型中的预设参数矩阵,从而可以提高预设内容描述生成模型中的预设参数矩阵的稀疏性,也即使得预设参数矩阵中的非零的数值尽量少,进而使得视频的视频特征的各个维度与视频的内容主题之间的关系越清晰,可解释性越高,以使得视频的视频特征与根据预设内容描述生成模型生成的该视频的内容描述的内容主题之间的相关性更加显著可见。

著录项

  • 公开/公告号CN108984628A

    专利类型发明专利

  • 公开/公告日2018-12-11

    原文格式PDF

  • 申请/专利权人 北京达佳互联信息技术有限公司;

    申请/专利号CN201810637242.X

  • 发明设计人 李岩;李涛;

    申请日2018-06-20

  • 分类号

  • 代理机构北京润泽恒知识产权代理有限公司;

  • 代理人莎日娜

  • 地址 100084 北京市海淀区中关村东路1号院8号楼20层B2201

  • 入库时间 2023-06-19 07:35:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-01-24

    授权

    授权

  • 2019-01-04

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20180620

    实质审查的生效

  • 2018-12-11

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,特别是涉及一种内容描述生成模型的损失值获取方法及装置。

背景技术

近来,深度学习在视频、图像、语音以及自然语言处理等相关领域得到了广泛应用。神经网络作为深度学习的一个重要分支,由于其超强的拟合能力以及端到端的全局优化能力,使得视频的内容描述生成任务在应用神经网络模型之后,精度大幅提升。

虽然目前的内容描述生成模型能够根据视频的视频特征生成视频的内容描述,但是仍然会出现生成的视频的内容描述与视频本身所表达的内容不同的情况,因此,往往需要获取内容描述生成模型的损失值,并根据损失值优化内容描述生成模型。

发明内容

为解决上述技术问题,本发明实施例示出了一种内容描述生成模型的损失值获取方法及装置。

第一方面,本发明实施例示出了一种内容描述生成模型的损失值获取方法,所述方法包括:

获取预设内容描述生成模型的传统损失值;

根据所述预设内容描述生成模型中的预设参数矩阵获取用于描述所述视频的内容的预测内容主题;

获取用于描述所述视频的内容的标注内容主题;

根据所述预测内容主题和所述标注内容主题确定所述预设内容描述生成模型的可解释性损失值;

根据所述传统损失值和所述可解释性损失值确定所述预设内容描述生成模型的目标损失值。

在一个可选的实现方式中,所述根据所述预设内容描述生成模型中的预设参数矩阵获取用于描述所述视频的内容的预测内容主题,包括:

获取所述视频的视频特征;

计算所述视频特征与所述预设参数矩阵之间的乘积,并作为所述预测内容主题。

在一个可选的实现方式中,所述获取视频的视频特征,包括:

获取所述视频中的多帧视频图像;

使用卷积神经网络CNN和双向长短期记忆网络LSTM获取每一帧所述视频图像的图像特征;

计算每一帧所述视频图像的图像特征之间的图像平均特征;

将所述图像平均特征确定为所述视频特征。

在一个可选的实现方式中,所述获取用于描述所述视频的内容的标注内容主题,包括:

获取已存储的、所述视频的标注内容描述;

拆分所述标注内容描述,得到多个描述词汇;

确定每一个所述描述词汇所属的主题;

根据每一个所述描述词汇所属的主题确定所述标注内容主题。

在一个可选的实现方式中,所述根据所述预测内容主题和所述标注内容主题确定所述预设内容描述生成模型的可解释性损失值,包括:

计算所述标注内容主题所对应的矩阵与所述预测内容主题所对应的矩阵之间的差异矩阵;

计算所述差异矩阵的第一范数的平方;

计算所述预设参数矩阵的第二范数;

根据所述平方和所述第二范数,按照如下公式计算所述可解释性损失值:

L1=α*X1+γ*X2;

其中,在上述公式中,L1为所述可解释性损失值,α为第一预设系数,γ为第二预设系数,X1为所述平方,X2为所述第二范数。

在一个可选的实现方式中,所述根据所述传统损失值和所述可解释性损失值确定所述预设内容描述生成模型的目标损失值,包括:

根据所述传统损失值和所述可解释性损失值,按照如下公式计算所述目标损失值:

L0=β*L1+λ*L2;

其中,在上述公式中,L0为所述目标损失值,β为第三预设系数,λ为第四预设系数,L1为所述可解释性损失值,L2为所述传统损失值。

第二方面,本发明实施例示出了一种内容描述生成模型的损失值获取装置,所述装置包括:

第一获取模块,用于获取预设内容描述生成模型的传统损失值;

第二获取模块,用于根据所述预设内容描述生成模型中的预设参数矩阵获取用于描述所述视频的内容的预测内容主题;

第三获取模块,用于获取用于描述所述视频的内容的标注内容主题;

第一确定模块,用于根据所述预测内容主题和所述标注内容主题确定所述预设内容描述生成模型的可解释性损失值;

第二确定模块,用于根据所述传统损失值和所述可解释性损失值确定所述预设内容描述生成模型的目标损失值。

在一个可选的实现方式中,所述第二获取模块包括:

第一获取单元,用于获取所述视频的视频特征;

第一计算单元,用于计算所述视频特征与所述预设参数矩阵之间的乘积,并作为所述预测内容主题。

在一个可选的实现方式中,所述第一获取单元包括:

第一获取子单元,用于获取所述视频中的多帧视频图像;

第二获取子单元,用于使用卷积神经网络CNN和双向长短期记忆网络LSTM获取每一帧所述视频图像的图像特征;

计算子单元,用于计算每一帧所述视频图像的图像特征之间的图像平均特征;

确定子单元,用于将所述图像平均特征确定为所述视频特征。

在一个可选的实现方式中,所述第三获取模块包括:

第二获取单元,用于获取已存储的、所述视频的标注内容描述;

拆分单元,用于拆分所述标注内容描述,得到多个描述词汇;

第一确定单元,用于确定每一个所述描述词汇所属的主题;

第二确定单元,用于根据每一个所述描述词汇所属的主题确定所述标注内容主题。

在一个可选的实现方式中,所述第一确定模块包括:

第二计算单元,用于计算所述标注内容主题所对应的矩阵与所述预测内容主题所对应的矩阵之间的差异矩阵;

第三计算单元,用于计算所述差异矩阵的第一范数的平方;

第四计算单元,用于计算所述预设参数矩阵的第二范数;

第五计算单元,用于根据所述平方和所述第二范数,按照如下公式计算所述可解释性损失值:

L1=α*X1+γ*X2;

其中,在上述公式中,L1为所述可解释性损失值,α为第一预设系数,γ为第二预设系数,X1为所述平方,X2为所述第二范数。

在一个可选的实现方式中,所述第二确定模块具体用于:

根据所述传统损失值和所述可解释性损失值,按照如下公式计算所述目标损失值:

L0=β*L1+λ*L2;

其中,在上述公式中,L0为所述目标损失值,β为第三预设系数,λ为第四预设系数,L1为所述可解释性损失值,L2为所述传统损失值。

第三方面,本发明实施例示出了一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容描述生成模型的损失值获取程序,所述内容描述生成模型的损失值获取程序被所述处理器执行时实现如第一方面所述的内容描述生成模型的损失值获取方法的步骤。

第四方面,本发明实施例示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有内容描述生成模型的损失值获取程序,所述内容描述生成模型的损失值获取程序被处理器执行时实现如第一方面所述的内容描述生成模型的损失值获取方法的步骤。

与现有技术相比,本发明实施例包括以下优点:

在本发明实施例中,获取预设内容描述生成模型的传统损失值;根据预设内容描述生成模型中的预设参数矩阵获取用于描述视频的内容的预测内容主题;获取用于描述该视频的内容的标注内容主题;根据预测内容主题和标注内容主题确定预设内容描述生成模型的可解释性损失值;根据传统损失值和可解释性损失值确定预设内容描述生成模型的目标损失值。

根据目标损失值就可以确定出预设内容描述生成模型生成的视频的内容描述的错误程度,之后选择与该错误程度相适应的优化方式来优化预设内容描述生成模型中的预设参数矩阵,从而可以提高预设内容描述生成模型中的预设参数矩阵的稀疏性,也即使得预设参数矩阵中的非零的数值尽量少,进而使得视频的视频特征的各个维度与视频的内容主题之间的关系越清晰,可解释性越高,进而使得视频的视频特征与根据预设内容描述生成模型生成的该视频的内容描述的内容主题之间的相关性更加显著可见。

附图说明

图1是本发明的一种内容描述生成模型的损失值获取方法实施例的步骤流程图;

图2是本发明的一种内容描述生成模型的损失值获取装置实施例的结构框图;

图3是本发明的一种终端实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1,示出了本发明的一种内容描述生成模型的损失值获取方法实施例的步骤流程图,具体可以包括如下步骤:

在步骤S101中,获取预设内容描述生成模型的传统损失值;

其中,可以根据现有技术中的任意一种传统损失值获取方法来获取预设内容描述生成模型的传统损失值。例如,将视频输入预设内容描述生成模型中,得到预设内容描述生成模型输出的该视频的预测内容描述;获取该视频的标注内容描述;根据预测内容描述和标注内容描述获取预设内容描述生成模型的传统损失值。

在步骤S102中,根据预设内容描述生成模型中的预设参数矩阵获取用于描述视频的内容的预测内容主题;

预设内容描述生成模型用于生成视频的预测内容描述,预测内容主题是根据预测内容描述生成的。预设内容描述生成模型中包括预设参数矩阵,为了描述视频的视频特征与视频的预测内容主题之间的相关性,可以按照如下流程取用于描述视频的内容的预测内容主题,包括:

11)、获取该视频的视频特征;

获取视频中的多帧视频图像;其中,该视频包括具有先后顺序排列的大量的视频图像,可以从大量的视频图像中等距采样,得到多帧视频图像,例如,得到26帧视频图像。然后使用CNN(Convolutional Neural Network,卷积神经网络)和双向LSTM(Long Short-Term Memory,长短期记忆网络)获取每一帧视频图像的图像特征;例如,对于多帧视频图像中的任意一帧视频图像,将该帧视频图像输入CNN,得到CNN输出的该帧视频图像的1536维的特征描述,并将1536维的特征描述输入双向LSTM得到2个256维的特征描述,然后将1536维的特征描述和2个256维的特征描述组成2018维的特征描述,并作为该帧视频图像的图像特征,对于多帧视频图像中的其他每一帧视频图像,同样如此。再计算每一帧视频图像的图像特征之间的图像平均特征;例如,在每一帧视频图像的2018维的特征描述中,计算相同维的数值之间的平均值,得到图像平均特征。之后将该图像平均特征确定为该视频的视频特征。

12)、计算视频特征与预设参数矩阵之间的乘积,并作为预测内容主题。

在本发明实施例中,预设内容描述生成模型用于生成视频的预测内容描述,预测内容主题是根据预测内容描述生成的。预设内容描述生成模型中包括预设参数矩阵,为了描述视频的视频特征与视频的预测内容主题之间的相关性,可以计算视频特征与预设参数矩阵之间的乘积,并作为预测内容主题。

在步骤S103中,获取用于描述该视频的内容的标注内容主题;

其中,本步骤可以通过如下流程实现,包括:

21)、获取已存储的、该视频的标注内容描述;

在本发明实施例中,技术人员事先可以观看该视频的内容,并根据该视频的内容总结该视频的内容描述,并将其作为该视频的标注内容描述,然后存储该视频的标注内容描述。因此,在本步骤中,可以获取已存储的、该视频的标注内容描述。

22)、拆分标注内容描述,得到多个描述词汇;

其中,可以使用汉语分词系统NLPIR对该标注内容描述分词,得到标注内容描述包括的多个描述词汇。

23)、确定每一个描述词汇所属的主题;

在本发明实施例中,技术人员事先会设置多个主题,对于每一个主题,可以统计用于描述该主题的描述词汇,并组成该主题对应的描述词汇集合。

因此,在对于任意一描述词汇,可以在多个描述词汇集合中查找包括该描述词汇的词汇描述集合,并将该词汇描述集合对应的主题作为该描述词汇所属的主题。对于其他每一描述词汇,同样如此。

24)、根据每一个描述词汇所属的主题确定标注内容主题。

在本发明实施例中,在确定每一个描述词汇所属的主题中,可以将数量最多的主题确定为标注内容主题,当然,也可以按照其他方式来确定标注内容主题,本发明实施例对此不加以限定。

在步骤S104中,根据预测内容主题和标注内容主题确定预设内容描述生成模型的可解释性损失值;

可以计算标注内容主题所对应的矩阵与预测内容主题所对应的矩阵之间的差异矩阵;计算差异矩阵的第一范数的平方;计算预设参数矩阵的第二范数;然后可以根据平方和第二范数,按照如下公式计算可解释性损失值:

L1=α*X1+γ*X2;

其中,在上述公式中,L1为可解释性损失值,α为第一预设系数,γ为第二预设系数,X1为平方,X2为第二范数。

其中,α包括位于01至1之间的数值,γ包括1、1.001或1.0001等数值。

在步骤S105中,根据传统损失值和可解释性损失值确定预设内容描述生成模型的目标损失值。

其中,可以根据传统损失值和可解释性损失值,按照如下公式计算目标损失值:

L0=β*L1+λ*L2;

其中,在上述公式中,L0为目标损失值,β为第三预设系数,λ为第四预设系数,L1为可解释性损失值,L2为传统损失值。

其中,β包括1、1.001或1.0001等数值,γ包括0.5、0.51或0.501等数值。

在本发明实施例中,获取预设内容描述生成模型的传统损失值;根据预设内容描述生成模型中的预设参数矩阵获取用于描述视频的内容的预测内容主题;获取用于描述该视频的内容的标注内容主题;根据预测内容主题和标注内容主题确定预设内容描述生成模型的可解释性损失值;根据传统损失值和可解释性损失值确定预设内容描述生成模型的目标损失值。

根据目标损失值就可以确定出预设内容描述生成模型生成的视频的内容描述的错误程度,之后选择与该错误程度相适应的优化方式来优化预设内容描述生成模型中的预设参数矩阵,从而可以提高预设内容描述生成模型中的预设参数矩阵的稀疏性,也即使得预设参数矩阵中的非零的数值尽量少,进而使得视频的视频特征的各个维度与视频的内容主题之间的关系越清晰,可解释性越高,以使得视频的视频特征与根据预设内容描述生成模型生成的该视频的内容描述的内容主题之间的相关性更加显著可见。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图2,示出了本发明一种内容描述生成模型的损失值获取装置实施例的结构框图,该装置具体可以包括如下模块:

第一获取模块11,用于获取预设内容描述生成模型的传统损失值;

第二获取模块12,用于根据所述预设内容描述生成模型中的预设参数矩阵获取用于描述所述视频的内容的预测内容主题;

第三获取模块13,用于获取用于描述所述视频的内容的标注内容主题;

第一确定模块14,用于根据所述预测内容主题和所述标注内容主题确定所述预设内容描述生成模型的可解释性损失值;

第二确定模块15,用于根据所述传统损失值和所述可解释性损失值确定所述预设内容描述生成模型的目标损失值。

在一个可选的实现方式中,所述第二获取模块12包括:

第一获取单元,用于获取所述视频的视频特征;

第一计算单元,用于计算所述视频特征与所述预设参数矩阵之间的乘积,并作为所述预测内容主题。

在一个可选的实现方式中,所述第一获取单元包括:

第一获取子单元,用于获取所述视频中的多帧视频图像;

第二获取子单元,用于使用卷积神经网络CNN和双向长短期记忆网络LSTM获取每一帧所述视频图像的图像特征;

计算子单元,用于计算每一帧所述视频图像的图像特征之间的图像平均特征;

确定子单元,用于将所述图像平均特征确定为所述视频特征。

在一个可选的实现方式中,所述第三获取模块13包括:

第二获取单元,用于获取已存储的、所述视频的标注内容描述;

拆分单元,用于拆分所述标注内容描述,得到多个描述词汇;

第一确定单元,用于确定每一个所述描述词汇所属的主题;

第二确定单元,用于根据每一个所述描述词汇所属的主题确定所述标注内容主题。

在一个可选的实现方式中,所述第一确定模块14包括:

第二计算单元,用于计算所述标注内容主题所对应的矩阵与所述预测内容主题所对应的矩阵之间的差异矩阵;

第三计算单元,用于计算所述差异矩阵的第一范数的平方;

第四计算单元,用于计算所述预设参数矩阵的第二范数;

第五计算单元,用于根据所述平方和所述第二范数,按照如下公式计算所述可解释性损失值:

L1=α*X1+γ*X2;

其中,在上述公式中,L1为所述可解释性损失值,α为第一预设系数,γ为第二预设系数,X1为所述平方,X2为所述第二范数。

在一个可选的实现方式中,所述第二确定模块15具体用于:

根据所述传统损失值和所述可解释性损失值,按照如下公式计算所述目标损失值:

L0=β*L1+λ*L2;

其中,在上述公式中,L0为所述目标损失值,β为第三预设系数,λ为第四预设系数,L1为所述可解释性损失值,L2为所述传统损失值。

在本发明实施例中,获取预设内容描述生成模型的传统损失值;根据预设内容描述生成模型中的预设参数矩阵获取用于描述视频的内容的预测内容主题;获取用于描述该视频的内容的标注内容主题;根据预测内容主题和标注内容主题确定预设内容描述生成模型的可解释性损失值;根据传统损失值和可解释性损失值确定预设内容描述生成模型的目标损失值。

根据目标损失值就可以确定出预设内容描述生成模型生成的视频的内容描述的错误程度,之后选择与该错误程度相适应的优化方式来优化预设内容描述生成模型中的预设参数矩阵,从而可以提高预设内容描述生成模型中的预设参数矩阵的稀疏性,也即使得预设参数矩阵中的非零的数值尽量少,进而使得视频的视频特征的各个维度与视频的内容主题之间的关系越清晰,可解释性越高,进而使得视频的视频特征与根据预设内容描述生成模型生成的该视频的内容描述的内容主题之间的相关性更加显著可见。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明还示出了一种终端,该终端可以包括:存储器、处理器及存储在存储器上并可在处理器上运行的内容描述生成模型的损失值获取程序,内容描述生成模型的损失值获取程序被处理器执行时实现本发明中所述的任意一种内容描述生成模型的损失值获取方法的步骤。

图3是根据一示例性实施例示出的一种终端600的框图。例如,终端600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图3,终端600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。

处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述内容描述生成模型的损失值获取方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在终端600的操作。这些数据的示例包括用于在终端600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件606为终端600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为终端600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述终端600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当终端600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当终端600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器,用于为终端600提供各个方面的状态评估。例如,传感器组件614可以检测到终端600的打开/关闭状态,组件的相对定位,例如所述组件为终端600的显示器和小键盘,传感器组件614还可以检测终端600或终端600一个组件的位置改变,用户与终端600接触的存在或不存在,装置600方位或加速/减速和终端600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件616被配置为便于终端600和其他设备之间有线或无线方式的通信。终端600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,终端600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行内容描述生成模型的损失值获取方法,具体地,该方法包括:

获取预设内容描述生成模型的传统损失值;

根据所述预设内容描述生成模型中的预设参数矩阵获取用于描述所述视频的内容的预测内容主题;

获取用于描述所述视频的内容的标注内容主题;

根据所述预测内容主题和所述标注内容主题确定所述预设内容描述生成模型的可解释性损失值;

根据所述传统损失值和所述可解释性损失值确定所述预设内容描述生成模型的目标损失值。

在一个可选的实现方式中,所述根据所述预设内容描述生成模型中的预设参数矩阵获取用于描述所述视频的内容的预测内容主题,包括:

获取所述视频的视频特征;

计算所述视频特征与所述预设参数矩阵之间的乘积,并作为所述预测内容主题。

在一个可选的实现方式中,所述获取视频的视频特征,包括:

获取所述视频中的多帧视频图像;

使用卷积神经网络CNN和双向长短期记忆网络LSTM获取每一帧所述视频图像的图像特征;

计算每一帧所述视频图像的图像特征之间的图像平均特征;

将所述图像平均特征确定为所述视频特征。

在一个可选的实现方式中,所述获取用于描述所述视频的内容的标注内容主题,包括:

获取已存储的、所述视频的标注内容描述;

拆分所述标注内容描述,得到多个描述词汇;

确定每一个所述描述词汇所属的主题;

根据每一个所述描述词汇所属的主题确定所述标注内容主题。

在一个可选的实现方式中,所述根据所述预测内容主题和所述标注内容主题确定所述预设内容描述生成模型的可解释性损失值,包括:

计算所述标注内容主题所对应的矩阵与所述预测内容主题所对应的矩阵之间的差异矩阵;

计算所述差异矩阵的第一范数的平方;

计算所述预设参数矩阵的第二范数;

根据所述平方和所述第二范数,按照如下公式计算所述可解释性损失值:

L1=α*X1+γ*X2;

其中,在上述公式中,L1为所述可解释性损失值,α为第一预设系数,γ为第二预设系数,X1为所述平方,X2为所述第二范数。

在一个可选的实现方式中,所述根据所述传统损失值和所述可解释性损失值确定所述预设内容描述生成模型的目标损失值,包括:

根据所述传统损失值和所述可解释性损失值,按照如下公式计算所述目标损失值:

L0=β*L1+λ*L2;

其中,在上述公式中,L0为所述目标损失值,β为第三预设系数,λ为第四预设系数,L1为所述可解释性损失值,L2为所述传统损失值。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由终端600的处理器620执行以完成上述内容描述生成模型的损失值获取方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。当存储介质中的指令由终端的处理器执行时,使得终端能够执行本发明中所述的任意一种内容描述生成模型的损失值获取方法的步骤。

在此提供的内容描述生成模型的损失值获取方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的内容描述生成模型的损失值获取方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

A1、一种内容描述生成模型的损失值获取装置,所述装置包括:

第一获取模块,用于获取预设内容描述生成模型的传统损失值;

第二获取模块,用于根据所述预设内容描述生成模型中的预设参数矩阵获取用于描述视频的内容的预测内容主题;

第三获取模块,用于获取用于描述所述视频的内容的标注内容主题;

第一确定模块,用于根据所述预测内容主题和所述标注内容主题确定所述预设内容描述生成模型的可解释性损失值;

第二确定模块,用于根据所述传统损失值和所述可解释性损失值确定所述预设内容描述生成模型的目标损失值。

A2、根据权利要求A1所述的装置,所述第二获取模块包括:

第一获取单元,用于获取所述视频的视频特征;

第一计算单元,用于计算所述视频特征与所述预设参数矩阵之间的乘积,并作为所述预测内容主题。

A3、根据权利要求A2所述的装置,所述第一获取单元包括:

第一获取子单元,用于获取所述视频中的多帧视频图像;

第二获取子单元,用于使用卷积神经网络CNN和双向长短期记忆网络LSTM获取每一帧所述视频图像的图像特征;

计算子单元,用于计算每一帧所述视频图像的图像特征之间的图像平均特征;

确定子单元,用于将所述图像平均特征确定为所述视频特征。

A4、根据权利要求A1所述的装置,所述第三获取模块包括:

第二获取单元,用于获取已存储的、所述视频的标注内容描述;

拆分单元,用于拆分所述标注内容描述,得到多个描述词汇;

第一确定单元,用于确定每一个所述描述词汇所属的主题;

第二确定单元,用于根据每一个所述描述词汇所属的主题确定所述标注内容主题。

A5、根据权利要求A1所述的装置,所述第一确定模块包括:

第二计算单元,用于计算所述标注内容主题所对应的矩阵与所述预测内容主题所对应的矩阵之间的差异矩阵;

第三计算单元,用于计算所述差异矩阵的第一范数的平方;

第四计算单元,用于计算所述预设参数矩阵的第二范数;

第五计算单元,用于根据所述平方和所述第二范数,按照如下公式计算所述可解释性损失值:

L1=α*X1+γ*X2;

其中,在上述公式中,L1为所述可解释性损失值,α为第一预设系数,γ为第二预设系数,X1为所述平方,X2为所述第二范数。

A6、根据权利要求A5所述的装置,所述第二确定模块具体用于:

根据所述传统损失值和所述可解释性损失值,按照如下公式计算所述目标损失值:

L0=β*L1+λ*L2;

其中,在上述公式中,L0为所述目标损失值,β为第三预设系数,λ为第四预设系数,L1为所述可解释性损失值,L2为所述传统损失值。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号