首页> 中国专利> 中文图文检索方法及中文图文检索的数据处理方法

中文图文检索方法及中文图文检索的数据处理方法

摘要

本说明书实施例提供中文图文检索方法及中文图文检索的数据处理方法,其中所述中文图文检索方法包括:获取源对象,将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到,利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。针对中文图文的多模态检索场景,利用对比学习训练得到的图文表征组件,提升了对图文表征组件的训练效果,充分挖掘图文特征之间的特征相关性,获得更准确的源对象的对象特征,来进行图文转换,生成源对象对应的目标对象,提升了中文图文检索的准确性。

著录项

  • 公开/公告号CN115687664A

    专利类型发明专利

  • 公开/公告日2023-02-03

    原文格式PDF

  • 申请/专利权人 阿里巴巴(中国)有限公司;

    申请/专利号CN202211328806.4

  • 申请日2022-10-26

  • 分类号G06F16/432;G06F16/483;G06F16/9532;G06V10/40;G06V10/82;G06F40/289;G06N3/045;G06N3/084;

  • 代理机构北京智信禾专利代理有限公司;

  • 代理人金鹏

  • 地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层554室

  • 入库时间 2023-06-19 18:34:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-03

    公开

    发明专利申请公布

说明书

技术领域

本说明书实施例涉及图文检索技术领域,特别涉及一种中文图文检索方法。

背景技术

随着互联网技术的发展,中文互联网的主要形式,已经从出纯文本形式转换为了文本、图片、视频、影音等多模态内容共同展现的形式。基于此,通过某种模态内容来检索得到其他模态的相关内容,显得愈发重要。

目前,在中文检索领域,通过某种模态内容来检索得到其他模态的相关内容,主要是利用不同模态内容之间的特征相关性,训练并应用对应的多模态检索神经网络模型来实现的。

然而,如何训练得到可以准确提取中文文本的文本特征和图像的图像特征的检索模型,并且能准确表征文本特征和图像特征之间的特征相关性,作为基础来进行中文文本和图像之间的检索是未知的,导致检索结果的准确性不足。因此,亟需一种高准确性的中文图文检索方法。

发明内容

有鉴于此,本说明书实施例提供了一种中文图文检索方法。本说明书一个或者多个实施例同时涉及一种中文图文检索的数据处理方法,一种中文图文检索装置,一种中文图文检索的数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面,提供了一种中文图文检索方法,包括:

获取源对象,其中,源对象为源中文文本或源图像;

将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到;

利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。

根据本说明书实施例的第二方面,提供了一种中文图文检索的数据处理方法,应用于云侧设备,包括:

获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本;

提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本;

将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到;

利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据;

基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件;

向端侧设备发送训练得到的图文检索模型的模型参数。

根据本说明书实施例的第三方面,提供了一种中文图文检索装置,包括:

第一获取模块,被配置为获取源对象,其中,源对象为源中文文本或源图像;

第一特征提取模块,被配置为将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到;

第一生成模块,被配置为利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。

根据本说明书实施例的第四方面,提供了一种中文图文检索的数据处理装置,应用于云侧设备,包括:

第二获取模块,被配置为获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本;

提取模块,被配置为提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本;

第二特征提取模块,被配置为将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到;

图文转换模块,被配置为利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据;

训练模块,被配置为基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件;

发送模块,被配置为向端侧设备发送训练得到的图文检索模型的模型参数。

根据本说明书实施例的第五方面,提供了一种计算设备,包括:

存储器和处理器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述中文图文检索方法或者中文图文检索的数据处理方法的步骤。

根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述中文图文检索方法或者中文图文检索的数据处理方法的步骤。

根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述中文图文检索方法或者中文图文检索的数据处理方法的步骤。

本说明书一个或多个实施例中,获取源对象,其中,源对象为源中文文本或源图像,将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到,利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。针对中文图文的多模态检索场景,利用对比学习训练得到的图文表征组件,提升了对图文表征组件的训练效果,充分挖掘了图文特征之间的特征相关性,获得更准确的源对象的对象特征,来进行图文转换,生成源对象对应的目标对象,提升了中文图文检索的准确性。

附图说明

图1是本说明书一个实施例提供的一种中文图文检索方法的流程图;

图2是本说明书一个实施例提供的一种图文表征组件的结构示意图;

图3是本说明书一个实施例提供的一种图文检索模型的结构示意图;

图4是本说明书一个实施例提供的一种中文图文检索方法的前端显示示意图;

图5是本说明书一个实施例提供的一种中文图文检索的数据处理方法的流程图;

图6是本说明书一个实施例提供的一种中文图文检索的数据处理方法的数据流向图;

图7是本说明书一个实施例提供的一种应用于生物图像检索的中文图文检索方法的处理过程流程图;

图8是本说明书一个实施例提供的一种中文图文检索装置的结构示意图;

图9是本说明书一个实施例提供的一种中文图文检索的数据处理装置的结构示意图;

图10是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先,对本说明书一个或多个实施例涉及的名词术语进行解释。

Transformer(翻译)模型:一种基于注意力机制的神经网络模型,通过注意力机制提取、分析自然语言文本。

视觉Transformer模型(Vision Transformer模型):一种视觉领域对Transformer模型进行适应性调整的神经网络模型,通过设置特殊的向量映射层,得到为固定向量映射维度的图像特征,在此基础上利用Transformer模型进行图像特征提取。

BERT(Bidirectional Encoder Representations from Transformer,双向语义编码)模型:一种对Transformer的优化神经网络模型,通过注意力机制提取、分析自然语言文本。

RoBERTa模型:一种对BERT模型进行适应性调整的神经网络模型,通过调整BERT模型对自然语言文本的编码机制,更好地实现对复杂编码的自然语言(例如,中文、日文这样的非符号自然语言)文本的特征提取。

ResNet(Deep residual Network,深度残差神经网络)模型:一种具有超多层网络结构和残差处理模块的神经网络模型架构,其通过超多层网络结构实现更准确地提取图像特征,同时由于残差处理模块避免了梯度消失和梯度爆炸等稳定性问题。对衍生模型包括ResNet-50模型,ResNet-101模型等。

CNN(Convolutional Neural Networks,卷积神经网络)模型:一种具有前向传播和反向传播的多层神经网络模型。

特征嵌入层:一种神经网络模型中的编码层对文本、图像进行嵌入处理的,具体嵌入处理包括序列化处理、分词等。

特征提取层:一种神经网络模型中的特征提取层,挖掘提取文本、图像的深层特征。

特征编码层:一种神经网络模型中的编码层,对特征提取层输出的深层特征进行编码处理的

互操作层:一种神经网络模型中的特征加工层,对图像特征和文本特征进行互操作处理,具体的互操作处理包括:计算特征相似度、计算损失值等。

模型训练:将样本输入神经网络模型,得到训练结果,根据训练结果调整神经网络模型的模型参数,得到目标神经网络模型的方法。

Attention(注意力)机制:一种设置多个Attention Head(注意力头)实现对不同特征的全面整合,使得得到的特征不局限于当前维度,同时具有其他维度的特征。

在本说明书中,提供了一种中文图文检索方法,本说明书同时涉及一种中文图文检索的数据处理方法,一种中文图文检索装置,一种中文图文检索的数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。

本说明书实施例提供了一种中文图文检索系统,该系统可以包括云侧设备以及多个端侧设备。多个端侧设备之间通过云侧设备可以建立通信连接,在中文图文检索场景中,云侧设备即用来在多个端侧设备之间提供模型服务,多个端侧设备可以分别作为发送端或接收端,通过云侧设备实现实时通信。

用户通过端侧设备可与云侧设备进行交互,以接收其它端侧设备发送的数据,或将数据发送至其它端侧设备等。在中文图文检索场景中,可以使用户通过端侧设备向云侧设备发布数据流,云侧设备根据该数据流进行中文图文检索模型训练,并将训练获得的中文图文检索模型的模型参数推送至其他建立通信的其他客户端中。

其中,端侧设备与云侧设备之间通过网络建立连接。网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。端侧设备所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至云侧设备。

端侧设备可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,端侧设备可以基于服务端提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real Time Communication)SDK开发获得等。端侧设备可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

云侧设备可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,云侧设备可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content DeliveryNetwork)、以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。

值得说明的是,本说明书实施例中提供的中文图文检索的数据处理方法可以由云侧设备执行,在本说明书的其它实施例中,端侧设备也可以与云侧设备具有相似的功能,从而执行本说明书实施例所提供的中文图像检索的数据处理方法。在其它实施例中,本说明书实施例所提供的中文图文检索的数据处理方法还可以是由云侧设备与端侧设备共同执行。

参见图1,图1示出了本说明书一个实施例提供的一种中文图文检索方法的流程图,具体包括如下步骤。

步骤102:获取源对象,其中,源对象为源中文文本或源图像。

目前,对于中文图文的多模态检索场景,主要是通过获取大量样本图像和样本中文文本来训练图文检索模型,然而得到准确表征图文特征并具有图文相关性表征能力的图文表征组件,基于图文表征组件提取的对象特征,利用对象生成组件进行图文转换,得到目标对象。图文表征组件需要成对的样本图像和样本中文文本来训练,实际应用的中文图文对数量不足,需要人为构建,增加了模型训练的训练成本,降低了模型训练的训练效率。

本说明书实施例应用在运行图文表征组件和对象生成组件的客户端或者服务端。

源对象为用户输入的图文检索的检索索引,可以为源中文文本,也可以为源图像。源图像的形式包括图片、视频帧、视频等,在此不作限定。源中文文本的形式包括单字、词组短语、句子、段落文章等,在此不作限定。获取源对象,具体方式为,接收用户输入的源对象。

步骤104:将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到。

图文表征组件为具有图像特征提取能力和文本特征提取能力的神经网络模型,图文表征组件为双塔结构模型。图文表征组件为对获取的开源图文表征组件进行预训练后得到的。图文表征组件包括图像编码器和文本编码器。图像编码器为具有图像特征提取能力的神经网络模型,可以为CNN模型、视觉Transformer模型、ResNet模型等。图像编码器包括图像特征嵌入层、特征提取层和图像特征编码层。文本编码器为具有文本特征提取能力的神经网络模型,可以为CNN模型、Transformer模型、BERT模型、RoBERTa模型等。文本编码器包括文本特征嵌入层、特征提取层和文本特征编码层。

样本中文图文对为匹配的样本图像和样本中文文本的训练样本对,例如,某种动物的样本图像和该动物的科学描述文本的样本中文文本,构成一个样本中文图文对,又例如,某首歌曲的专辑封面的样本图像和该歌曲的歌词文本的样本中文文本,还例如,某相声节目的视频的样本图像和该相声节目的台本的样本中文文本。样本图像的形式包括图片、视频帧、视频等,在此不作限定。样本中文文本的形式包括单字、词组短语、句子、段落文章等,在此不作限定。

图2示出了本说明书一个实施例提供的一种图文表征组件的结构示意图。

如图2所示,图文表征组件包括图像编码器、文本编码器和互操作层,图像编码器包括图像特征嵌入层、特征提取层和图像编码层。对于图像编码器,将图像输入图像编码器后,图像特征嵌入层将输入的图像进行嵌入处理后,输入特征提取层,挖掘得到图像的深层特征,最后输入图像编码层进行编码得到图像特征;对于文本编码器,将中文文本输入文本编码器后,文本特征嵌入层将输入的中文文本进行嵌入处理后,输入特征提取层,挖掘得到中文文本的深层特征,最后输入文本编码层进行编码得到文本特征;互操作层基于图像特征和文本特征进一步对比学习,实现对图文表征组件的训练。

在源对象为源中文文本的情况下,源对象的对象特征为文本特征。在源对象为源图像的情况下,源对象的对象特征为图像特征。

对比学习训练为根据成对的样本图像和样本中文文本以及不成对的样本图像和样本中文文本,来对图文表征组件进行训练的方法。例如,样本集包括10个样本中文图文对,对于样本图像Image1,样本图像Image1和样本中文文本Text1成对,和其他的样本中文文本(Text2,Text3,Text4……Text10)都不成对,利用样本图像Image1和其他样本图像,来对图文表征组件训练,使得图文表征组件可以更准确表征中文文本的文本特征和图像的图像特征以及特征相关性。对比学习训练的核心为扩展了训练图文表征组件的训练样本,提升了模型的训练效果。

将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,具体方式为,将源对象输入图文表征组件,利用图文表征组件的图像编码器或文本编码器的特征提取层,对源对象进行特征提取,获得源对象的对象特征。在源对象为源图像的情况下,图像编码器可以为视觉Transformer模型,利用视觉Transformer模型的全连接层和注意力机制,提取源图像的图像特征。在源对象为源中文文本的情况下,文本编码器可以为RoBERTa模型,利用RoBERTa模型的文本特征嵌入层,对源中文文本进行序列编码和分词处理后,利用RoBERTa模型的全连接层和注意力机制,提取源中文文本的文本特征。

将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到。利用对比学习训练得到的图文表征组件,提升了对图文表征组件的训练效果,充分挖掘了图文特征之间的特征相关性,获得更准确的源对象的对象特征,为后续进行图文转换,提供了特征基础,同时提升了进行图文转换后生成的瞄对象的准确性。

步骤106:利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。

对象生成组件为具有图文转换能力的神经网络模型,对象生成组件基于图像特征或者文本特征,转换得到高特征相关性的图像特征对应的目标文本或者文本特征对应的目标图像。对象生成组件可以为直接获取的对象生成组件,也可以为对获取的开源图文表征组件进行预训练后得到的,在此不作限定。对象生成组件基于源对象的对象特征,确定与对象特征高相关性的目标特征,得到目标特征对应的目标对象。在对象特征为图像特征的情况下,目标特征为文本特征,在对象特征为文本特征的情况下,目标特征为图像特征。例如,源对象为源图像,对象生成组件基于源图像的图像特征,确定与图像特征高相关性的文本特征,得到文本特征对应的目标中文文本。

利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。具体方式为,利用对象生成组件,对对象特征进行图文特征转换,确定与对象特征高相关性的目标特征,得到目标特征对应的目标对象,其中,对象特征和目标特征为不同模态的图文特征。

示例性地,利用对象生成组件,对源中文文本的文本特征Text Embedding_进行图文特征转换,确定与源中文文本的文本特征Text Embedding_高相关性的图像特征ImageEmbedding,得到图像特征Image Embedding对应的目标图像Image:人物C的照片。

本说明书实施例中,获取源对象,其中,源对象为源中文文本或源图像,将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到,利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。针对中文图文的多模态检索场景,利用对比学习训练得到的图文表征组件,提升了对图文表征组件的训练效果,充分挖掘了图文特征之间的特征相关性,获得更准确的源对象的对象特征,来进行图文转换,生成源对象对应的目标对象,提升了中文图文检索的准确性。

可选地,在步骤104之前,还包括如下具体步骤:

获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本;

提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本;

将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到;

利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据;

基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件。

样本集为预先构建得到的中文图文样本集,样本集可以为中文开源样本数据库中预先构建的中文图文样本集,样本集也可以为对获取的匹配的图像和中文文本进行样本集构建得到的,在此不作限定。为了保证对图文表征组件的训练效果,样本集具有大量样本中文图文对。

第一样本数据和第二样本数据为样本集中任一样本中文图文对中不同模态的样本数据,例如,在第一样本数据为样本中文图文对的源中文文本的情况下,第二样本数据为该样本中文图文对的源图像。在第一样本数据为源中文文本的情况下,第一样本数据的数据特征为文本特征,在第一样本数据为源图像的情况下,第一样本数据的数据特征为图像特征。

预训练中文图文对为用于预训练的匹配的样本图像和样本中文文本的训练样本对,预训练中文图文对可以来自样本集,也可以不来自样本集,在此不作限定。

图文检索模型为具有图像特征提取能力、文本特征提取能力和图文转换能力的神经网络模型,图文检索模型包括图文表征组件和对象生成组件。

图3示出了本说明书一个实施例提供的一种图文检索模型的结构示意图。

如图3所示,图文检索模型包括图像编码器、文本编码器和对象生成组件,图像编码器包括图像特征嵌入层、特征提取层和图像编码层。对于图像编码器,将图像输入图像编码器后,图像特征嵌入层将输入的图像进行嵌入处理后,输入特征提取层,挖掘得到图像的深层特征,最后输入图像编码层进行编码得到图像特征;对于文本编码器,将中文文本输入文本编码器后,文本特征嵌入层将输入的中文文本进行嵌入处理后,输入特征提取层,挖掘得到中文文本的深层特征,最后输入文本编码层进行编码得到文本特征;对象生成组件对图像特征或文本特征进行图文转换。

获取样本集,具体方式为,根据第一训练目标,获取对应于第一训练目标的样本集。第一训练目标为对于图文检索模型的检索范围的期望,例如,对于图文检索模型的检索范围的期望为具有“植物图像-描述植物习性的中文文本”。根据第一训练目标,获取对应于第一训练目标的样本集,可以保证后续获得的图文检索模型具有针对性的图文检索能力。

将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,具体方式为,将第一样本数据输入图文表征组件,利用图文表征组件的图像编码器或文本编码器的特征提取层,对第一样本数据进行特征提取,获得第一样本数据的数据特征。在第一样本数据为样本图像的情况下,图像编码器可以为视觉Transformer模型,利用视觉Transformer模型的全连接层和注意力机制,提取样本图像的图像特征。在第一样本数据为样本中文文本的情况下,文本编码器可以为RoBERTa模型,利用RoBERTa模型的文本特征嵌入层,对样本中文文本进行序列编码和分词处理后,利用RoBERTa模型的全连接层和注意力机制,提取样本中文文本的文本特征。

利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据,具体方式为,利用对象生成组件,对第一样本数据的数据特征进行图文转换,确定与数据特征高相关性的预测特征,得到预测特征对应的预测数据。

基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,具体方式为,基于预测数据的数据特征和第二样本数据的数据特征,计算得到预测损失值,基于预测损失值,对对象生成组件进行训练,在满足预设训练条件的情况下,获得训练得到的图文检索模型的模型参数。预测损失值为表征对象生成组件的图文转换能力的,预测损失值的计算方法为包括交叉熵损失值计算方法、余弦损失值计算方法、回归损失值计算方法等。预设训练结束条件为预设的训练结束的判断条件,可以为预设训练迭代次数,可以为预测损失值阈值,在此不作限定。

示例性地,图文检索模型Model包括图文表征组件和对象生成组件,其中,图像编码器为ResNet模型,文本编码器为BERT模型。从人物相关的开源样本数据库中获取1000张不同人物照片和1000份人物生平描述的中文文本,将1000张不同人物照片确定为样本图像(Image1,Image2,Image3……Image1000),将1000份人物生平描述的中文文本确定为样本中文文本(Text1,Text2,Text3……Text1000),得到1000个样本中文图文对(Image1-Text1,Image2-Text2,Image3-Text3……Image1000-Text1000),构建得到“人物照片-人物生平描述”的样本集,提取任一样本中文图文对中的第一样本图像Image-i和第一样本文本Text-i,利用的ResNet模型的特征提取层,提取第一样本图像Image-i的图像特征Image-i Embedding_,利用对象生成组件,对第一样本图像Image-i的图像特征Image-iEmbedding进行图文转换,确定与图像特征Image-i Embedding高相关性的预测文本特征Text-I Embedding,得到预测文本特征Text-I Embedding对应的预测数据。基于预测文本特征Text-I Embedding和第一样本文本Text-i的文本特征Text-I Embedding,计算得到预测损失值Loss,基于预测损失值Loss,对对象生成组件进行训练,在满足预设训练条件的情况下,获得训练得到的图文检索模型Model的模型参数。

获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本,提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本,将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到,利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据,基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件。利用对比学习预训练得到的图文表征组件,提取第一样本数据的数据特征,提升了提取得到的数据特征的准确性和相关性,进而得到预测数据,和第二样本数据对对象生成组件进行训练,进而提升了对对象生成组件的训练效果,提升了训练获得的图文检索模型的模型性能,提升了后续进行中文图文检索的准确性。

可选地,该方法还包括:

获取预训练集,其中,预训练集包括多个预训练中文图文对,预训练中文图文对包括预训练图像和预训练中文文本;

利用图像编码器,提取各预训练图像的图像特征,并利用文本编码器,提取各预训练中文文本的文本特征;

根据各图像特征及各文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件。

本说明书实施例,通过对比学习训练,扩展了训练图像编码器和文本编码器的训练样本,提升了训练效果,并且充分挖掘了图文特征之间的特征相关性,进一步提升了对图像编码器和文本编码器进行训练的训练效果,使得获得的图文表征组件的特征表征具有高准确性和高相关性。

预训练集为预先构建得到的中文图文样本集,预训练集可以为中文开源样本数据库中预先构建的中文图文样本集,预训练集也可以为对获取的匹配的图像和中文文本进行样本集构建得到的,在此不作限定。为了保证对图文表征组件的训练效果,样本集具有大量中文图文对。预训练集来自样本集,也可以不来自样本集,在此不作限定。

预训练中文图文对为匹配的预训练图像和预训练中文文本的预训练中文图文对。

对比学习预训练为根据成对的预训练图像和预训练中文文本以及不成对的预训练图像和预训练中文文本,来对图像编码器和文本编码器进行预训练的方法。例如,预训练集包括10个预训练中文图文对,对于预训练图像Image1,预训练图像Image1和预训练中文文本Text1成对,和其他的预训练中文文本(Text2,Text3,Text4……Text10)都不成对,利用预训练图像Image1和其他预训练图像,来对图像编码器和文本编码器进行预训练,使得图文表征组件可以更准确表征中文文本的文本特征和图像的图像特征以及特征相关性。对比学习训练的核心为扩展了训练图文表征组件的训练样本,来提升训练效果。

对比学习训练包括正向传播和反向传播,在正向传播时,提取得到各预训练图像的图像特征和各预训练中文文本的文本特征,在反向传播时,计算得到图文表征组件的梯度分布。可选地,利用梯度检查点策略,即释放正向传播过程中记录的中间结果,在反向传播时,重新计算得到中间结果,并根据中间结果计算得到图文表征组件的梯度分布,进而节省了存储成本。根据梯度分布,可以确定对图文表征组件的训练策略。

获取预训练集,具体方式为,根据第二训练目标,获取对应于第二训练目标的样本集。第二训练目标为对于图文表征组件的表征能力的期望,例如,对于图文表征组件的模型表征能力的期望为具有“人物图像-人物生平描述的中文文本”之间相关性的表征能力。根据第二训练目标,获取对应于第二训练目标的预训练集,可以保证后续获得的图文表征组件具有针对性的图文表征能力。

利用图像编码器,提取各预训练图像的图像特征,具体方式为,利用图像编码器的特征提取层,提取各预训练图像的图像特征。利用文本编码器,提取各预训练中文文本的文本特征,具体方式为,利用文本编码器的特征提取层,提取各预训练中文文本的文本特征。

根据各图像特征及各文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件,具体方式为,将各预训练图像和各预训练中文文本所属预训练中文图文对作为参考,根据各图像特征以及各文本特征,对图像编码器和文本编码器进行对比学习训练,获得中文图文表征组件。

获取预训练集,其中,预训练集包括多个预训练中文图文对,预训练中文图文对包括预训练图像和预训练中文文本,利用图像编码器,提取各预训练图像的图像特征,并利用文本编码器,提取各预训练中文文本的文本特征,根据各图像特征及各文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件。利用对比学习预训练,扩展了预训练图文表征组件的训练样本,提升了对图像编码器和文本编码器的训练效果,并且充分挖掘了图文特征之间的特征相关性,进一步提升了训练效果,使得获得的图文表征组件的特征表征具有高准确性和高相关性。

可选地,文本编码器为RoBERTa模型。

RoBERTa模型为一种对BERT模型进行适应性调整的神经网络模型,RoBERTa模型由于是对BERT模型的自然语言文本的编码机制进行了调整,更好地实现对中文文本的特征提取。

在本说明书实施例中,RoBERTa模型可以为标准RoBERTa模型,其模型层数为12层,模型参数规模为1.8亿个。RoBERTa模型还可以为非标准RoBERTa模型,例如,设定模型层数为3层,模型参数规模为6400万个。标准RoBERTa模型可以更准确地提取中文文本的文本特征,但由于其模型层数过多,模型参数规模过大,导致其提取效率不足,设备要求更高。上述非标准RoBERTa模型,虽然其提取的文本特征的准确性不如标准RoBERTa模型,但由于其模型层数较少,模型参数规模较小,其提取效率更高,设备要求更低。

通过使用针对于中文文本的RoBERTa模型作为文本编码器,使得提取得到的文本特征更为准确,提升了后续对图文表征组件的训练效果,提升了图文表征组件的准确性,提升了图文检索模型的模型性能,提升了图文检索的准确性。

可选地,图像编码器为Transformer模型。

视觉Transformer模型为一种视觉领域对Transformer模型进行适应性调整的神经网络模型,通过设置特殊的向量映射层,得到为固定维度的图像特征,在此基础上利用Transformer模型进行图像特征提取。其注意力机制使得图像特征的各维度可以表征出当前维度之外其他维度的图像特征,使得图像特征更准确。

在本说明书实施例中,视觉Transformer模型可以设置为模型层数:12层,向量映射维度为768,12个注意力头。视觉Transformer模型还可以设置为模型层数:24层,向量映射维度为1024,模型参数规模为4亿个。前者的模型层数较少,模型参数规模较小,其提取效率更高,设备要求更低,但是提取的图像特征的准确性不如后者。后者模型层数更多,模型参数规模更大,其提取效率更低,设备要求更高,但是提取的图像特征的准确性优于前者。

通过使用具有注意力机制的视觉Transformer模型作为图像编码器,使得提取得到的图像特征更为准确,提升了后续对图文表征组件的训练效果,提升了图文表征组件的准确性,提升了图文检索模型的模型性能,提升了图文检索的准确性。

可选地,图像编码器为ResNet模型。

ResNet模型为一种具有超多层网络结构和残差处理模块的神经网络模型架构,其通过超多层网络结构实现更准确地提取图像特征,同时由于残差处理模块避免了梯度消失和梯度爆炸等稳定性问题。其实现了准确性的同时,保证了图文表征组件的稳定性,保证了对图文表征组件的训练效果。

在本说明书实施例中,ResNet模型为ResNet-50模型。

通过使用具有超多层网络结构和残差处理模块的ResNet模型作为图像编码器,使得提取得到的图像特征更为准确,同时保证了图文表征组件的稳定性,提升了后续对图文表征组件的训练效果,提升了图文表征组件的准确性,提升了图文检索模型的模型性能,提升了图文检索的准确性。

可选地,在根据各图像特征及各文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件之前,还包括如下具体步骤:

对各图像特征及各文本特征进行预处理,其中,预处理包括投影运算和/或标准化操作。

投影运算为将特征投影至预设维度的预处理操作。投影运算的具体方式为,利用预设维度的转置矩阵,对各图像特征及各文本特征进行转置处理,得到预设维度的各图像特征及各文本特征。

标准化操作为对特征的数值进行标准化处理的操作,保证后续聚合的有效性。标准化操作的具体方式可以为,利用预先设置归一化函数,对各图像特征及各文本特征进行归一化处理,得到归一化数值的各图像特征及各文本特征。

对各图像特征及各文本特征进行预处理,其中,预处理包括投影运算和/或标准化操作。使得各图像特征和各文本特征具有格式一致性,保证了后续对图文表征组件的训练效果。

可选地,步骤106包括如下具体步骤:

基于预训练集,构建正例对和负例对;

基于正例对和负例对中预训练图像的图像特征、预训练中文文本的文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件。

目前,对于图文表征组件的训练,使用样本图像和样本中文文本直接进行训练。这样的训练方法未充分利用有限的预训练集中预训练图像和预训练中文文本,来对图文表征组件进行训练。

正例对为具有高度相关性的预训练图像和预训练中文文本。负例对为不具有高相关性的预训练图像和预训练中文文本。例如,预训练图像为A人物20岁的照片、A人物40岁的照片、A人物60岁的照片,预训练中文文本为A人物的人物生平描述的中文文本,则将A人物20岁的照片和A人物的人物生平描述的中文文本构建为正例对,将A人物40岁的照片和A人物的人物生平描述的中文文本构建为正例对,将A人物60岁的照片和A人物的人物生平描述的中文文本构建为正例对。又例如,预训练图像为A人物20岁的照片,预训练中文文本为B人物的人物生平描述的中文文本,则将A人物40岁的照片和B人物的人物生平描述的中文文本构建为负例对。

基于预训练集,构建正例对和负例对,具体方式为,基于预训练图像和预训练中文文本之间的相关性,构建正例对和负例对。

基于预训练集,构建正例对和负例对,基于正例对和负例对中预训练图像的图像特征、预训练中文文本的文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件。充分利用预训练集中预训练图像和预训练中文文本,来对图像编码器和文本编码器进行训练,提升了训练效果,并且充分挖掘了图文特征之间的特征相关性,进一步提升了训练效果,使得得到的图文表征组件的特征表征具有高准确性和高相关性。

可选地,基于预训练集,构建正例对和负例对,包括如下具体步骤:

根据预训练集中属于同一预训练中文图文对的预训练图像和预训练中文文本构建正例对,以及根据预训练集中属于不同预训练中文图文对的预训练图像和预训练中文文本构建负例对。

同一预训练中文图文对的预训练图像和预训练中文文本是匹配的,两者间具有相比其他预训练图像和预训练中文文本更高的相关性,通过根据预训练集中属于同一预训练中文图文对的预训练图像和预训练中文文本构建正例对,保证了正例对具有更高的相关性,提升后续对图像编码器和文本编码器的训练效果,使得得到的图文表征组件的特征表征具有更高的高度相关性。

根据预训练集中属于同一预训练中文图文对的预训练图像和预训练中文文本构建正例对,以及根据预训练集中属于不同预训练中文图文对的预训练图像和预训练中文文本构建负例对。充分利用预训练集中预训练图像和预训练中文文本,由于正例对的预训练图像和预训练中文文本属于同一中文图文对,有更高的相关性,提升了训练效果,并且更充分挖掘了图文特征之间的特征相关性,进一步提升了训练效果,使得得到的图文表征组件的特征表征具有更高的准确性和更高的相关性。

可选地,基于正例对和负例对中预训练图像的图像特征、预训练中文文本的文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件,包括如下具体步骤:

根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布,其中,第一预训练中文文本与第一预训练图像属正例对,第二预训练中文文本与第一预训练图像属负例对,第一预训练图像为任一预训练图像;

根据第一预训练中文文本的文本特征、第一预训练图像的图像特征以及第二预训练图像的图像特征,计算第一预训练中文文本的相似度分布,其中,第二预训练图像与第一预训练中文文本属负例对;

基于第一预训练图像的相似度分布和第一预训练中文文本的相似度分布,计算对比学习损失值;

基于对比学习损失值,对图像编码器和文本编码器进行调参,并返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,直至达到预设训练停止条件,获得训练后的图像编码器和文本编码器组成的图文表征组件。

预设训练条件为预先设定的迭代训练停止条件,可以为预设迭代次数,也可以为预设对比学习损失值阈值,在此不作限定。

根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布,具体方式为,利用第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征进行特征相似度计算,得到第一预训练图像的相似度分布。更进一步地,计算的具体方式为利用预设相似度计算方法,例如,内积运算方法、距离相似度计算方法(欧式距离相似度计算方法、切里舍夫相似度计算方法、曼哈顿距离相似度计算方法、最小编辑距离相似度计算方法等)、余弦相似度计算方法等。

根据第一预训练中文文本的文本特征、第一预训练图像的图像特征以及第二预训练图像的图像特征,计算第一预训练中文文本的相似度分布,具体方式为,利用第一预训练中文文本的文本特征、第一预训练图像的图像特征以及第二预训练图像的图像特征进行特征相似度计算,得到第一预训练中文文本的相似度分布。更进一步地,计算的具体方式为利用预设相似度计算方法,例如,点积运算方法(余弦相似度计算方法)、距离相似度计算方法(欧式距离相似度计算方法、切里舍夫相似度计算方法、曼哈顿距离相似度计算方法、最小编辑距离相似度计算方法等)。

基于第一预训练图像的相似度分布和第一预训练中文文本的相似度分布,计算对比学习损失值,具体方式为,利用预设的对比学习损失值计算公式,对第一预训练图像的相似度分布和第一预训练中文文本的相似度分布进行计算,得到对比学习损失值。具体的对比学习损失值计算公式如下:

Loss=αLoss1+βLoss2 公式1

其中,Loss表征对比学习损失值,Loss1表征第一预训练图像的对比学习损失值,Loss2表征第一预训练中文文本的对比学习损失值,α表征第一预训练图像的对比学习损失值的预设权重,β表征第一预训练中文文本的对比学习损失值的预设权重。

其中,Lossn表征第一预训练图像的对比学习损失值或者第一预训练中文文本的对比学习损失值,f()表征预设相似度计算方法。当n=1时表征第一预训练图像的对比学习损失值,q表征第一预训练图像的图像特征,k

基于对比学习损失值,对图像编码器和文本编码器进行调参,具体方式为,基于对比学习损失值,计算得到图像编码器和文本编码器的梯度分布,根据图像编码器和文本编码器的梯度分布,对图像编码器和文本编码器进行调参。更进一步地,基于对比学习损失值,计算得到图像编码器和文本编码器的梯度分布,利用反向传播过程,计算得到图像编码器和文本编码器的梯度分布。更进一步地,根据图像编码器和文本编码器的梯度分布,利用梯度更新方法,对图像编码器和文本编码器进行调参。

示例性地,利用距离相似度计算方法对第一预训练图像的图像特征ImageEmbedding(+)、第一预训练中文文本的文本特征Text Embedding(+)以及第二预训练中文文本的文本特征Text Embedding(-)进行特征相似度计算,得到第一预训练图像的相似度分布,再利用公式2计算得到第一预训练图像的对比学习损失值。利用距离相似度计算方法对第一预训练中文文本的文本特征Text Embedding(+)、第一预训练图像的图像特征ImageEmbedding(+)以及第二预训练图像的图像特征Image Embedding(-)进行特征相似度计算,得到第一预训练中文文本的相似度分布。利用公式1对第一预训练图像的相似度分布和第一预训练中文文本的相似度分布进行计算,得到对比学习损失值Loss,基于对比学习损失值Loss,计算得到图像编码器和文本编码器的梯度分布

根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布,根据第一预训练中文文本的文本特征、第一预训练图像的图像特征以及第二预训练图像的图像特征,计算第一预训练中文文本的相似度分布,基于第一预训练图像的相似度分布和第一预训练中文文本的相似度分布,计算对比学习损失值,基于对比学习损失值,对图像编码器和文本编码器进行调参,并返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,直至达到预设训练停止条件,获得图文表征组件。通过计算第一预训练图像的相似度分布和第一预训练中文文本的相似度分布,并计算得到对比学习损失值,来对图像编码器和文本编码器进行调参,依据对比学习损失值调参,提升了训练效果,返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,并在达到预设训练停止条件时,获得图文表征组件,这样的迭代训练,充分利用了预训练集中的预训练图像和预训练中文文本,提升了训练效果,使得得到的图文表征组件的特征表征具有高准确性和高相关性。

可选地,根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布,包括如下具体步骤:

利用第一预训练图像的图像特征,对第一预训练中文文本的文本特征、第二预训练中文文本的文本特征进行内积运算,得到第一预训练图像的相似度分布;

根据第一预训练中文文本的文本特征、第一预训练图像的图像特征以及第二预训练图像的图像特征,计算第一预训练中文文本的相似度分布,包括:

利用第一预训练中文文本的文本特征,对第一预训练图像的图像特征、第二预训练图像的图像特征进行内积运算,得到第一预训练中文文本的相似度分布。

内积运算为对特征进行点乘运算,例如,特征1为a,特征2为b,两者的内积为a·b。

对应地,基于内积运算,将公式2调整为公式3,公式3如下:

其中,Lossn表征第一预训练图像的对比学习损失值或者第一预训练中文文本的对比学习损失值。当n=1时表征第一预训练图像的对比学习损失值,q表征第一预训练图像的图像特征,k

利用第一预训练图像的图像特征,对第一预训练中文文本的文本特征、第二预训练中文文本的文本特征进行内积运算,得到第一预训练图像的相似度分布,利用第一预训练中文文本的文本特征,对第一预训练图像的图像特征、第二预训练图像的图像特征进行内积运算,得到第一预训练中文文本的相似度分布。通过内积运算可以快速得到相似度分布,提升了后续计算对比学习损失值的效率,进而提升了训练效率。

可选地,基于对比学习损失值,对图像编码器和文本编码器进行调参,包括如下具体步骤:

基于对比学习损失值,对文本编码器进行调参,并保持图像编码器的参数不变,返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤;

在对比学习损失值的变化幅度小于预设幅度阈值的情况下,基于对比学习损失值,对文本编码器和图像编码器进行调参,返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,直至达到预设训练停止条件,获得训练后的图像编码器和文本编码器组成的图文表征组件。

基于对比学习损失值,同时对图像编码器和文本编码器进行调参,这样的调参方式,会陷入局部最优,使得图像编码器和文本编码器之间的特征提取能力一致性不足,导致训练得到的图文表征组件的特征表征的相关性不足,因而,优先对文本编码器进行调参,保证文本编码器稳定后,再对文本编码器和图像编码器进行调参,保证了训练得到的图文表征组件的特征表征的高相关性。同时,为了避免陷入局部最优,同时对图像编码器和文本编码器进行调参,需要反复调整来保证特征提取能力一致性,导致训练效率不足,本说明书实施例中的调参方式可以提升模型训练效率。

对比学习损失值的变化幅度小于预设幅度阈值,表征文本编码器的特征提取能力已经稳定。

基于对比学习损失值,对文本编码器进行调参,并保持图像编码器的参数不变,返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,在对比学习损失值的变化幅度小于预设幅度阈值的情况下,基于对比学习损失值,对文本编码器和图像编码器进行调参,返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,直至达到预设训练停止条件,获得图文表征组件。保证了图像编码器和文本编码器之间的特征提取能力一致性,保证了训练得到的图文表征组件的特征表征的高相关性,同时提升模型训练效率。

可选地,利用图像编码器,提取各预训练图像的图像特征,并利用文本编码器,提取各预训练中文文本的文本特征,包括如下具体步骤:

将预训练集划分为多个预训练子集;

将多个预训练子集分别发送至各计算单元,对各计算单元的图文表征组件进行预处理;

对各计算单元预处理后的图文表征组件进行聚合处理;

获取各计算单元利用聚合处理后的图文表征组件提取的各预训练图像的图像特征和各中文预训练文本的文本特征。

利用大规模的预训练集对单个图文表征组件进行预处理,预处理需要耗费大量时间,通过将预训练集划分为多个预训练子集后,发送至各计算单元来对图文表征组件进行并行的预处理,可以提升预处理效率,然而,由于将预训练集划分为预训练子集,中文图文对数量的减少,使得单个图文表征组件的预处理效果会下降,导致获得的图文表征组件的特征表征准确性和相关性下降,因而需要对各计算单元的图文表征组件进行聚合处理,保证图文表征组件训练的一致性。

各计算单元为进行图文表征组件预处理的硬件计算单元,可以为CPU(CentralProcessing Unit,中央处理单元),也可以为GPU(Graphic Processing Unit,图像处理单元)。硬件计算单元可以为本地硬件计算单元,也可以为远程分布式硬件计算单元,本说明书实施例以图像处理单元为例进行说明。图文表征组件在各计算单元上进行预处理和对比学习训练。

将预训练集划分为多个预训练子集,具体方式为,根据计算单元的数量,将预训练集划分为对应数量的预训练子集。划分的方式可以为平均划分,也可以为非平均划分,在此不作限定。

将多个预训练子集分别发送至各计算单元,对各计算单元的图文表征组件进行预处理之后,还包括:

得到各计算单元的图文表征组件的梯度分布。

对各计算单元预训练后的图文表征组件进行聚合处理,具体方式为,根据各计算单元的图文表征组件的梯度分布,对各计算单元预处理后的图文表征组件进行聚合处理。更进一步地,利用聚合处理后得到的聚合梯度,对各计算单元的图文表征组件进行调参。

由于预训练子集的预训练中文图文对之间的差异,导致各计算单元的图文表征组件的模型参数存在一定差异,根据梯度分布,对各计算单元预处理后的图文表征组件进行聚合处理,使得各计算单元预处理后的图文表征组件具有一致性,使得图文表征组件的模型性能保持稳定,使得提取得到的各预训练图像的图像特征和各预训练中文文本的文本特征存在一致性,保证了后续训练的训练效果。

示例性地,预训练集包括1000个预训练中文图文对,计算单元为图像处理单元,数量为10个,将预训练集均匀划分为10个预训练子集,每个预训练子集包括100个预训练中文图文对,将10个预训练子集分别发送至各图像处理单元,对各图像处理单元的图文表征组件进行预处理,得到各图像处理单元的图文表征组件的梯度分布

将预训练集划分为多个预训练子集,将多个预训练子集分别发送至各计算单元,对各计算单元的图文表征组件进行预处理,对各计算单元预处理后的图文表征组件进行聚合处理,获取各计算单元利用聚合处理后的图文表征组件提取的各预训练图像的图像特征和各预训练中文文本的文本特征。通过将预训练集划分为多个预训练子集,并发送至各计算单元进行预处理,这样的并行预处理方式,提升了预处理的处理效率,并且通过对各计算单元预处理后的图文表征组件进行聚合处理,保证了预处理得到图文表征组件的一致性,保证了后续的训练效果,保证了训练得到的图文表征组件的特征表征的高准确性和高相关性。

可选地,步骤102包括如下具体步骤:

接收用户通过前端输入的检索请求,其中,检索请求携带源对象;

对应地,在步骤106之后,还包括如下具体步骤:

将目标对象反馈至前端进行显示。

前端为运行图文表征组件和对象生成组件的客户端前端,前端包括可视化前端设备。可视化前端设备为前端上的可视化前端交互显示设备,可以根据用户的交互信息获得源对象,并显示源对象和检索得到的目标对象。

检索请求为对用户通过前端输入的、对源对象进行检索的请求。包括:前端的标识信息,源对象等。

将目标对象反馈至前端进行显示,具体方式为,将目标对象反馈至前端,以使前端在可视化前端设备显示目标对象

接收用户通过前端输入的检索请求,其中,检索请求携带源对象,将目标对象反馈至前端进行显示。通过接收用户通过前端输入的携带源对象的检索请求,为后续检索得到目标对象提供了索引基础,将目标对象反馈至前端进行显示,直接对目标对象进行了可视化显示,方便了用户直接观察到检索结果,提升了用户体验。

可选地,在将目标对象反馈至前端进行显示之后,还包括如下具体步骤:

接收前端反馈的检索评价信息,其中,检索评价信息是用户基于显示的目标对象进行评价生成的;

基于检索评价信息,对图文表征组件和对象生成组件进行调整。

检索评价信息为用户基于显示的目标对象,对目标对象的准确度进行评价生成的信息。

示例性地,用户基于显示的目标对象:人物C的照片,对人物C的照片评价为“不是源对象:人物C的人物生平描述的中文文本对应的人物C的照片”,生成检索评价信息Assess_Info:“不是源对象对应的目标对象”,基于检索评价信息Assess_Info,对图文表征组件和对象生成组件进行调整.

接收前端反馈的检索评价信息,其中,检索评价信息是用户基于显示的目标对象进行评价生成的,基于检索评价信息,对图文表征组件和对象生成组件进行调整。通过用户评价,得到检索评价信息,对图文表征组件和对象生成组件进行反馈调整,提升了图文表征组件和对象生成组件的准确度。

可选地,在步骤104之前,还包括如下具体步骤:

获取组件选择指令,其中,组件选择指令携带有图文表征组件的组件规格;

根据组件规格,从多个图文表征组件中选择指定的图文表征组件。

出于硬件设备的设备性能考虑,预先配置有多个不同模型规模的图文表征组件。

本说明书实施例中,组件规格按照组件参数规模和层数划分为了小规格,标准规格和大规格。标准规格的图像编码器为视觉Transformer模型,层数为12层,向量映射维度为768,12个注意力头,文本编码器为标准RoBERTa模型,层数为12层,组件参数规模为1.8亿个。小规格的图像编码器为ResNet-50模型,文本编码器为非标准RoBERTa模型,层数为3层,组件参数规模为6400万个。大规格的图像编码器为视觉Transformer模型,层数为24层,向量映射维度为1024,组件参数规模为4亿个,文本编码器为标准RoBERTa模型,层数为12层,组件参数规模为1.8亿个。

获取组件选择指令,具体方式为,接收用户输入的组件选择指令。

示例性地,接收用户通过前端输入的组件选择指令Mode_Select,其中,组件选择指令Mode_Select携带有图文表征组件的组件规格:标准规格,根据组件规格:标准规格,从小规格图文表征组件,标准规格图文表征组件和大规格图文表征组件中确定标准规格图文表征组件。

获取组件选择指令,其中,组件选择指令携带有图文表征组件的组件规格,根据组件规格,从多个图文表征组件中选择指定的图文表征组件。使得图文表征组件的更符合实际运行环境,保证了图文表征组件的运行稳定性。

图4示出了本说明书一个实施例提供的一种中文图文检索方法的前端显示示意图。

如图4所示,在前端显示页面上,设置有文本输入框、“添加图像”控件组和检索控件,用户通过在文本输入框输入中文文本的待源对象,或者,点击“添加图像”控件组来输入图像的待源对象后,点选检索控件,利用图文表征组件和对象生成组件,获得目标对象并进行显示。

参见图5,图5示出了本说明书一个实施例提供的一种中文图文检索的数据处理方法的流程图,应用于云侧设备,具体包括如下步骤。

步骤502:获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本。

步骤504:提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本。

步骤506:将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到。

步骤508:利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据。

步骤510:基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件。

步骤512:向端侧设备发送训练得到的图文检索模型的模型参数。

云侧设备为可以进行神经网络模型训练的服务端。

端侧设备为可以运行训练完成的图文检索模型的客户端。

步骤502-步骤512已经在上述说明书实施例中进行详细说明,在此不再赘述。

本说明书实施例中,获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本,提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本,将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到,利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据,基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件,向端侧设备发送训练得到的图文检索模型的模型参数。利用对比学习预训练得到的图文表征组件,提取第一样本数据的数据特征,提升了提取得到的数据特征的准确性和相关性,进而得到预测数据,和第二样本数据对对象生成组件进行训练,进而提升了对对象生成组件的训练效果,提升了训练获得的图文检索模型的模型性能,将训练完成的图文检索模型发送给端侧设备,提升了后续进行中文图文检索的准确性,提升了用户体验。

图6示出了本说明书一个实施例提供的一种中文图文检索的数据处理方法的数据流向图。

如图6所示,在云侧设备602上,首先获取样本集,其次提取任一样本中文图文对中的第一样本数据,接着将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,然后利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据,继而基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,最后向端侧设备604发送训练得到的图文检索模型的模型参数。

下述结合附图7,以本说明书提供的中文图文检索方法在生物图像检索的应用为例,对所述中文图文检索方法进行进一步说明。其中,图7示出了本说明书一个实施例提供的一种应用于生物图像检索的中文图文检索方法的处理过程流程图,具体包括如下步骤。

步骤702:从中文开源样本数据库获取预先构建的样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括多种生物的生物图像和多种生物的生物特性描述的中文文本;

步骤704:将样本集划分为多个样本子集;

步骤706:将多个样本子集分别发送至各图像处理单元,对各图像处理单元的图文表征组件进行预处理;

步骤708:对各图像处理单元预处理后的图文表征组件进行聚合处理;

步骤710:利用各图像处理单元聚合处理后的图文表征组件的图像编码器和文本编码器,对各样本子集中的生物图像和生物特性描述的中文文本进行特征提取,得到各生物图像的图像特征和各生物特性描述的中文文本的文本特征;

步骤712:对各图像特征及各文本特征进行预处理;

步骤714:将属于同一中文图文对的生物图像和生物特性描述的中文文本确定为正例对,并将不属于同一中文图文对的生物图像和生物特性描述的中文文本确定为负例对;

步骤716:利用第一生物图像的图像特征,对第一生物特性描述的中文文本的文本特征、第二生物特性描述的中文文本的文本特征进行内积运算,得到第一生物图像的相似度分布;

其中,第一生物特性描述的中文文本与第一生物图像属正例对,第二生物特性描述的中文文本与第一生物图像属负例对,第一样本图像为任一生物图像;

步骤718:利用第一生物特性描述的中文文本的文本特征,对第一生物图像的图像特征、第二生物图像的图像特征进行内积运算,得到第一生物特性描述的中文文本的相似度分布;

其中,第二生物图像与第一生物特性描述的中文文本属负例对;

步骤720:基于对比学习损失值,对文本编码器进行调参,并保持图像编码器的参数不变,返回执行利用第一生物图像的图像特征,对第一生物特性描述的中文文本的文本特征、第二生物特性描述的中文文本的文本特征进行内积运算,得到第一生物图像的相似度分布的步骤;

步骤722:在对比学习损失值的变化幅度小于预设幅度阈值的情况下,基于对比学习损失值,对文本编码器和图像编码器进行调参,返回执行利用第一生物特性描述的中文文本的文本特征,对第一生物图像的图像特征、第二生物图像的图像特征进行内积运算,得到第一生物特性描述的中文文本的相似度分布的步骤,直至达到预设训练停止条件,获得目标图文表征组件;

步骤724:利用目标图文表征组件对样本中文图文对进行特征提取,获得各生物图像的图像特征以及各生物特性描述的中文文本的文本特征;

步骤726:根据各生物图像的图像特征以及各生物特性描述的中文文本的文本特征,对对象生成组件进行模型训练,获得图文检索模型;

步骤728:接收用户通过前端输入的待检索生物图像;

步骤730:利用图文检索模型,对待检索生物图像进行检索,获得待检索生物图像中生物的生物特性描述的中文文本;

步骤732:将待检索生物图像中生物的生物特性描述的中文文本,反馈至前端进行显示。

本说明书实施例中,针对中文图文的多模态场景,利用对比学习训练,扩展了训练图文表征组件的训练样本,提升了组件的训练效果,并且充分挖掘了图文特征之间的特征相关性,进一步提升了训练效果,使得得到的图文表征组件的特征表征具有高准确性和高相关性。利用训练得到的图文表征组件来进行样本中文图文对的特征提取,提升了各样本图像的图像特征以及各样本中文文本的文本特征的准确性和相关性,进而提升了对对象生成组件的训练效果,提升了训练获得的图文检索模型的检索准确性。利用训练得到的图文检索模型来进行中文图文检索,由于图文检索模型的检索准确性,因而提升了检索获得的目标对象与源对象之间的相关性,提升了检索的准确性,提升了用户体验。

与上述方法实施例相对应,本说明书还提供了中文图文检索装置实施例,图8示出了本说明书一个实施例提供的一种中文图文检索装置的结构示意图。如图8所示,该装置包括:

第一获取模块802,被配置为获取源对象,其中,源对象为源中文文本或源图像;

第一特征提取模块804,被配置为将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到;

第一生成模块806,被配置为利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。

可选地,该装置还包括:

模型训练模块,被配置为获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本;提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本;将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到;利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据;基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件。

可选地,该装置还包括:

组件训练模块,被配置为获取预训练集,其中,预训练集包括多个预训练中文图文对,预训练中文图文对包括预训练图像和预训练中文文本;利用图像编码器,提取各预训练图像的图像特征,并利用文本编码器,提取各预训练中文文本的文本特征;根据各图像特征及各文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件。

可选地,该装置还包括:

预处理模块,被配置为对各图像特征及各文本特征进行预处理,其中,预处理包括投影运算和/或标准化操作。

可选地,组件训练模块被进一步配置为:

基于预训练集,构建正例对和负例对;基于正例对和负例对中预训练图像的图像特征、预训练中文文本的文本特征,对图像编码器和文本编码器进行对比学习训练,获得图文表征组件。

可选地,组建训练模块被进一步配置为:

根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布,其中,第一预训练中文文本与第一预训练图像属正例对,第二预训练中文文本与第一预训练图像属负例对,第一预训练图像为任一预训练图像;根据第一预训练中文文本的文本特征、第一预训练图像的图像特征以及第二预训练图像的图像特征,计算第一预训练中文文本的相似度分布,其中,第二预训练图像与第一预训练中文文本属负例对;基于第一预训练图像的相似度分布和第一预训练中文文本的相似度分布,计算对比学习损失值;基于对比学习损失值,对图像编码器和文本编码器进行调参,并返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,直至达到预设训练停止条件,获得训练后的图像编码器和文本编码器组成的图文表征组件。

可选地,组建训练模块被进一步配置为:

基于对比学习损失值,对文本编码器进行调参,并保持图像编码器的参数不变,返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤;在对比学习损失值的变化幅度小于预设幅度阈值的情况下,基于对比学习损失值,对文本编码器和图像编码器进行调参,返回执行根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算第一预训练图像的相似度分布的步骤,直至达到预设训练停止条件,获得训练后的图像编码器和文本编码器组成的图文表征组件。

可选地,组件训练模块被进一步配置为:

将预训练集划分为多个预训练子集;将多个预训练子集分别发送至各计算单元,对各计算单元的图文表征组件进行预处理;对各计算单元预处理后的图文表征组件进行聚合处理;获取各计算单元利用聚合处理后的图文表征组件提取的各预训练图像的图像特征和各预训练中文文本的文本特征。

可选地,第一获取模块802被进一步配置为:

接收用户通过前端输入的检索请求,其中,检索请求携带源对象;

对应地,该装置还包括:

显示模块,被配置为将目标对象反馈至前端进行显示。

可选地,该装置还包括:

评价调整模块,被配置为接收前端反馈的检索评价信息,其中,检索评价信息是用户基于显示的目标对象进行评价生成的;基于检索评价信息,对图文表征组件和对象生成组件进行调整。

可选地,该装置还包括:

规格选择模块,被配置为获取组件选择指令,其中,组件选择指令携带有图文表征组件的组件规格;根据组件规格,从多个图文表征组件中选择指定的图文表征组件。

本说明书实施例中,获取源对象,其中,源对象为源中文文本或源图像,将源对象输入图文表征组件,对源对象进行特征提取,获得源对象的对象特征,其中,图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到,利用对象生成组件,基于对象特征进行图文转换,生成源对象对应的目标对象。针对中文图文的多模态检索场景,利用对比学习训练得到的图文表征组件,提升了对图文表征组件的训练效果,充分挖掘了图文特征之间的特征相关性,获得更准确的源对象的对象特征,来进行图文转换,生成源对象对应的目标对象,提升了中文图文检索的准确性。

上述为本实施例的一种中文图文检索装置的示意性方案。需要说明的是,该中文图文检索装置的技术方案与上述的中文图文检索方法的技术方案属于同一构思,中文图文检索装置的技术方案未详细描述的细节内容,均可以参见上述中文图文检索方法的技术方案的描述。

与上述方法实施例相对应,本说明书还提供了中文图文检索的数据处理装置实施例,图9示出了本说明书一个实施例提供的一种中文图文检索的数据处理装置的结构示意图。如图9所示,该装置包括:

第二获取模块902,被配置为获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本;

提取模块904,被配置为提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本;

第二特征提取模块906,被配置为将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到;

图文转换模块908,被配置为利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据;

训练模块910,被配置为基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件;

发送模块912,被配置为向端侧设备发送训练得到的图文检索模型的模型参数。

本说明书实施例中,获取样本集,其中,样本集包括多个样本中文图文对,样本中文图文对包括样本图像和样本中文文本,提取任一样本中文图文对中的第一样本数据,其中,第一样本数据为样本图像或样本中文文本,将第一样本数据输入图文表征组件,对第一样本数据进行特征提取,获得第一样本数据的数据特征,其中,图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到,利用对象生成组件,基于第一样本数据的数据特征进行图文转换,得到第一样本数据对应的预测数据,基于预测数据和第二样本数据,对对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,第二样本数据为任一样本中文图文对中第一样本数据以外的另一样本数据,图文检索模型包括图文表征组件和对象生成组件,向端侧设备发送训练得到的图文检索模型的模型参数。利用对比学习预训练得到的图文表征组件,提取第一样本数据的数据特征,提升了提取得到的数据特征的准确性和相关性,进而得到预测数据,和第二样本数据对对象生成组件进行训练,进而提升了对对象生成组件的训练效果,提升了训练获得的图文检索模型的模型性能,将训练完成的图文检索模型发送给端侧设备,提升了后续进行中文图文检索的准确性,提升了用户体验。

上述为本实施例的一种中文图文检索的数据处理装置的示意性方案。需要说明的是,该中文图文检索的数据处理装置的技术方案与上述的中文图文检索的数据处理方法的技术方案属于同一构思,中文图文检索的数据处理装置的技术方案未详细描述的细节内容,均可以参见上述中文图文检索的数据处理方法的技术方案的描述。

图10示出了根据本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接,数据库1050用于保存数据。

计算设备1000还包括接入设备1040,接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括PSTN(Public Switched TelephoneNetwork,公用交换电话网)、LAN(Local Area Network,局域网)、WAN(Wide Area Network,广域网)、PAN(Personal Area Network,个域网)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如,NIC(Network InterfaceController,网络接口卡))中的一个或多个,诸如IEEE802.12 WLAN(Wireless Local AreaNetworks,无线局域网)无线接口、Wi-MAX(World Interoperability for MicrowaveAccess,全球微波互联接入)接口、以太网接口、USB(Universal Serial Bus,通用串行总线)接口、蜂窝网络接口、蓝牙接口、NFC(Near Field Communication,近场通信)接口,等等。

在本说明书的一个实施例中,计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图10所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC(Personal Computer,个人计算机)的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

其中,处理器1020用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述中文图文检索方法或者中文图文检索的数据处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的中文图文检索方法和中文图文检索的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述中文图文检索方法或者中文图文检索的数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述中文图文检索方法或者中文图文检索的数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的中文图文检索方法和中文图文检索的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述中文图文检索方法或者中文图文检索的数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述中文图文检索方法或者中文图文检索的数据处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的中文图文检索方法和中文图文检索的数据处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述中文图文检索方法或者中文图文检索的数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、电载波信号、电信信号以及软件分发介质等。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号