首页> 中国专利> 基于神经网络的多模态互补服装搭配方法、系统及介质

基于神经网络的多模态互补服装搭配方法、系统及介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了基于神经网络的多模态互补服装搭配方法、系统及介质，从服装的图片中获取视觉特征，从服装的文字描述中获取文本特征；利用自编码器学习不同服装的视觉特征和文本特征的兼容性空间，得到视觉特征的隐含表示和文本特征的隐含表示；建立重建向量分别与输入特征之间的关系模型；建立服装兼容性模型；然后，基于服装兼容性模型，采用贝叶斯个性化排序算法构建兼容性偏好模型；建立视觉特征隐含表示和文本特征隐含表示的一致性模型；然后，建立服装的多模态隐含特征一致性模型；构建基于深度神经网络的多模态互补服装搭配模型；对已经构建的多模态互补服装搭配模型进行训练；利用已经训练好的多模态互补服装搭配模型进行服装搭配推荐。

著录项

公开/公告号CN108960959A

专利类型发明专利
公开/公告日2018-12-07

原文格式PDF
申请/专利权人山东大学;
展开▼

申请/专利号CN201810501840.4
发明设计人刘金环;宋雪萌;马军;甘甜;聂礼强;
展开▼

申请日2018-05-23
分类号G06Q30/06(20120101);G06N3/02(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人黄海丽
地址 250101 山东省济南市高新区舜华路中段
入库时间 2023-06-19 07:35:41

法律信息

法律状态公告日

法律状态信息

法律状态
2020-05-12

授权

授权
2019-01-01

实质审查的生效 IPC(主分类):G06Q30/06 申请日:20180523

实质审查的生效
2018-12-07

公开

公开

说明书

技术领域

本发明涉及基于神经网络的多模态互补服装搭配方法、系统及介质。

背景技术

现如今，除了对服装的生理需求外，越来越多的人们开始注重和追寻穿着的时尚、优雅、大方得体等等。然而，并不是每个人对服装搭配都有很好的品味。当面对海量的服装商品时，很多人会感到服装搭配非常的困难和厌烦。因此，我们开发一套有效的服装搭配方案来帮助人们为给定的服装找出协调又时尚的搭配。当前的服装搭配技术主要包括基于协同过滤的方法和基于内容的方法。其中，前者通过具有相似品味和偏好的用户历史行为进行推荐，如：用户的购买行为，用户对商品的文本描述和其它用户的点击购买行为等。这种方法存在冷启动的问题，即无法为一个没有任何相关历史行为的物品或用户进行推荐。后者基于物品间的视觉兼容性进行推荐。这种方法通常只考虑物品的视觉信息，不能全面的对物品之间的兼容性进行建模。另外，在服装搭配过程中还存在着稀疏性的问题。

发明内容

为了解决现有技术的不足，本发明提供了基于神经网络的多模态互补服装搭配方法、系统及介质，可以有效解决服装之间的稀疏性问题，并且可以通过挖掘物品的多模态关系全面的对不同服装间的兼容性进行建模。

作为本发明的第一方面，提供了基于神经网络的多模态互补服装搭配方法；

基于神经网络的多模态互补服装搭配方法，包括：

步骤(1)：从服装的图片中获取视觉特征，同时，从服装的文字描述中获取文本特征；

步骤(2)：利用自编码器学习不同服装的视觉特征和文本特征的兼容性空间，得到视觉特征的隐含表示和文本特征的隐含表示；

步骤(3)：利用多重解码器将步骤(2)得到的视觉特征的隐含表示和文本特征的隐含表示解码为重建向量；建立重建向量分别与输入特征之间的关系模型；

步骤(4)：基于步骤(2)得到的视觉特征的隐含表示和文本特征的隐含表示，建立服装兼容性模型；然后，基于服装兼容性模型，采用贝叶斯个性化排序算法构建兼容性偏好模型；

步骤(5)：基于步骤(2)得到的视觉特征的隐含表示和文本特征的隐含表示，建立视觉特征隐含表示和文本特征隐含表示的一致性模型；然后，建立服装的多模态隐含特征一致性模型；

步骤(6)：基于步骤(3)、步骤(4)和步骤(5)的计算结果，构建基于深度神经网络的多模态互补服装搭配模型；对已经构建的多模态互补服装搭配模型进行训练；利用已经训练好的多模态互补服装搭配模型进行服装搭配推荐。

作为本发明的进一步改进，步骤(1)中：

所述服装，包括：上衣、下衣和鞋子；

所述服装的图片，是指上衣、下衣或鞋子的彩色图片；

所述服装的文字描述，包括：服装的样式、功能和类别；

所述视觉特征，包括：上衣的视觉特征、下衣的视觉特征和鞋子的视觉特征；

所述文本特征，包括：上衣的文本特征、下衣的文本特征和鞋子的文本特征；

作为本发明的进一步改进，步骤(1)中：

所述从服装的图片中获取视觉特征，是通过深度卷积神经网络从服装的图片中获取视觉特征；

所述从服装的文字描述中获取文本特征，是通过词袋模型从服装的文字描述中获取文本特征。

作为本发明的进一步改进，步骤(2)中：

将上衣t_i的视觉特征上衣t_i的文本特征下衣b_j的视觉特征下衣b_j的文本特征鞋子s_k的视觉特征和鞋子s_k的文本特征输入到自编码器的编码器中；输出上衣t_i的视觉隐含表示上衣t_i的文本隐含表示下衣b_j的视觉隐含表示下衣的文本隐含表示鞋子s_k的视觉隐含表示和鞋子s_k的文本隐含表示

作为本发明的进一步改进，步骤(3)中：

通过自编码器的解码器，将上衣t_i的视觉隐含表示上衣t_i的文本隐含表示下衣b_j的视觉隐含表示下衣的文本隐含表示鞋子s_k的视觉隐含表示鞋子s_k的文本隐含表示解码为上衣t_i的视觉重建向量上衣t_i的文本重建向量下衣b_j的重建向量下衣的重建向量鞋子s_k的视觉重建向量鞋子s_k的文本重建向量

作为本发明的进一步改进，步骤(3)中：建立重建向量与输入特征之间的关系模型的步骤为：

其中，l_AE(x)表示服装x重建向量与视觉特征和文本特征之间的关系模型；l(v_x)表示服装x的视觉重建向量与视觉特征的重建误差；l(c_x)表示服装x的文本重建向量与文本特征的重建误差；表示服装x的视觉重建向量；v_x表示服装x的视觉特征；表示服装x的文本重建向量；c_x表示服装x的文本特征；

建立整个服装的重建向量与输入特征之间的关系模型：

l_AE＝l_AE(t_i)+l_AE(b_j)+l_AE(s_k)。

作为本发明的进一步改进，步骤(4)中：建立服装兼容性模型comp_ijk：

comp_ijk＝comp_ik+comp_jk；

其中，comp_ik表示上衣和鞋子的兼容性模型；comp_jk表示下衣和鞋子的兼容性模型；

作为本发明的进一步改进，步骤(4)中：基于服装兼容性模型，采用贝叶斯个性化排序算法构建兼容性偏好模型l_bpr：

其中，表示上衣和下衣对正例鞋子的兼容性偏好，表示上衣和下衣对负例鞋子的兼容性偏好；表示神经网络的阈值函数；(i,j,k₊,k_-)表示上衣t_i和下衣b_j相对于鞋子来说更适合与鞋子搭配。

作为本发明的进一步改进，步骤(5)中：视觉特征隐含表示和文本特征隐含表示的一致性模型l_vc(t_i)：

其中，表示神经网络的阈值函数；表示服装t_i的视觉特征隐含表示；表示服装t_i的文本特征隐含表示。

作为本发明的进一步改进，步骤(5)中：服装的多模态隐含特征一致性模型l_mod：

其中，l_vc(t_i)表示上衣视觉特征隐含表示和文本特征隐含表示的一致性模型；l_vc(b_j)表示下衣视觉特征隐含表示和文本特征隐含表示的一致性模型；表示正例鞋子视觉特征隐含表示和文本特征隐含表示的一致性模型；表示负例鞋子视觉特征隐含表示和文本特征隐含表示的一致性模型。

作为本发明的进一步改进，步骤(6)中：基于深度神经网络的多模态互补服装搭配模型：

L＝l_AE+l_mod+l_bpr；

作为本发明的进一步改进，步骤(6)中：对已经构建的多模态互补服装搭配模型参数通过随机梯度下降方法进行训练，通过迭代至该模型收敛，输出最终参数。

作为本发明的进一步改进，步骤(6)中：利用已经训练好的基于深度神经网络的多模态互补服装搭配进行服装搭配推荐：

通过训练好的最终参数，计算所有comp_ijk的值；

其中comp_ijk最大的值所对应的鞋子即为上衣和下衣最为搭配的鞋子。

作为本发明的第二方面，提供了基于神经网络的多模态互补服装搭配系统；

基于神经网络的多模态互补服装搭配系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

1、基于深度神经网络的多模态互补服装搭配方法可以对多个互补商品进行搭配；

2、该方法可以无缝的挖掘商品间的多模态信息(即视觉和文本模态)；

3、该模型可有效解决服装的稀疏性问题；

4、该模型可以有效对多个服装间的搭配偏好进行兼容性建模。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明的流程图；

图2是本发明中用到的商品多模态信息，包含服装的图片，类别层次结构和标题描述；

图3(a)是最流行的上衣和下衣类别搭配；

图3(b)是最流行的下衣和鞋子类别搭配。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

主要包括以下内容：

通过深度卷积神经网络和词袋模型挖掘商品的多模态信息(即视觉模态和文本模态)；

通过多重自编码器神经网络学习多模态商品潜在的兼容性空间；

利用兼容性商品之间的隐式反馈，进一步采用贝叶斯个性化排名框架来挖掘互补商品之间的搭配偏好。

提出基于内容的多模态贝叶斯个性化互补服装搭配框架有效解决稀疏性的问题，并联合地对商品的不同模态关系和商品间隐含的偏好进行兼容性建模。

作为本发明的第一个实施例，提供了基于神经网络的多模态互补服装搭配方法；

基于神经网络的多模态互补服装搭配方法，包括：

步骤(1)：从服装的图片中获取视觉特征，同时，从服装的文字描述中获取文本特征；

作为本发明的进一步改进，步骤(1)中：

所述服装，包括：上衣、下衣和鞋子；

所述服装的图片，是指上衣、下衣或鞋子的彩色图片；

所述服装的文字描述，包括：服装的样式、功能和类别；

所述视觉特征，包括：上衣的视觉特征、下衣的视觉特征和鞋子的视觉特征；

所述文本特征，包括：上衣的文本特征、下衣的文本特征和鞋子的文本特征；

所述从服装的图片中获取视觉特征，是通过深度卷积神经网络从服装的图片中获取视觉特征；

所述从服装的文字描述中获取文本特征，是通过词袋模型从服装的文字描述中获取文本特征；

步骤(2)：利用自编码器学习不同服装的视觉特征和文本特征的兼容性空间，得到视觉特征的隐含表示和文本特征的隐含表示；

作为本发明的进一步改进，步骤(2)中：

步骤(3)：利用解码器将步骤(2)得到的视觉特征的隐含表示和文本特征的隐含表示解码为重建向量；建立重建向量分别与输入特征之间的关系模型；

作为本发明的进一步改进，步骤(3)中：

作为本发明的进一步改进，步骤(3)中：建立重建向量与输入特征之间的关系模型的步骤为：

建立整个服装的重建向量与输入特征之间的关系模型：

l_AE＝l_AE(t_i)+l_AE(b_j)+l_AE(s_k)。

作为本发明的进一步改进，步骤(4)中：建立服装兼容性模型comp_ijk：

comp_ijk＝comp_ik+comp_jk；

其中，comp_ik表示上衣和鞋子的兼容性模型；comp_jk表示下衣和鞋子的兼容性模型；

作为本发明的进一步改进，步骤(4)中：基于服装兼容性模型，采用贝叶斯个性化排序算法构建兼容性偏好模型l_bpr：

作为本发明的进一步改进，步骤(5)中：视觉特征隐含表示和文本特征隐含表示的一致性模型l_vc(t_i)：

其中，表示神经网络的阈值函数；表示服装t_i的视觉特征隐含表示；表示服装t_i的文本特征隐含表示。

作为本发明的进一步改进，步骤(5)中：服装的多模态隐含特征一致性模型l_mod：

作为本发明的进一步改进，步骤(6)中：基于深度神经网络的多模态互补服装搭配模型：

L＝l_AE+l_mod+l_bpr；

作为本发明的进一步改进，步骤(6)中：利用已经训练好的基于深度神经网络的多模态互补服装搭配进行服装搭配推荐：

通过训练好的最终参数，计算所有comp_ijk的值；

其中comp_ijk最大的值所对应的鞋子即为上衣和下衣最为搭配的鞋子。

作为本发明的第二个实施例，提供了基于神经网络的多模态互补服装搭配系统；

作为本发明的第三个实施例，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

本发明的方案如图1所示，下面结合具体的例子对本发明中的技术方案进行描述：

S1:首先我们通过图2展示了几个服装的样例，每个样例都包含服装的图片，服装的所属类别和标题描述。其中服装的颜色、图案等信息可以从图片中直观的展示，而服装的样式、功能和类别等信息可以从文本信息中有效的获得。且不同的模态，即视觉模态和文本模态，可以从不同的方面来表示同一个物品。

S2：我们进一步探索了文本信息的有效性，图3(a)为最流行的上衣和下衣的类别搭配，其中每一个圆点代表一个类别，且浅灰色代表上衣类别，深灰色表示下衣类别，圆的面积和线的宽度分别与相应类别的服装数量和不同类别相搭配的同现频率成正比。我们可以看到毛衣、T恤和及膝长裙是与其它类别搭配较多的服装，且我们还可以看到外套和连衣裙更搭，而毛衣则和及膝长裙搭配较多。同样，从图3(b)最流行的下衣和鞋子搭配类别中我们可以看出，及膝长裙和高跟鞋比较搭，而脚踝靴和紧身牛仔裤较搭。

S3：通过由caffe提供的预训练的Alexnet网络进行视觉特征提取，它包含五个卷积层和3个全连接层。我们提取Alexnet网络的‘fc7’层的输出结果作为视觉特征，最终我们得到一个4096维的特征，对于上衣t_i、下衣b_j和鞋子s_k，其视觉特征可分别表示为

S4:通过物品类别和标题描述构建词汇表并进行过滤。然后通过词袋模型，我们分别得到上衣t_i、下衣b_j和鞋子s_k的文本特征其特征均为3345维。

S5：本发明通过学习一个潜在的兼容性空间来弥合异构空间中物品的语义鸿沟，而不是直接通过上述的特征向量来直接计算异构空间中上衣、下衣和鞋子的兼容性。这个潜在的兼容性空间可以让不同种类的物品具有最大的兼容性，例如上衣、下衣和鞋子具有不同的样式和功能等。该发明可以学习一个兼容性空间，使得不同种类的服装从颜色、图案、风格以及材料等因素上找到其一致性。这里我们通过一个多重的自编码器来学习上衣t_i、下衣b_j和鞋子s_k的视觉特征和文本特征的兼容性空间。通过自编码器的编码器，我们分别得到上衣、下衣和鞋子的视觉和文本隐含表示通过自编码器的解码器，我们将这些隐含表示解码为重建表示对于物品x，重建后的向量应与输入时的向量相接近，因此我们最小化下面的模型来进行学习：

本发明中我们同时对上衣t_i、下衣b_j和鞋子s_k进行学习：

l_AE＝l_AE(t_i)+l_AE(b_j)+l_AE(s_k)

S6:对物品的兼容性进行建模，这里以为上衣和下衣搭配鞋子为例：通过学习一个潜在的兼容性空间，我们分别得到上衣、下衣和文本的视觉和文本隐含表示基于这些隐含表示，我们得到上衣、下衣和鞋子的兼容性模型：

comp_ijk＝comp_ik+comp_jk

其中，同理可得到下衣和鞋子的兼容性comp_jk。

S7：为充分挖掘物品的视觉和文本模态，我们对商品x_i的视觉和文本隐含特征的一致性进行建模：

同时考虑上衣t_i、下衣b_j和鞋子s_k，我们可以得到三者的多模态隐含特征一致性模型：

S8:为充分挖掘上衣、下衣和鞋子在搭配中的兼容性，我们采用贝叶斯个性化框架，以为上衣和下衣推荐鞋子为例，其模型如下：

其中和表示上衣和下衣对不同鞋子的兼容性偏好，即上衣t_i和下衣b_j相对于鞋子来说更适合与鞋子搭配。

S9:最终我们得到基于深度神经网络的多模态互补服装搭配模型：

L＝l_AE+l_mod+l_bpr

该发明通过训练该模型，最终得到上衣、下衣和鞋子的多模态兼容性空间，其中comp_ijk最大的值所对应的鞋子即为上衣和下衣最为搭配的鞋子。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于神经网络的多模态互补服装搭配方法、系统及介质 [P] . 中国专利： CN108960959B . 2020.05.12
2. 基于神经网络的多模态互补服装搭配方法、系统及介质 [P] . 中国专利： CN108960959A . 2018-12-07
3. Personalized intelligent wake-up system and method based on multimodal deep neural network [P] . 美国专利： US10083397B2 . 2018-09-25

机译：基于多模态深度神经网络的个性化智能唤醒系统和方法
4. PERSONALIZED INTELLIGENT WAKE-UP SYSTEM AND METHOD BASED ON MULTIMODAL DEEP NEURAL NETWORK [P] . 美国专利： US2018060732A1 . 2018-03-01

机译：基于多模态深度神经网络的个性化智能唤醒系统及方法
5. SYSTEMS AND METHODS OF IMAGE-BASED NEURAL NETWORK APPAREL RECOMMENDATION [P] . US2021103970A1 . 2021-04-08

机译：基于图像的神经网络服装建议的系统和方法