首页> 中国专利> 一种基于多模态深度神经网络模型的商品分类方法

一种基于多模态深度神经网络模型的商品分类方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于多模态深度神经网络模型的商品分类方法，该方法首先将文本信息转换为词向量，词向量能够更好的体现词与词之间的关系，在使用文本分类模型TextCNN，对商品文本描述进行特征提取；为了避免过拟合，该方法对图片使用了随机图像翻转、随机变化图像的亮度等图像增广操作，再将处理后的结果输入到商品图片分类模型ResNet101中对商品图片进行特征提取。然后对两种模型提取出的特征向量经flatten函数展平后将两个模态数据的特征向量在特征维度上直接连接，最后送入分类器对商品进行分类。本发明商品分类方法，避免了传统单一模态数据对商品分类时的限制，将文本和图片数据结合起来，无论是分类性能还是分类准确率都比使用单一模态数据的模型效果要好。

著录项

公开/公告号CN112231473A

专利类型发明专利
公开/公告日2021-01-15

原文格式PDF
申请/专利权人河海大学;
展开▼

申请/专利号CN202011052122.7
发明设计人刘凡;高瑞涿;邓言仪;张伟娟;
展开▼

申请日2020-09-29
分类号G06F16/35(20190101);G06K9/62(20060101);G06N3/04(20060101);G06Q30/06(20120101);
代理机构32200 南京经纬专利商标代理有限公司;
代理人姜慧勤
地址 211100 江苏省南京市江宁开发区佛城西路8号
入库时间 2023-06-19 09:33:52

说明书

技术领域

本发明涉及商品分类方法，具体涉及一种基于多模态深度神经网络模型的商品分类方法，属于商品分类技术领域。

背景技术

随着电子商务平台的蓬勃发展，基于大数据挖掘的类目体系建设方法以其快速，高效，自动化，成本低等优势将逐渐替代基于人工建设的方法。在现代，互联网技术每天都在高速发展着，电子商务在人们生活中的比重越来越大，网络购物成为许多人购买商品的首要选择。随着商品数量的增多，找到一种分类速度快、分类准确度高的商品分类方法，不仅是让用户在海量商品中挑选到自己所需商品的迫切需要，同时也是电子商务发展所必须要经历和解决的一个问题。针对商品分类这一特定分类任务，目前已经有许多的深度神经网络模型被提出，这些模型解决商品分类问题主要通过商品文本分类和商品图像分类两种方法进行，比如使用商品图片数据进行训练的基于卷积神经网络的深度神经网络模型、使用商品文本数据进行训练的基于循环神经网络以及基于一维卷积神经网络的深度神经网络模型。其中一些结构设计良好的模型在进行商品分类时有着较佳的性能。

然而，目前提出的用于商品分类的深度神经网络模型大多数都仅基于单模态数据进行分类。在实际情况中，关于商品的相关信息有很多种形式，包括商品文本、商品图像、视频等，基于单模态数据的模型并没有充分利用上这些信息。在许多机器学习、深度学习相关的应用中，都已经开始使用多模态数据来完成分类任务。使用基于多模态数据的深度神经网络模型来完成分类任务，不仅能充分利用各类数据，同时还能有效地建立不同模态数据之间的关联，不同模态数据之间的关联，往往能让模型学习到更多的商品相关信息，因此分类的准确度也通常优于基于单模态数据的模型。

近几十年来，多模态数据开始逐渐受到人们的重视，各类机器学习、深度学习模型都开始广泛应用多模态数据来完成任务。最具代表性的多模态数据是视频，视频由图像和音频组成，使用视频数据进行物体识别是最常见的深度学习应用之一。自此以后，各种基于深度学习的数据融合方法被提出来用于处理分类任务的多模态信息。

其中，一种典型的方法是特征融合，即将不同模态数据在不同分类模型中所学习到的特征表示在深度学习网络的中间部分进行结合，并输入最终的分类器。比如Ngiam等人通过专用的受限玻尔兹曼机(RBMs)从给定的视频中分别提取出音频和视觉图像的对应特征，并将这两个特征串联起来构成一个共享的表示，最后将这个特征表示输入到最终的分类器中。Amer等人将基于特征融合方法的RBMs扩展为能处理时间序列数据的时间信息的模型。这些应用了特征融合方法的模型结构不仅能在单一的深度神经网络模型中处理不同领域不同模态的数据，同时也充分考虑到了模态之间的关联性与中层信息。这种方法解决了在特定分类任务中，数据融合方法可能存在的不同模态数据难以直接结合的问题以及决策融合方法无法很好的学习到不同模态之间关联性的问题。

发明内容

本发明所要解决的技术问题是：提供一种基于多模态深度神经网络模型的商品分类方法，利用特征融合的方法将商品文本特征和商品图片特征结合起来，对商品进行分类。

本发明为解决上述技术问题采用以下技术方案：

一种基于多模态深度神经网络模型的商品分类方法，包括如下步骤：

步骤1，创建商品文本数据集Text_data＝{Y

步骤2，将商品文本数据集划分为商品文本训练集和商品文本验证集，分别对商品文本训练集和验证集进行预处理，所述预处理包括文本分词、构建词典、数据填充，得到预处理后的商品文本训练集Train_text_data和验证集Valid_text_data；

步骤3，根据步骤2商品文本数据集的划分对商品图片数据集进行划分，将商品文本训练集中每个商品文本对应的商品图片划分到商品图片训练集中，将商品文本验证集中每个商品文本对应的商品图片划分到商品图片验证集中；对商品图片训练集进行增广操作和向量化标准化操作处理，得到处理后的商品图片训练集Train_image_data，对商品图片验证集进行向量化标准化操作处理，得到处理后的商品图片验证集Valid_image_data；

步骤4，将步骤2得到的预处理后的商品文本训练集Train_text_data输入到TextCNN文本分类模型中进行文本特征提取，将步骤3得到的处理后的商品图片训练集Train_image_data输入到ResNet101图片分类模型中进行图片特征提取，将商品文本训练集Train_text_data中每个商品的文本特征和其在商品图片训练集Train_image_data中对应的商品的图片特征在特征维度上直接连接，得到多模态数据特征向量，将多模态数据特征向量输入到分类器中进行分类器训练，得到训练好的分类器；

步骤5，将步骤2得到的预处理后的商品文本验证集Valid_text_data输入到TextCNN文本分类模型中进行文本特征提取，将步骤3得到的处理后的商品图片验证集Valid_image_data输入到ResNet101图片分类模型中进行图片特征提取，将商品文本验证集Valid_text_data中每个商品的文本特征和其在商品图片验证集Valid_image_data中对应的商品的图片特征在特征维度上直接连接，得到多模态数据特征向量，将多模态数据特征向量输入到训练好的分类器中进行验证。

作为本发明的一种优选方案，所述步骤2的具体过程如下：

步骤21，将商品文本数据集中每个类别的文本数据按8∶2的比例划分，即将商品文本数据集的80％作为商品文本训练集，20％作为商品文本验证集；

步骤22，对于商品文本训练集，将每个类别中各商品的文本数据都使用python的jieba包进行分词并用空格连接分好的词，将同一类别中各商品的文本数据对应的分词结果写入同一个txt文件，txt文件的文件名为类别名；

步骤23，利用已经分好词的商品文本训练集构建词典，在构建词典时过滤掉出现频率小于3的词；

步骤24，基于步骤23构建的词典，将商品文本训练集中各商品的文本数据对应的分词结果转换为词索引的形式；

步骤25，基于步骤24的基础上，通过截断或者补0操作将每一个商品的文本数据的长度都固定成30，得到预处理后的商品文本训练集Train_text_data＝{T_text

步骤26，对于商品文本验证集，采用步骤22-25相同的操作，得到预处理后的商品文本验证集Valid_text_data＝{V_text

作为本发明的一种优选方案，所述步骤3的具体过程如下：

步骤31，根据步骤2商品文本数据集的划分对商品图片数据集进行划分，将商品文本训练集中每个商品文本对应的商品图片划分到商品图片训练集中，将商品文本验证集中每个商品文本对应的商品图片划分到商品图片验证集中；

步骤32，对商品图片训练集进行随机左右翻转；

步骤33，基于步骤32的基础上，对商品图片训练集进行随机变化图片的亮度、饱和度和对比度；

步骤34，基于步骤33的基础上，对商品图片训练集进行随机增加噪声操作；

步骤35，基于步骤34的基础上，对商品图片训练集进行图片向量化标准化操作，得到处理后的商品图片训练集Train_image_data＝{T_image

步骤36，对商品图片验证集进行图片向量化标准化操作，得到处理后的商品图片验证集Valid_image_data＝{V_image

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明由于使用了特征融合方法，不仅能充分利用商品文本和图片两个模态的数据，同时还能有效地建立不同模态数据之间的关联，能让模型学习到更多的商品相关信息。

2、本发明在商品文本分类上采用TextCNN模型，其网络结构简单、参数数目少、计算量少、训练速度快。

3、本发明在商品文本分类上采用ResNet101模型，其残差块设计有效解决了在一个神经网络模型的基础上添加新的神经层，训练后达到最佳性能的模型往往不仅没有进一步地降低误差，反而误差还会升高的问题。

附图说明

图1是本发明一种基于多模态深度神经网络模型的商品分类方法的整体架构图。

图2是本发明基于TextCNN的商品文本分类方法的模型图。

图3是本发明基于ResNet101的商品图片分类方法的模型图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

目前提出的用于商品分类的深度神经网络模型大多数都仅基于单模态数据进行分类。在实际情况中，关于商品的相关信息有很多种形式，包括商品文本、商品图像、视频等，基于单模态数据的模型并没有充分利用上这些信息。基于这一需求，本发明提出一种基于多模态深度神经网络模型的商品分类方法。

如图1所示，本发明一种基于多模态深度神经网络模型的商品分类方法，包括以下步骤：

1、首先创建商品图片数据集Image_data＝{X

2、对商品文本数据集进行预处理，预处理过程包括划分数据集、文本分词、构建词典、数据填充等步骤，将商品文本数据集首先划分成训练集和验证集，进行预处理操作后得到训练集Train_text_data＝{T_text

(1)在对商品标题文本数据集Text_data进行训练集、验证集划分时，首先按需要将每个商品类别的商品标题文本数据都使用python的jieba包来分好词并用空格连接。然后将同一种类的所有文本数据写入同一个txt文件，得到商品文本数据集txt_data＝{txt

(2)基于(1)对商品文本训练集和验证集排序的结果，采用已经分好词的商品文本训练集构建词典pro_dict，在构建词典时过滤掉出现频率小于3的词；

(3)基于(2)构建的词典pro_dict，将商品文本训练集和验证集中每个文本划分出来的词都转换为词索引的形式，便于在模型中将文本数据转换为向量的形式；

(4)由于Text CNN模型的输入层只能接受定长的文本序列，而训练集和验证集的每一条商品文本数据长度不一致，所以基于(3)文本转换的结果，通过截断或者补0操作来将每一个商品文本数据的长度都固定成30，得到训练集Train_text_data＝{T_text

3、对商品图片数据集进行预处理，预处理过程包括划分数据集、增广操作、向量化等操作，首先将商品图片数据集按照商品文本数据集的划分，将商品文本训练数据集Train_text_data中每个商品文本对应的商品图片划分到商品图片训练集Train_image_data中，同理将商品文本验证集Valid_text_data中每个商品文本对应的商品图片划分到商品图片验证集Valid_image_data中。然后对训练集的商品图片数据进行增广操作得到数据集Train_image_data＝{T_image

(1)首先对商品图片数据集Image_data中每个商品类别的图片数据都按8∶2的比例进行划分数据集操作，其中80％作为训练集，20％作为测试集；

(2)基于(1)划分数据集的结果，对于商品图片训练数据集进行随机左右翻转。该操作通过MXNet/Gluon中transforms模块的RandomFlipLeftRight实例实现；

(3)基于(2)商品图片训练集中数据随机左右翻转的结果，再对商品图片训练数据集进行随机变化图像的亮度、饱和度和对比度。该操作通过MXNet/Gluon中transforms模块的RandomColorJitter实例实现；

(4)基于(3)商品图片训练集中数据随机调整亮度、饱和度和对比度的结果，对于商品图片训练数据集进行随机增加噪声操作。随机噪声能够很好的让模型在训练时更加注重学习到图片中物体的特征信息而非某些无关的属性，该操作通过MXNet/Gluon中transforms模块的RandomLighting实例实现；

(5)基于(4)商品图片训练集中数据随机增加噪声的结果，对于商品图片训练数据集进行图像向量化与标准化操作。该操作分别通过MXNet/Gluon中transforms模块的ToTensor实例和Normalize实例实现。得到向量化与标准化后的商品图片训练数据集Train_image_data＝{T_image

(6)对于商品图片验证集进行图像向量化与标准化。该操作分别通过MXNet/Gluon中transforms模块的ToTensor实例和Normalize实例实现。得到向量化与标准化后的商品图片验证数据集Valid_image_data＝{V_image

4、将步骤2得到的商品文本训练数据集Train_text_data，输入到TextCNN文本分类模型中进行文本特征提取。将步骤3得到的商品图片训练数据集Train_image_data输入到ResNet101图片分类模型中进行图像特征提取。将得到的训练集Train_text_data中每个商品的文本特征和其在Train_image_data中对应的商品图片特征在特征维度上直接连接，并将连接后的多模态数据特征向量输入到分类器中进行分类器训练。具体过程如下：

(1)将步骤2得到的商品标题文本训练集Train_text_data中的文本数据输入到TextCNN中，在Embedding层进行词向量的转换操作。转换成词向量后，根据MXNet中一维卷积层要求的输入数据格式，将词向量维度与代表每个文本单词数量的维度互相替换。接着就将词向量数据输入到每个Convolution层，每个Convolution层对输入数据卷积后，将数据传输到时序最大池化层中，最终得到一个形状为(数据批量大小，通道大小，1)的向量数据，再用flatten函数去掉最后一个维度，并将所有数据在通道维度上互相连接；

(2)将步骤3得到的商品图片训练集Train_image_data中的图片数据输入到ResNet101模型中，进行特征提取；

(3)基于(1)和(2)的特征提取结果，由于得到的特征向量都是经过flatten函数展平的，因此直接将(1)得到的商品标题文本数据和(2)得到的商品图片数据的特征向量在特征维度上连接，并将连接后的数据特征向量输入到分类器中进行分类器训练。

5、将步骤2得到的商品文本验证数据集Valid_text_data，输入到TextCNN文本分类模型中进行文本特征提取。将步骤3得到的商品图片验证数据集Valid_image_data输入到ResNet101图片分类模型中进行图像特征提取。将得到的验证集Valid_text_data中每个商品的文本特征和其在Valid_image_data中对应的商品图片特征在特征维度上直接连接，并将连接后的多模态数据特征向量输入到分类器中进行验证。具体过程如下：

(1)将步骤2得到的商品标题文本验证集Valid_text_data中的文本数据输入到TextCNN中，在Embedding层进行词向量的转换操作。转换成词向量后，根据MXNet中一维卷积层要求的输入数据格式，将词向量维度与代表每个文本单词数量的维度互相替换。接着就将词向量数据输入到每个Convolution层，每个Convolution层对输入数据卷积后，将数据传输到时序最大池化层中，最终得到一个形状为(数据批量大小，通道大小，1)的向量数据，再用flatten函数去掉最后一个维度，并将所有数据在通道维度上互相连接；

(2)将步骤3得到的商品图片验证集Valid_image_data中的图片数据输入到ResNet101模型中，进行特征提取；

(3)基于(1)和(2)的特征提取结果，由于得到的特征向量都是经过flatten函数展平的，因此直接将(1)得到的商品标题文本数据和(2)得到的商品图片数据的特征向量在特征维度上连接，并将连接后的数据特征向量输入到分类器中进行分类器验证。

本发明公开一种基于多模态深度神经网络模型的商品分类方法，可以根据商品标题与图片对商品进行分类，根据分类结果建立类目属性属性值之间的映射，有效解决电商平台商品分类混乱，用户难以找到自己想要的商品，电子商务平台提供的基于商品分类的搜索和导购功能的准确率低的问题。其中TextCNN文本分类模型，以其网络结构简单、参数数目少、计算量少、训练速度快的优点，在许多数据集上也展现出了优异的分类效果和非常快的训练速度以及分类性能。而ResNet101模型在进行图片分类时，解决了在一个神经网络模型的基础上添加新的神经层，训练后达到最佳性能的模型往往不仅没有进一步地降低误差，反而误差还会升高的问题。特征融合方法则是在模型的中间部分将两个模态的数据通过对应的深度神经网络模型提取特征后得到的特征向量结合在一起，再输入到分类器中，这种方法能够让模型很好的学习到不同模态数据之间的关联。并且，相比于单模态的商品文本分类模型TextCNN(如图2所示)、商品图片分类模型ResNet101(如图3所示)，在分类性能和准确率上都有了很大的提升。

表1是基于多模态深度神经网络模型的商品分类方法在450万的商品文本、图片数据集的准确率，以及仅使用单模态商品文本数据的Text CNN模型和商品图片数据的ResNet101模型的准确率。

表1

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于多模态深度神经网络模型的商品分类方法 [P] . 中国专利： CN112231473A . 2021-01-15
2. 一种基于联合深度融合的多模态地基云分类方法 [P] . 中国专利： CN108629368B . 2021.05.07
3. TEXT DATA CLASSIFICATION METHOD AND APPARATUS BASED ON NEURAL NETWORK MODEL, AND STORAGE MEDIUM [P] . WO2021051518A1 . 2021-03-25

机译：基于神经网络模型的文本数据分类方法和装置和存储介质
4. TRIAGE METHOD AND APPARATUS BASED ON NEURAL NETWORK MODEL, AND COMPUTER DEVICE [P] . WO2021139231A1 . 2021-07-15

机译：基于神经网络模型的分类方法和装置和计算机设备
5. GOODS SORTING SYSTEM AND GOODS SORTING METHOD BASED ON MOVING STATE [P] . SG118166A1 . 2006-01-27

机译：基于运动状态的商品分类系统及商品分类方法