首页> 中国专利> 一种基于机器视觉与触觉感知的物体描述生成方法

一种基于机器视觉与触觉感知的物体描述生成方法

摘要

本发明涉及一种基于机器视觉和触觉感知的物体描述方法,该方法以物体的机器视觉和触觉信息为输入,使用深度学习的方法识别出物体的种类以及物理属性,然后将识别结果转化为关键词形成物体描述语句。本发明专利提出的方法在宾夕法尼亚大学公开的视觉和触觉数据集(PHAC‑2数据集)上进行了训练并测试,类别关键词和物理属性关键词预测准率分别达到了100%和97.8%。这种由机器人探索感知物体后形成的描述语句的方法可有效推动机器人感知领域中人机交互技术的发展。

著录项

  • 公开/公告号CN112766349A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 齐鲁工业大学;

    申请/专利号CN202110037740.2

  • 发明设计人 张鹏;周茂辉;单东日;邹文凯;

    申请日2021-01-12

  • 分类号G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构37218 济南泉城专利商标事务所;

  • 代理人张贵宾

  • 地址 250000 山东省济南市长清区济南市西部新城大学科技园

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明涉及机器人感知技术、多模态融合、物体描述生成技术领域,特别涉及一种基于机器视觉与触觉感知的物体描述生成方法。

背景技术

随着传感器技术和人工智能技术的发展,机器人感知、决策能力不断提高,机器人的发展正在从机器属性向人的属性转化。然而,机器人对物体的认知辨别能力仍然远不如人类。

人类综合利用视觉和触觉信息来完成物体认知过程。功能磁共振成像数据表明在识别物体的过程中,人类触觉和视觉信号是以多感官协同方式处理。受人脑跨模态协同处理的启发,国外有研究人员使用触觉和视觉信号为触觉属性分类设计了深度学习架构,并证明了触觉和视觉信号是互补的,结合两种形式的数据可以提高性能。

通过机器人的探索生成视觉和触觉感知层面的物体描述具有重要意义。该技术可以有效增加残障人士在生活中的参与感和获得感,同时物体描述技术可以应用在高危环境中,以机器人代替人探索感知物体,并形成相应的反馈报告,可以有效降低人员伤害。目前还没有相应的基于视觉和触觉感知的物体描述生成方法,为此本发明提出的物体描述生成方法可填补此类技术的空白。

发明内容

本发明为了弥补现有技术中不足,提出了一种基于触觉振动信号与视觉图像融合的抓取物识别方法。

本发明是通过如下技术方案实现的:

一种基于机器视觉与触觉感知的物体描述生成方法,其特征在于,包括以下步骤:

S1,预处理视觉和触觉原始数据;

S2,将采集到的的视觉和触觉信息分别输入二维卷积神经网络和一维卷积神经网络,并将两个神经网络输出的特征向量串联得到视触融合特征向量;

S3,将得到的视触融合特征向量输入到两个全连接网络分支中,第一个全连接网络用于物体的识别分类,第二个全连接网络用于物体的物理属性识别;

S4,将两个全连接网络得到的分类结果和物理属性以关键词的形式嵌入到物体描述语句中。

进一步地,为了更好的实现本发明,所述S1中,视觉信息的采集方法为,将原始高像素图像进行尺寸变换,变换为像素值300*300大小的图片,同时对图片亮度、对比度、饱和度随机产生30%的偏移处理,得到最终需要输入的图像。

进一步地,为了更好的实现本发明,所述S1中,触觉信息的采集方法为,使用matlab软件对数据剪切,将长短不一的多维数据进行压缩处理,最终得到长短一致的触觉数据。

进一步地,为了更好的实现本发明,所述S2中,视觉和触觉信息是成对输入的,视觉信息输入二维卷积神经网络,触觉信息输入一维卷积神经网络;对于触觉信息处理共使用三层一维卷积神经网络,激活函数使用的是RELU函数;对于视觉信息处理使用densnet169模型。

进一步地,为了更好的实现本发明,所述S3中,两个全连接网络所使用的监督标签都是标准的多分类任务和多标签任务中的标签形式,多分支输出的神经网络有两个分支就会有两个损失函数,多分类任务中使用的是交叉熵损失函数,多标签任务中使用的损失函数是pytorch神经网络架构提供的多标签分类损失函数MultilLabelSoftMarginLoss()。

进一步地,为了更好的实现本发明,所述S4中,将分类结果和物理属性转化为关键词的具体方法为,将物体类别关键词排序形成n个元素的列表,然后将物体类别关键词的索引值作为物体的标签,每个物体只有一个标签;多分类任务的输出是n个概率值,由概率值最大的数值的索引可以找到对应的物体类别关键词;多标签分类任务中标签生成与多分类任务相似,先将m个物理属性关键词值排序形成一个m个元素的列表,多分类的标签是由m个元素组成分别和m个物理属性关键词对应,要从多标签分类网络输出得到物理属性关键词,需要得到网络输出中预测值为1的索引,然后根据索引从物理属性关键词列表中调取相应的属性,完成物理属性关键词的提取。

本发明的有益效果为:

本发明提出的基于机器视觉与触觉感知的物体描述生成方法构建了能同时预测物体类别关键词和物理属性关键词的多分支网络模型,然后根据预测的关键词形成对物体的描述语句。本发明的方法有效提高了机器人对外界感知表达能力,使机器人在人机交互过程中更加智能。

附图说明

图1为本发明的多分支网络示意图;

图2为本发明的数据集中图像数据处理示意图;

图3为本发明的数据集中触觉数据处理示意图;

图4为本发明的多分类标签对应图;

图5为本发明的多标签分类标签对应图;

图6为本发明的各物理属性预测结果;

图7为本发明的物体类别预测结果。

具体实施方式

下面结合附图和具体实施方式对本发明给出进一步的说明。

图1-图7为本发明的一种具体实施例,该实施例为一种基于视觉和触觉感知的物体描述生成方法,如图1所示,本实施例提出了一种多模态输入和多层面输出的多分支神经网络结构,该结构以机器视觉和触觉作为两个模态的输入,其中,机器视觉输入到二维卷积神经网络中,机器触觉输入到一维卷积神经网络中。然后将二维卷积神经网络和一维卷积神经网络输出的特征向量串联,得到视触融合特征向量。最后将视触融合特征向量分别输入到两个全连接网络分支中,其中第一个全连接网络输出的是基于视触融合特征向量预测物体类别,第二个是基于视触融合特征向量预测物体物理属性。另外本实施例提出了一种物体描述生成方法,将多分支网络结构输出的分类结果以及物理属性转化为关键词,然后将关键词嵌入到描述语句模板中。

本实施例的具体实现过程如下:

1、数据集,

本实施例的方法在PHAC-2数据集上进行训练并测试,PHAC-2数据集是宾夕法尼亚大学公开的包含视觉和触觉的数据集,该数据集包含53个物体的视觉和触觉数据,其中每个物体视觉数据包含8张照片,照片的收集过程将物体放置在铝制圆盘上,圆盘每转动45度拍照一次。该触觉数据集由两种压力值、微振动、和温度值组成,触觉数据来自于对每个物体挤压、捏住、慢慢滑动、快速滑动的触觉数据。该数据集还包含了24个触觉形容词来描述物体的物理属性,其中包括软硬、温度、粘稠、弹性等方面。在数据集中每个物体都被赋予了几个触觉形容词,为排除偶然性,每个物体的形容词是经过36个人共同确定的。

本实施例提出的方法需要将数据集分成训练集和测试集,我们从每个样本中抽取出一个视觉数据和一个触觉数据作为测试集。为保证公平,测试集数据选择过程中为每个物体由电脑随机生成1-8之间的一个数字a,然后取出该物体的第a个图像和第a个触觉数据。

为降低网络参数量将图像数据变成300*300大小的图片。由于机器人的视觉信息受干扰最大的是光线,为提高模型的鲁棒性对图片亮度、对比度、饱和度随机产生30%的偏移处理。

PHAC-2数据集中的触觉数据过长,而且是长短不一的88维数据,所以需要对数据进行压缩处理。通过观察发现,数据集中后两次“缓慢滑动”和“快速滑动”触觉动作长度在2000个数据点左右,这一部分数据量小,数据特征明显。于是使用matlab软件对数据剪切,数据剪切的依据是数据变化幅度,数据从最后开始读取,当触觉数据中的压力值斜率的绝对值大于1的时候认为是数据变化较大,作为剪切的起点继续向前读取2000个数据点的长度。为进一步减小数据量,只提取出数据集中重要的压力值和微振动作为触觉数据,最终得到2000个数据点长度的46维触觉数据。

2、模型介绍,

在本实施例模型中物体对应的视觉和触觉是成对输入的,视觉模型输入到二维卷积模型中,触觉数据输入到一维卷积模型中,学习率设定的是0.00002。

经处理后的触觉数据由46个一维信号组成,根据一维信号的特点,使用一维卷积神经网络提取触觉数据的特征,本实施例共使用三层一维卷积神经网络,激活函数使用的是RELU函数,各层具体参数如下:

表1:一维卷积神经网络参数表

经过处理后的视觉图像是一个300*300*3的三通道彩色图像,对于该图像的处理本实施例使用的是视觉领域较为成熟的densnet169模型。

使用二维卷积和一维卷积分别提取视觉和触觉信息后得到长度为1664和1978的特征向量,将两个特征向量串联得到3642长度的视触融合特征向量,然后将视触融合特征向量分别输入到两个全连接神经网络中进行分类。两个全连接网络的不同之处在于第一个全连接网络用于多分类任务,也就是说测试集中物体的视觉和触觉信息输入到该模型后,第一个全连接网络能够预测出该物体是53个物体中的哪一个物体。第二个全连接网络用于多标签分类任务,标签分类任务和多分类任务的不同点在于,多分类任务是识别出该物体是多个物体中的哪一个,多标签分类任务是识别出该物体属于众多属性中的哪一个。

两个全连接网络所使用的监督标签都是标准的多分类和多标签任务中的标签形式。需要注意的是,这种多分支输出的神经网络有两个分支就会有两个损失函数。本实施例中多分类任务使用的是交叉熵损失函数(公式1),多标签分类任务使用的损失函数是pytorch神经网络架构中提供的多标签分类损失函数MultilLabelSoftMarginLoss()(公式2),使用该损失函数的输出以0为界限,大于0的输出预测值为1,小于0的输出预测值为0。在训练过程中优化的目标是使两个损失函数相加得到的总损失函数(公式3)值最小。

loss(x

其中:x

x

其中:x

x

y

x

Loss=loss(x

3、转换为关键词

多分类任务标签制作过程需要将物体类别关键词排序形成53个元素的列表,然后将物体类别关键词的索引值作为物体的标签(如图4所示),每个物体只有一个标签。多分类任务中标签由0-52的数字组成,这53个数字和53个物体类别关键词有着严格的对应关系。我们的目标是将多分类任务输出的数值转换成对应物体类别关键词。多分类任务的输出是53个概率值,根据图4的对应关系,由概率值最大的数值的索引可以找到对应的物体类别关键词。例如多分类任务中第0个输出概率值最大,则对应的物体类别关键词为“铝”,第51个输出概率值最大,则对应的物体类别关键词为“黄色毛毡”。所以要想得到多分类输出对应的类别关键词,需要得到53个概率中概率最大值对应的索引,然后用这个索引值调取出关键词列表中对应位置的物体类别关键词。

多标签分类任务中标签生成与多分类任务相似,在本实施例中,先将24个物理属性关键词值排序形成一个24个元素的列表,多分类的标签是由24个元素组成分别和24个物理属性关键词对应。如图5,标签是以数字0/1形式组成的,标签中每个位置对应一个属性,例如第n个位置的数为1,则该物体就有对应的属性列表中第n个位置的属性,第n+1个位置为0,则该物体就没有对应属性列表中第n+1个位置的属性。所以想要从多标签分类网络输出得到物理属性关键词,需要得到网络输出中预测值为1的索引,然后根据索引从物理属性关键词列表中调取相应的属性,完成物理属性关键词的提取。

4、描述语句生成,

得到物体类别关键词和物理属性关键词后,就可以形成简单的物体描述句。其中类别关键词能确定物体是哪一类,物理属性关键词用来形容物体给人什么样的感觉。测试集中每个物体的视觉和触觉信息输入到本实施例提出的多分支网络模型中都会预测出物体类别关键词和物理属性关键词。然后将得到的物体类别关键词和物理属性关键词填入到固定的语句描述模板中即可形成物体描述语句。例如:这是一个塑料盒,它表面是光滑的、有弹性的、有点硬。其中“塑料盒”是物体类别关键词,“光滑的”、“有弹性的”、“有点硬”是物理属性关键词。

5、结果及分析,

通过在国际通用的PHAC-2数据集上测试,在训练集上经过150轮的训练过后,本实施例的网络模型对物体类别关键词的预测准确率达到100%,对物理属性预测准确率达到97.8%,这表明本实施例的模型可以有效形成物体描述语句。

图6为本实施例提出的多分支网络模型对测试集中53种物体物理属性预测结果图,测试集中的图片和触觉数据不包含在训练集中。由于53中物体物理属性分布并不是均衡的,不同属性在整个数据集中出现的次数并不相同。所以采用AUC值作为预测结果的评价标准,AUC的取值在0到1之间,AUC值越接近1表明模型正确率越高,AUC值可以认为是预测准确率。从图中可以看出,24种属性的预测结果AUC值都在0.9以上,平均值在0.978。

图7为本实施例提出的多分支网络模型对测试集中53种物体类别预测结果图,该图采用混淆矩阵的形式呈现,纵坐标为物体类别真实值,横坐标为多分支网络物体类别预测结果。从图中可以看出,如果同一个物体真实值和预测值相等则交点在图片的斜对角线上。如果预测值和真实值不同则交点会出现在非对角线的位置。从图中可以看出,本实施例的多分支网络模型成功预测出了53种物体的类别,准确率达100%。

综上所述,本实施例提出的多分支网络模型在物体类别关键词预测以及物理属性关键词预测分别可以达到100%和97.8%的准确率。所以根据物体类别关键词和物理属性关键词形成的描述语句也具有较高的可信性。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号