首页> 中国专利> 客户满意度识别方法、装置、设备和介质

客户满意度识别方法、装置、设备和介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本公开提供了一种客户满意度识别方法，涉及人工智能领域。该方法包括：获得客户在预定时间段内M个时刻的客户图像；根据所述M个时刻中每个时刻的客户图像，获得所述客户在所述每个时刻的姿态预测结果和表情预测结果；根据所述每个时刻的姿态预测结果和表情预测结果，得到所述每个时刻的情绪评估向量；将所述每个时刻的情绪评估向量按照对应时刻在所述M个时刻中的时间顺序进行组装，得到时序情绪向量序列；将所述时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果。本公开还提供了一种客户满意度识别装置、设备、存储介质和程序产品。

著录项

公开/公告号CN114973419A

专利类型发明专利
公开/公告日2022-08-30

原文格式PDF
申请/专利权人中国工商银行股份有限公司;
展开▼

申请/专利号CN202210701055.X
发明设计人林文杰;陆杨芳;霍华仔;康栋山;
展开▼

申请日2022-06-20
分类号G06V40/20(2022.01);G06V40/16(2022.01);G06V20/40(2022.01);G06V10/764(2022.01);G06V10/82(2022.01);G06F16/36(2019.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N5/02(2006.01);G06Q40/02(2012.01);
代理机构中科专利商标代理有限责任公司 11021;
代理人张体南
地址 100140 北京市西城区复兴门内大街55号
入库时间 2023-06-19 16:30:07

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-16

实质审查的生效 IPC(主分类):G06V40/20 专利申请号:202210701055X 申请日:20220620

实质审查的生效
2022-08-30

公开

发明专利申请公布

说明书

技术领域

本公开涉及人工智能领域，更具体地，涉及一种客户满意度识别方法、装置、设备、介质和程序产品。

背景技术

客户满意度是指客户满意的程度，可以表征客户在购买和消费相应的产品或服务后所获得的不同程度的满足状态。提供产品或服务的企业或个人主要通过线下、电话或互联网等方式收集客户满意度。例如银行可以通过营业厅、柜台工作和工作意见箱等直接手段和投诉电话等间接手段得到反馈，但是可能不能覆盖到每个客户，并且这些反馈信息负满意度的比例可能大于正满意度，导致不能形成对某一具体范围(如营业厅、业务人员或产品等)内客户满意度的综合评价画像，也难以得到对于某一项便民措施是否持续的正反馈意见，从而改进产品或服务水平。因此，如何获得准确的客户满意度结果是当前亟待解决的问题。

发明内容

鉴于上述问题，本公开提供了一种通过获取客户的情绪变化来确定客户满意度的客户满意度识别方法、装置、设备、介质和程序产品。

本公开实施例的一个方面提供了一种客户满意度识别方法，包括：获得客户在预定时间段内M个时刻的客户图像，M为大于或等于2的整数；根据所述M个时刻中每个时刻的客户图像，获得所述客户在所述每个时刻的姿态预测结果和表情预测结果；根据所述每个时刻的姿态预测结果和表情预测结果，得到所述每个时刻的情绪评估向量；将所述每个时刻的情绪评估向量按照对应时刻在所述M个时刻中的时间顺序进行组装，得到时序情绪向量序列，其中，所述时序情绪向量序列包括M个情绪评估向量；将所述时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果，其中，所述客户满意度识别结果用于表征所述客户在所述预定时间段内的情绪变化趋势。

根据本公开的实施例，所述根据所述每个时刻的姿态预测结果和表情预测结果，得到所述每个时刻的情绪评估向量包括：将所述每个时刻的姿态预测结果和表情预测结果输入至情绪评估知识模型，获得所述情绪评估知识模型的输出向量，其中，所述情绪评估知识模型根据长短期记忆网络构建获得；根据所述输出向量得到索引数据；从情绪知识库中取出与所述索引数据相匹配的情绪评估向量，其中，所述情绪知识库中包括至少一个待匹配情绪评估向量。

根据本公开的实施例，在所述从情绪知识库中取出与所述索引数据相匹配的情绪评估向量之前，还包括获得所述情绪知识库，具体包括：将情绪文本数据集输入至可微神经计算机模型进行处理，得到所述可微神经计算机模型的外部存储矩阵，其中，所述情绪文本数据集包括至少一个用于训练所述可微神经计算机模型的文本；根据所述外部存储矩阵得到所述情绪知识库。

根据本公开的实施例，所述满意度识别模型包括第一神经网络模型、第二神经网络模型和分类模型，所述分类模型为机器学习模型，将所述时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果包括：使所述第一神经网络模型处理所述时序情绪向量序列，得到情绪变化热向量；使所述第二神经网络模型处理所述时序情绪向量序列，得到情绪评估中间向量；将所述情绪变化热向量和所述情绪评估中间向量输入至所述分类模型，获得所述客户满意度识别结果。

根据本公开的实施例，所述获得客户在预定时间段内M个时刻的客户图像包括：获得在所述预定时间段内的视频数据，其中，所述视频数据中至少两个图像帧包括所述客户；对所述视频数据中的N个图像帧进行客户重识别，N为大于或等于2的整数，N大于或等于M；基于所述客户重识别的结果，从所述N个图像帧中获得所述M个时刻的客户图像。

根据本公开的实施例，所述根据所述M个时刻中每个时刻的客户图像，获得所述客户在所述每个时刻的姿态预测结果包括：将所述每个时刻的客户图像输入至姿态识别模型，获得所述每个时刻的姿态预测结果，其中，所述每个时刻的姿态预测结果用于表征该时刻所述客户的第一情绪，所述姿态识别模型通过密集连接方式构建获得。

根据本公开的实施例，所述根据所述M个时刻中每个时刻的客户图像，获得所述客户在所述每个时刻的表情预测结果包括：将所述每个时刻的客户图像输入至表情识别模型，获得所述每个时刻的表情预测结果，其中，所述每个时刻的表情预测结果用于表征该时刻所述客户的第二情绪，所述第一情绪与所述第二情绪相同或不同，所述表情识别模型通过分层特征聚合方式构建获得。

根据本公开的实施例，将所述每个时刻的客户图像输入至表情识别模型包括：对所述每个时刻的客户图像进行超分辨率重建，得到每个时刻的超分辨率客户图像；将所述每个时刻的超分辨率客户图像输入至所述表情识别模型。

本公开实施例的另一方面提供了一种客户满意度识别装置，包括：图像获得模块，用于获得客户在预定时间段内M个时刻的客户图像，M为大于或等于2的整数；姿态和表情预测模块，用于根据所述M个时刻中每个时刻的客户图像，获得所述客户在所述每个时刻的姿态预测结果和表情预测结果；第一向量模块，用于根据所述每个时刻的姿态预测结果和表情预测结果，得到所述每个时刻的情绪评估向量；第二向量模块，用于将所述每个时刻的情绪评估向量按照对应时刻在所述M个时刻中的时间顺序进行组装，得到时序情绪向量序列，其中，所述时序情绪向量序列包括M个情绪评估向量；满意度识别模块，用于将所述时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果，其中，所述客户满意度识别结果用于表征所述客户在所述预定时间段内的情绪变化趋势。

本公开实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。

上述一个或多个实施例具有如下有益效果：获得M个时刻中每个时刻的姿态预测结果和表情预测结果，并得到每个时刻的情绪评估向量，以此将M个情绪评估向量按照对应时刻在M个时刻中的时间顺序进行组装得到时序情绪向量序列，将时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果。从而能够结合姿态和表情，避免了仅利用其中一个而得到的预测结果不准确，并考虑到客户在特定时间段内情绪变化情况，通过在时间序列维度上得到的时序情绪向量序列来进行识别，以得到准确的客户满意度结果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的客户满意度识别方法的应用场景图；

图2示意性示出了根据本公开实施例的客户满意度识别方法的流程图；

图3示意性示出了根据本公开实施例的获得客户画像的流程图；

图4示意性示出了根据本公开实施例的姿态识别模型的架构图；

图5示意性示出了根据本公开实施例的表情识别模型的架构图；

图6示意性示出了根据本公开实施例的重建客户图像的流程图；

图7示意性示出了根据本公开实施例的情绪评估知识模型的架构图；

图8示意性示出了根据本公开实施例的得到情绪评估向量的流程图；

图9示意性示出了根据本公开实施例的获得情绪知识库的流程图；

图10示意性示出了根据本公开实施例的满意度识别模型的架构图；

图11示意性示出了根据本公开实施例的获得客户满意度识别结果的流程图；

图12示意性示出了根据本公开的另一实施例的客户满意度识别方法的流程图；

图13示意性示出了根据本公开实施例的客户满意度识别装置的结构框图；

图14示意性示出了根据本公开实施例的适于实现客户满意度识别方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1示意性示出了根据本公开实施例的客户满意度识别方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括摄像头111、112，服务器120，A客户131，B客户132和网络140。网络140用以在摄像头111、112和服务器120之间提供通信链路的介质。网络140可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

可以使用终端设备(未示出)接收摄像头111、112拍摄的视频或图像，还可以使用终端设备与服务器120进行交互，如发送客户满意度识别指令或接收客户满意度识别结果等。终端设备上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。在一些实施例中，摄像头111、112可以由具有摄像功能的终端设备来实现。

服务器120可以是提供各种服务的服务器，例如对用户利用终端设备所浏览的网站提供支持或运行人工智能模型处理数据以识别客户满意度的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的客户满意度识别方法一般可以由服务器120执行。相应地，本公开实施例所提供的客户满意度识别装置一般可以设置于服务器120中。本公开实施例所提供的客户满意度识别方法也可以由不同于服务器120且能够与终端设备101、102、103和/或服务器120通信的服务器或服务器集群执行。相应地，本公开实施例所提供的客户满意度识别装置也可以设置于不同于服务器120且能够与终端设备101、102、103和/或服务器120通信的服务器或服务器集群中。

应该理解，应用场景100可以是室内环境，也可以是室外环境。图1中的摄像头的位置和数量仅仅是示意性地，根据实现需要，可以具有任意数目或设置在任意位置的摄像头。类似地，客户、网络和服务器的数量仅仅是示意性的。根据实现需要，可以具有任意数量的客户、网络和服务器。

以下将基于图1描述的场景，通过图2～图12对本公开实施例的客户满意度识别方法进行详细描述。

图2示意性示出了根据本公开实施例的客户满意度识别方法的流程图。

如图2所示，该实施例的客户满意度识别方法包括操作S210～操作S250。

在操作S210，获得客户在预定时间段内M个时刻的客户图像，M为大于或等于2的整数。

参照图1，可以利用摄像头111、112获得A客户132或B客户的客户图像。例如图1中的场景为银行的营业厅，预定时间段可以是客户进入营业厅与离开营业厅的时间段，也可以是接受某项服务(如贷款、存款或办卡等服务)的开始与结束之间的时间。

示例性地，每个时刻可以获得一张或多张图像，其目的在于获得当前时刻客户的身体图像(如头部、躯干和四肢)和脸部图像(可以从身体图像中获取，也可以单独获取)。身体图像用于进行姿态识别，脸部图像用于表情识别。

在操作S220，根据M个时刻中每个时刻的客户图像，获得客户在每个时刻的姿态预测结果和表情预测结果。

示例性地，姿态预测结果和表情预测结果可以是向量，也可以是情绪类别。上述向量可以是将图像输入至神经网络模型得到的特征图。情绪类别可以是对特征图进行分类得到的结果，如生气、厌恶、害怕、开心、中性、悲伤或惊讶等类别。其中，通过客户的姿态得到肢体语言(例如，姿势，动作等)可以反应的情绪，通过客户的表情变化得到如微表情可以应用的情绪。

在操作S230，据每个时刻的姿态预测结果和表情预测结果，得到每个时刻的情绪评估向量。

示例性地，该操作中并非直接得到每个时刻的满意度类别，而是可以获得中间向量，为后续得到时间序列维度的数据做准备，可以节省计算资源。根据每个时刻的情绪评估向量得到时序情绪向量序列，而非根据每个时刻的满意度类别，一定程度上可以避免每个时刻的满意度类别不准确而对最终结果造成的不利影响。

在一些实施例中，还可获得客户的录音，通过客户的声调变化、语气变化或录音内容等来预测客户的情绪。并将录音预测结果、姿态预测结果和表情预测结果相结合(如三者作为操作S230的输入得到情绪评估向量)，来确定客户的最终情绪。

在操作S240，将每个时刻的情绪评估向量按照对应时刻在M个时刻中的时间顺序进行组装，得到时序情绪向量序列，其中，时序情绪向量序列包括M个情绪评估向量。

示例性地，时序情绪向量序列可以认为是包含与M个时刻一一对应地M个情绪评估向量的序列，且M个情绪评估向量之间在序列中的顺序与对应时刻的时间顺序一致。

在操作S250，将时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果，其中，客户满意度识别结果用于表征客户在预定时间段内的情绪变化趋势。

例如A客户111进入银行营业厅办理贷款业务，其进入大厅时处于悲伤情绪，随着贷款业务的办理，其逐渐由悲伤转为中性并离开营业厅。A客户111在办理业务期间的情绪变化趋势是向好的变化，从而可以认为客户满意度是正面的。因此客户满意度识别结果考虑到了预定时间段内客户的动态情绪变化，而非根据客户最终的中性情绪就认定客户满意度较低。从而可以根据预定时间段内的情绪变化趋势来赋值得到客户满意度分数。

根据本公开的实施例，获得M个时刻中每个时刻的姿态预测结果和表情预测结果，并得到每个时刻的情绪评估向量，以此将M个情绪评估向量按照对应时刻在M个时刻中的时间顺序进行组装得到时序情绪向量序列，将时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果。从而能够结合姿态和表情，避免了仅利用其中一个而得到的预测结果不准确，并考虑到客户在特定时间段内情绪变化情况，通过在时间序列维度上得到的时序情绪向量序列来进行识别，以得到准确的客户满意度结果。

图3示意性示出了根据本公开实施例的获得客户画像的流程图。

如图3所示，操作S210中获得客户在预定时间段内M个时刻的客户图像包括操作S310～操作S330。

在操作S310，获得在预定时间段内的视频数据，其中，视频数据中至少两个图像帧包括客户。

参照图1，视频数据可以是一个摄像头拍摄得到的视频文件，也可以是多个摄像头拍摄得到的摄像文件。可能每个摄像头在一些画面内没有拍摄到某个客户，则可以使用其他摄像头拍摄的画面。其目的在于能够确定同一个客户在每个时刻的身份图像和脸部图像，以便于进行姿态识别和表情识别。

在操作S320，对视频数据中的N个图像帧进行客户重识别，N为大于或等于2的整数，N大于或等于M。

在一些实施例中，客户重识别采用行人重识别技术实现，行人重识别(Person Re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。或者说，行人重识别是指在已有的可能来源与非重叠摄像机视域的视频序列中识别出目标行人。

在操作S330，基于客户重识别的结果，从N个图像帧中获得M个时刻的客户图像。

示例性地，比如N为100，M为50，操作S330中可以确定出50张拍摄到客户的图像帧，并将该些图像帧作为客户图像，或者从该些图像帧中截图出客户图像。

图4示意性示出了根据本公开实施例的姿态识别模型的架构图。

根据本公开的实施例，根据M个时刻中每个时刻的客户图像，获得客户在每个时刻的姿态预测结果包括：将每个时刻的客户图像输入至姿态识别模型，获得每个时刻的姿态预测结果，其中，每个时刻的姿态预测结果用于表征该时刻客户的第一情绪，姿态识别模型通过密集连接方式构建获得。

示例性地，参照图4，密集连接方式将姿态识别模型中的所有层两两之间都进行了连接，使得模型中每一层都接受它前面所有层的特征作为输入。

姿态识别模型接收客户的身体图像，并给出当前帧姿态预测结果。考虑到该任务是一个分类任务，且目标较大，需要能够兼顾高层语义(如客户的身体轮廓)和底层视觉信息(如客户的衣服样式、衣服颜色和配件等细节)，所以构建一个密集连接的分类网络作为姿态识别模型。其中，第一情绪可以是如生气、厌恶、害怕、开心、中性、悲伤或惊讶等类别中的任一个。

在一些情况下，仅依靠肢体动作可能无法完全准确地评估出客户当前的情绪，因为人体姿态因人而异，受风俗、习惯等影响较大，而在用户基数、客群以及用户横跨的阶层、行业都较大时，肢体动作对情绪的表达差异会非常大，单纯依靠姿态指标得到判断结果与实际情况可能存在较大失真，引入了客户表情识别指标，通过表情和姿态综合评估客户满意度。

图5示意性示出了根据本公开实施例的表情识别模型的架构图。

根据本公开的实施例，根据M个时刻中每个时刻的客户图像，获得客户在每个时刻的表情预测结果包括：将每个时刻的客户图像输入至表情识别模型，获得每个时刻的表情预测结果，其中，每个时刻的表情预测结果用于表征该时刻客户的第二情绪，第一情绪与第二情绪相同或不同，表情识别模型通过分层特征聚合方式构建获得。

其中，第二情绪可以是如生气、厌恶、害怕、开心、中性、悲伤或惊讶等类别中的任一个。因为第一情绪是根据姿态识别得到，第二情绪是根据表情识别得到，所以可能存在两者不同的情况。

参照图5，利用分层特征聚合方式可以构建分层特征聚合网络/特征金字塔网络(Feature Parymid Network)作为表情识别模型，其具有自上而下的网络结构和横向连接，能够将具有高分辨率的低层特征与具有丰富语义信息的高层特征融合。考虑到人脸是客户图像中的局部像素，需要能够更精细的局部建模，因此采用图5中特征映射递减的分层网络结构，得到不同层级的特征最后再聚合，给出表情预测结果。一些实施例中，可以在训练表情识别模型的过程中进行脸部定位，增加脸部定位是为了在模型学习人脸特征过程中施加额外的强制约束，提高学习时预测结果的可靠性。

图6示意性示出了根据本公开实施例的重建客户图像的流程图。

如图6所示，该实施例的将每个时刻的客户图像输入至表情识别模型包括将客户图像进行超分辨率重建后输入至模型，具体包括操作S610～操作S620。

在操作S610，对每个时刻的客户图像进行超分辨率重建，得到每个时刻的超分辨率客户图像。

图像的超分辨率重建技术指的是将给定的低分辨率图像通过特定的算法恢复成相应的高分辨率图像。对每个时刻的客户图像进行超分辨率重建即是从给定的低分辨率脸部图像中重建出高分辨率脸部图像的过程。

在操作S620，将每个时刻的超分辨率客户图像输入至表情识别模型。

在室内环境中，考虑到摄像头一般位于室内顶部，距离客户比较远，存在成像失真的问题，特别是对于人脸这种占像素比例更小的局部区域。在室外环境中较为空旷，摄像头离客户可能也较远。为了得到更清晰人脸表情信息，首先采用一个超分辨率网络对输入的客户图像(身体整体图像或脸部图像，可以通过重识别过程中的ROI(region of interest，感兴趣区域)区域得到)进行超分辨率重建，得到更高精度的客户图像，然后再用表情识别模型对表情信息进行建模。克服或补偿了由于摄像头或采集环境本身的限制，导致的成像图像模糊、质量低下、感兴趣区域不显著等问题。

图7示意性示出了根据本公开实施例的情绪评估知识模型的架构图。如图7所示，情绪评估模型700接受表情和姿态预测结果作为输入，通过由长短期记忆网络(LSTM，LongShort-Term Memory)构建变换函数后输出情绪向量在情绪知识库的索引，最后根据索引在情绪知识库中取出情绪向量作为情绪评估结果输出。

图8示意性示出了根据本公开实施例的得到情绪评估向量的流程图。

如图8所示，操作S230中根据每个时刻的姿态预测结果和表情预测结果，得到每个时刻的情绪评估向量包括操作S810～操作S830。

在操作S810，将每个时刻的姿态预测结果和表情预测结果输入至情绪评估知识模型，获得情绪评估知识模型的输出向量，其中，情绪评估知识模型根据长短期记忆网络构建获得。

在操作S820，根据输出向量得到索引数据。

参照图7，情绪评估模型700包括变体模型710和情绪知识库720。其中，控制器711是基于可微神经计算机(Differentiable neural computer)的控制器结构由一个变体的LSTM构建。其中，h为隐藏向量，c为记忆向量，v是当前输入经过变换得输出，o为输出向量，x为情绪评估向量，下标t表示时间步，i表示情绪知识库中情绪向量的索引。在一些实施例中，可以直接将o

在操作S830，从情绪知识库中取出与索引数据相匹配的情绪评估向量，其中，情绪知识库中包括至少一个待匹配情绪评估向量。

示例性地，可以对o

根据本公开的实施例，在情绪评估知识模型执行阶段，对于每个时刻不会直接给出情绪评估的直接结果，而是输出一个情绪评估向量，用于描述更小细粒度的情绪状态。情绪知识库中的待匹配情绪评估向量可以是预先确定的先验知识，从其中取出匹配的数据可以提高可靠性。

图9示意性示出了根据本公开实施例的获得情绪知识库的流程图。

如图9所示，在从情绪知识库中取出与索引数据相匹配的情绪评估向量之前，还包括获得情绪知识库，该实施例的获得情绪知识库包括操作S910～操作S920。

在操作S910，将情绪文本数据集输入至可微神经计算机模型进行处理，得到可微神经计算机模型的外部存储矩阵，其中，情绪文本数据集包括至少一个用于训练可微神经计算机模型的文本。

示例性地，情绪文本数据集中的文本可以包括可以表现情绪的文字，也可以是根据姿态识别或表情识别得到的预测内容。

可微神经计算机模型具有一个或多个单元(cell)，任一个单元主要由一个控制器和一个存储器构成，其中，控制器可以是人工神经网络，也可以是其他的机器学习模型。存储器可以理解为由读写头、内存单元和一些保存存储状态的单元(即外部存储矩阵)组成。

在操作S920，根据外部存储矩阵得到情绪知识库。

可以取可微神经计算机模型在情绪文本数据集收敛后的外部存储矩阵作为情绪知识库。例如先将情绪文本数据集的一部分训练可微神经计算机模型，在可微神经计算机模型的损失函数趋于收敛后，将的情绪文本数据集的其余部分输入可微神经计算机模型，并取该部分对应的外部存储矩阵作为情绪知识库。

在一些实施例中，情绪知识库不参与情绪评估模型训练，仅作为外部知识库提供情绪评估结果，其本身通过可微神经计算机模型在情绪评估数据集上收敛得到，还可以混入人工编码的情绪评估知识向量，以增强评估结果的准确性。其作用在于，情绪知识库可以单独维护，更方便融入专家知识，避免通过单纯的机器学习导致的不可靠性。

图10示意性示出了根据本公开实施例的满意度识别模型的架构图。图11示意性示出了根据本公开实施例的获得客户满意度识别结果的流程图。

如图11所示，操作S250中将时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果包括操作S1110～操作S1130。

满意度识别模型包括第一神经网络模型、第二神经网络模型和分类模型，分类模型为机器学习模型。参照图10，x表示情绪评估向量，t下标表示时间步。GRU(GatedRecurrent Unit)为门控制循环单元，第一神经网络模型为由两个GRU组成的循环神经网络，第二神经网络模型为MLP(Multilayer Perceptron，多层感知机)模型，分类模型为SVM(Support Vector Machine，支持向量机)模型。

需要说明的是，图10中满意度识别模型仅是示例性地，根据实际需要可以采用其他网络结构或类型来实现第一神经网络模型、第二神经网络模型和分类模型。

在操作S1110，使第一神经网络模型处理时序情绪向量序列，得到情绪变化热向量。

在操作S1120，使第二神经网络模型处理时序情绪向量序列，得到情绪评估中间向量。

在操作S1130，将情绪变化热向量和情绪评估中间向量输入至分类模型，获得客户满意度识别结果。

其中，M个时刻序列上的情绪变化热向量可以表征客户的情绪变化趋势，情绪评估中间向量通过进一步对多个情绪评估向量进行特征融合获得。

示例性地，如操作S1110～操作S1130描述，首先，取出对于单个客户(目标)的预定时间段内的情绪评估向量组成连续情绪评估序列作为时序情绪向量序列。接着，时序情绪向量序列经由两个GRU单元组成的循环神经网络得到情绪变化热向量。同时，时序情绪向量序列通过MLP得到一个汇总中间结果(例如MLP对M个情绪评估向量提取特征得到一个中间向量即为情绪评估中间向量)。最后，连接情绪变化热向量以及汇总中间结果放入一个SVM中得到最终的评估结果。

根据本公开的实施例，从情绪变化热向量可以得到客户在预定时间段内情绪突变的状态，以及中间变化的转折点或具体时刻，并将情绪评估中间向量作为对客户在预定时间段内情绪变化的整体概括，从而能够得到更准确的客户满意度识别结果，更好的反映情绪变化趋势。

图12示意性示出了根据本公开的另一实施例的客户满意度识别方法的流程图。

如图12所示，该实施例的客户满意度识别包括操作S1201～操作S1216。其中，检测器采用一个完整得检测网络实现，特征提取、姿态预测和表情预测基于残差模块构建，在此基础上，姿态预测还基于密集连接方式构建，表情预测还基于分层特征聚合方式构建。

在操作S1201～操作S1209对客户进行跟踪重识别/行人重识别。跟踪重识别用于检测和标定进入场所的客户，为后续客户姿态和情态识别提供基本特征信息，以及用于监测和标记客户在受服务过程中固定标签(从客户出现到离开标签不变，以锁定特定目标)，以便于在完整服务流程中获取用户满意度动态变化(如通过情绪的变化来表征)，更准确全面地评估服务质量，查漏补缺，提升服务和产品的质量和形象。具体如下。

在操作S1201，从摄像头拍摄的视频数据中获得M个时刻的客户图像。例如从银行营业厅摄像头采集后经过间隔为S的周期采样离散化后传入服务器进行检测和评估用户满意度。

在操作S1202，将客户图像输入至检测器。

在操作S1203，输入图像经过行人检测器对客户进行监测和识别，得到一个或多个检测框。

在操作S1204，采用一个或多个检测框在原图像上对客户所在感兴趣区域(regionof interest，RoI)进行截图。例如感兴趣区域可以是人体结构的多个局部区域，如三个大区域(头、上身、下身)和四个四肢小区域。

在操作S1205，把一个或多个RoI(s)送入到特征提取器提取特征。

在操作S1206，把操作S1205所提取特征与缓存的历史特征计算余弦相似度得到上下帧中同一个客户的重识别度量(余弦度量)。

在操作S1207，把重识别度量送入到线性卡尔曼滤波器中。

在操作S1208，把一个或多个检测框送入到线性卡尔曼滤波器中。

在操作S1209，线性卡尔曼滤波根据重识别度量和一个或多个检测框，最后得到客户在当前帧的整体预测框和重识别标识(即固定标签)。例如对各个ROI区域处理得到对应的局部特征，之后多个局部特征进行联结，最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征，从而确定整体预测框和重识别标识。(x’，y，r，h，i’)表示重识别跟踪预测输出，(x’，y)表示检测目标的中心坐标，r表示整体预测框宽高比，h表示整体预测框高度，i’表示重识别标识。

在操作S1210～操作S1214，鉴于情绪评估是一个比较复杂的工程，通过简单检索元素组合的方式难以有效得出准确的情绪评估结果。因此，在情绪评估阶段，接收图像跟踪网络的表情预测结果和姿态预测结果，不会直接给出情绪评估的直接结果，而是输出一个情绪评估向量，用于描述更小细粒度的情绪状态。具体如下。

在操作S1210，利用图4所示结构构建的姿态识别模型对ROI区域截图进行姿态识别，得到姿态识别结果。

在操作S1211，使超分辨网络对ROI区域截图进行超分辨重建。

在操作S1212，利用图5所示结构构建的表情识别模型对超分辨重建后的ROI区域截图进行表情识别，得到表情识别结果。

在操作S1213，将姿态识别结果和表情识别结果输入至情绪评估知识系统，输出每个时刻的情绪评估向量。情绪评估知识系统用于运行图7所示的情绪评估知识模型。

在操作S1214～操作S1216，通过时序情绪向量序列得到该客户的满意度，并通过汇总得到最终的产品或服务满意度画像，且可以在前端可视化展示。具体如下。

在操作S1214，将M个时刻的情绪评估向量进行累计建模。累计建模的过程即运行图10所示的满意度识别模型，以执行操作S1110～操作S1130。

在操作S1215，获得客户的满意度识别结果，并得到最终的产品或服务满意度评估结果。

在操作S1216，对每个客户的满意度，和产品或服务的满意度进行前端可视化。

根据本公开的实施例，引入重识别和动作捕获等视觉应用技术，结合监控系统，从人群的动作和表情捕捉和识别用户在某一范围内(如营业厅、产品或服务等)的情绪变化，得到该用户的满意度评分，并通过汇总得到最终的用户满意度画像。

基于上述客户满意度识别方法，本公开还提供了一种客户满意度识别装置。以下将结合图13对该装置进行详细描述。

图13示意性示出了根据本公开实施例的客户满意度识别装置的结构框图。

如图13所示，该实施例的客户满意度识别装置1300包括图像获得模块1310、姿态和表情预测模块1320、第一向量模块1330、第二向量模块1340和满意度识别模块1350。

图像获得模块1310可以执行操作S210，用于获得客户在预定时间段内M个时刻的客户图像，M为大于或等于2的整数。

根据本公开的实施例，图像获得模块1310还可以执行操作S310～操作S330，在此不做赘述。

姿态和表情预测模块1320可以执行操作S220，用于根据M个时刻中每个时刻的客户图像，获得客户在每个时刻的姿态预测结果和表情预测结果。

根据本公开的实施例，客户满意度识别装置1300还可以包括超分辨率模块，该模块可以执行操作S610～操作S620，在此不做赘述。

第一向量模块1330可以执行操作S230，用于根据每个时刻的姿态预测结果和表情预测结果，得到每个时刻的情绪评估向量。

根据本公开的实施例，第一向量模块1330还可以执行操作S810～操作S830，操作S910～操作S920在此不做赘述。

第二向量模块1340可以执行操作S240，用于将每个时刻的情绪评估向量按照对应时刻在M个时刻中的时间顺序进行组装，得到时序情绪向量序列，其中，时序情绪向量序列包括M个情绪评估向量。

满意度识别模块1350可以执行操作S250，用于将时序情绪向量序列输入至预先训练的满意度识别模型，获得客户满意度识别结果，其中，客户满意度识别结果用于表征客户在预定时间段内的情绪变化趋势。

根据本公开的实施例，满意度识别模块1350还可以执行操作S1110～操作S1130，在此不做赘述。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例，图像获得模块1310、姿态和表情预测模块1320、第一向量模块1330、第二向量模块1340和满意度识别模块1350中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。

根据本公开的实施例，图像获得模块1310、姿态和表情预测模块1320、第一向量模块1330、第二向量模块1340和满意度识别模块1350中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，图像获得模块1310、姿态和表情预测模块1320、第一向量模块1330、第二向量模块1340和满意度识别模块1350中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图14示意性示出了根据本公开实施例的适于实现客户满意度识别方法的电子设备的方框图。

如图14所示，根据本公开实施例的电子设备1400包括处理器1401，其可以根据存储在只读存储器(ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(RAM)1403中的程序而执行各种适当的动作和处理。处理器1401例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1401还可以包括用于缓存用途的板载存储器。处理器1401可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1403中，存储有电子设备1400操作所需的各种程序和数据。处理器1401、ROM 1402以及RAM 1403通过总线1404彼此相连。处理器1401通过执行ROM 1402和/或RAM1403中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1402和RAM 1403以外的一个或多个存储器中。处理器1401也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1400还可以包括输入/输出(I/O)接口1405，输入/输出(I/O)接口1405也连接至总线1404。电子设备1400还可以包括连接至I/O接口1405的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407；包括硬盘等的存储部分1408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1410上，以便于从其上读出的计算机程序根据需要被安装入存储部分1408。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1402和/或RAM 1403和/或ROM 1402和RAM 1403以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器1401执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1409被下载和安装，和/或从可拆卸介质1411被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1409从网络上被下载和安装，和/或从可拆卸介质1411被安装。在该计算机程序被处理器1401执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于微表情的客户满意度识别方法、装置、终端及介质 [P] . 中国专利： CN110705349A . 2020-01-17
2. 客户满意度的预测方法、装置、设备和介质 [P] . 中国专利： CN114818944A . 2022-07-29
3. PRINTING APPARATUS WITH A MODIFICATION PRINTING MEDIUM CORRECTING DEVICE FOR INCREASING CLIENT SATISFACTION [P] . 韩国专利： KR20130014361A . 2013-02-07

机译：使用改进的打印介质校正设备打印设备，以提高客户满意度
4. METHOD AND APPARATUS FOR IDENTIFYING CUSTOMER SATISFACTION ON BASIS OF MICRO-EXPRESSIONS, TERMINAL AND MEDIUM [P] . WO2021036664A1 . 2021-03-04

机译：用于根据微表达，终端和介质识别客户满意度的方法和装置
5. CLIENT/SERVER SPEECH RECOGNIZING METHOD, SPEECH RECOGNIZING METHOD OF SERVER COMPUTER, SPEECH FEATURE QUANTITY EXTRACTING/TRANSMITTING METHOD, AND SYSTEM AND DEVICE USING THESE METHODS, AND PROGRAM AND RECORDING MEDIUM [P] . 日本专利： JP2006350090A . 2006-12-28

机译：客户/服务器语音识别方法，服务器计算机的语音识别方法，语音特征量提取/发送方法以及使用这些方法的系统和设备，程序和记录介质