首页> 中国专利> 一种会议发言人追踪方法、装置、计算机设备及存储介质

一种会议发言人追踪方法、装置、计算机设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种会议发言人追踪方法、装置、计算机设备及存储介质，该方法包括：获取包含每一参会人员人脸图像信息的视频信息，并基于每一参会人员的人脸图像信息获取每一参会人员的嘴唇面积；对每一参会人员的嘴唇面积进行实时监测，并判断是否存在嘴唇面积达到预设面积阈值的参会人员；若存在嘴唇面积达到预设面积阈值的参会人员，则将嘴唇面积达到预设面积阈值的参会人员作为目标人员；获取所述目标人员的音频信息，并播放所述目标人员的音频信息以及投影所述目标人员的视频信息。本发明通过对每一参会人员的嘴唇面积进行监测判断，可以快速确定对应的参会人员是否处于发言状态，从而快速准确地确定会议发言人。

著录项

公开/公告号CN112633219A

专利类型发明专利
公开/公告日2021-04-09

原文格式PDF
申请/专利权人深圳市皓丽智能科技有限公司;
展开▼

申请/专利号CN202011609884.2
发明设计人凌斌;廖明章;谭勇;
展开▼

申请日2020-12-30
分类号G06K9/00(20060101);G06K9/40(20060101);G06T7/246(20170101);G06T7/62(20170101);G06T5/00(20060101);
代理机构44242 深圳市精英专利事务所;
代理人武志峰
地址 518000 广东省深圳市龙岗区坂田街道岗头社区五和大道4023号1号楼第二层E区
入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及计算机应用技术领域，特别涉及一种会议发言人追踪方法、装置、计算机设备及存储介质。

背景技术

当前，现有技术采用发言人的音频以及音频时间戳的方式来追踪确定会议发言人，但是这种方式容易受噪音影响，导致在追踪发言人时可能存在误差，从而不能准确地确定会议发言人。

发明内容

本发明实施例提供了一种会议发言人追踪方法、装置、计算机设备及存储介质，旨在快速精准地确定会议发言人。

第一方面，本发明实施例提供了一种会议发言人追踪方法，包括：

获取包含每一参会人员人脸图像信息的视频信息，并基于每一参会人员的人脸图像信息获取每一参会人员的嘴唇面积；

对每一参会人员的嘴唇面积进行实时监测，并判断是否存在嘴唇面积达到预设面积阈值的参会人员；

若存在嘴唇面积达到预设面积阈值的参会人员，则将嘴唇面积达到预设面积阈值的参会人员作为目标人员；

获取所述目标人员的音频信息，并播放所述目标人员的音频信息以及投影所述目标人员的视频信息。

第二方面，本发明实施例提供了一种会议发言人追踪装置，包括：

视频信息获取单元，用于获取包含每一参会人员人脸图像信息的视频信息，并基于每一参会人员的人脸图像信息获取每一参会人员的嘴唇面积；

实时检测单元，用于对每一参会人员的嘴唇面积进行实时监测，并判断是否存在嘴唇面积达到预设面积阈值的参会人员；

第一目标确定单元，用于若存在嘴唇面积达到预设面积阈值的参会人员，则将嘴唇面积达到预设面积阈值的参会人员作为目标人员；

第一播放投影单元，用于获取所述目标人员的音频信息，并播放所述目标人员的音频信息以及投影所述目标人员的视频信息。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的会议发言人追踪方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的会议发言人追踪方法。

本发明实施例提供了一种会议发言人追踪方法、装置、计算机设备及存储介质，该方法包括：获取包含每一参会人员人脸图像信息的视频信息，并基于每一参会人员的人脸图像信息获取每一参会人员的嘴唇面积；对每一参会人员的嘴唇面积进行实时监测，并判断是否存在嘴唇面积达到预设面积阈值的参会人员；若存在嘴唇面积达到预设面积阈值的参会人员，则将嘴唇面积达到预设面积阈值的参会人员作为目标人员；获取所述目标人员的音频信息，并播放所述目标人员的音频信息以及投影所述目标人员的视频信息。本发明实施例通过对每一参会人员的嘴唇面积进行监测判断，可以快速确定对应的参会人员是否处于发言状态，从而快速准确地确定会议发言人。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种会议发言人追踪方法的流程示意图；

图2为本发明实施例提供的一种会议发言人追踪方法中步骤S101的子流程示意图；

图3为本发明实施例提供的一种会议发言人追踪装置的示意性框图；

图4为本发明实施例提供的一种会议发言人追踪装置中视频信息获取单元301的子示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种会议发言人追踪方法的流程示意图，具体包括：步骤S101～S104。

S101、获取包含每一参会人员人脸图像信息的视频信息，并基于每一参会人员的人脸图像信息获取每一参会人员的嘴唇面积；

S102、对每一参会人员的嘴唇面积进行实时监测，并判断是否存在嘴唇面积达到预设面积阈值的参会人员；

S103、若存在嘴唇面积达到预设面积阈值的参会人员，则将嘴唇面积达到预设面积阈值的参会人员作为目标人员；

S104、获取所述目标人员的音频信息，并播放所述目标人员的音频信息以及投影所述目标人员的视频信息。

本实施例中，在对会议发言人进行追踪确定时，通过对参会人员的嘴唇面积来确定相应的参会人员是否在发言。当参会人员的嘴唇面积达到预设面积阈值时，则可以确定相应的参会人员处于发言状态，此时可以获取该参会人员(即所述目标人员)的音频信息，并将该参会人员的音频信息进行播放以及将该参会人员的视频信息进行投影，以告知其余参会人员。

本实施例通过对每一参会人员的嘴唇面积进行监测判断，可以快速确定对应的参会人员是否处于发言状态，从而快速准确地确定会议发言人。

可以理解的是，本实施例中的每一参会人员均可通过一会议终端进行视频信息和音频信息的获取，或者是通过安装在参会人员的当前位置周围的摄像头获取视频信息以及通过安装于参会人员身边的麦克风获取音频信息。还需说明的是，本实施例所述的预设面积阈值可以基于每一参会人员在未开口的情况下进行设定，换句话说，当一参会人员开口时，则认为该参会人员的嘴唇面积达到预设面积阈值。

在一实施例中，如图2所示，所述步骤S101包括：步骤S201～S205。

S201、针对每一参会人员，对所述人脸图像信息进行去噪和腐蚀预处理；

S202、获取经过预处理的人脸图像信息中的像素坐标，并利用下列公式将所述人脸图像信息进行灰度处理，得到灰度人脸图像：

I(x,y)＝1/3*I_R(x,y)+1/3*I_G(x,y)+1/3*I_B(x,y)

式中，I(x,y)为像素I的坐标，I_R(x,y)为像素I的R通道值，I_G(x,y)为像素I的G通道值，I_B(x,y)为像素I的B通道值；

S203、利用图像二值化处理对所述灰度人脸图像进行局部阈值处理，以获取所述灰度人脸图像中的嘴唇区域；

S204、通过膨胀腐蚀算法去除所述嘴唇区域内的噪声点，并利用最小外接矩形确定嘴唇区域内的嘴唇轮廓；

S205、计算所述最小外接矩形面积，并将计算结果作为嘴唇面积。

本实施例中，在获取到每一参会人员的视频信息中，基于视频信息可以获取每一参会人员的人脸图像信息，并对人脸图像信息进行一系列处理以提取每一参会人员的嘴唇面积。具体的，首先对人脸图像信息进行预处理，并对经过预处理的人脸图像信息进行灰度处理，以得到对应的灰度人脸图像，然后对灰度人脸图像进行局部阈值处理，得到灰度人脸图像中的嘴唇区域，对该嘴唇区域进行去噪处理根据最小外接矩形确定最终的嘴唇面积。

在一实施例中，所述步骤S101还包括：

利用角点检测算法确定所述嘴唇区域内的左嘴角坐标和右嘴角坐标；

根据左嘴角坐标中的横坐标和右嘴角坐标中的横坐标计算左嘴角和右嘴角的嘴角长度，并将所述嘴角长度与所述最小外接矩形的长度进行比较；

若所述嘴角长度大于所述最小外接矩形的长度，则将所述嘴角长度与所述最小外接矩形的宽度的乘积作为所述嘴唇面积；

若所述嘴角长度小于或者等于所述最小外接矩形的长度，则将最小外接矩形面积作为所述嘴唇面积。

由于在利用最小外接矩形确定嘴唇区域内的嘴唇轮廓时，形成的最小外接矩形可能并未包括嘴唇的左嘴角和右嘴角这两个坐标点，因此本实施例通过角点检测算法确定左嘴角坐标和右嘴角坐标，以此得到左嘴角和右嘴角之间的距离(即所述嘴角长度)，将嘴角长度与最小外接矩形的长度进行比较，并基于距离更大的计算所述嘴唇面积。

在一实施例中，所述步骤S103包括：

当存在嘴唇面积达到预设面积阈值的参会人员时，将嘴唇面积达到预设面积阈值的参会人员作为候选目标人员；

对所述候选目标人员的嘴唇面积继续监测；

获取所述候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例，若所述时长比例大于预设比例阈值则将候选目标人员作为所述目标人员。

本实施例中，即便一位参会人员的嘴唇面积在某一时刻达到了预设面积阈值，但是这并能确定该参会人员在开口发言，也有可能该参会人员仅仅是进行了开口这一动作，例如打哈欠、打喷嚏等等。因此，为了避免出现上述情况，本实施例对嘴唇面积达到预设面积阈值的参会人员(即所述候选目标人员)继续进行监测，以确定该参会人员是否是处于发言状态。具体的，由于一个人在说话时，嘴唇是处于开合的状态的，即嘴唇并不会一直处于张开状态，也可能处于闭合状态，因此在对所述候选目标人员的嘴唇面积继续监测过程中，其嘴唇面积并不会一直达到预设面积阈值，所以本实施例获取所述候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例，并对所述时长比例与预设比例阈值进行比较，只有在所述时长比例大于预设比例阈值时才将该参会人员作为所述目标人员。

举例来说，设置预设比例阈值为1/2，候选目标人员A在t1时刻嘴唇面积达到了预设面积阈值，此时对候选目标人员A的嘴唇面积继续监测5秒钟(即所述预设时间阈值)，并获取在这5秒钟内候选目标人员A的嘴唇面积达到预设面积阈值的时长比例为4/5(大于1/2)，即在5秒钟内，有4秒钟的时间候选目标人员A的嘴唇面积达到预设面积阈值，那么可以确定所述候选目标人员A正在发言，同时将候选目标人员A作为所述目标人员。

在一实施例中，所述获取所述候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例，若所述时长比例大于预设比例阈值则将候选目标人员作为所述目标人员，包括：

获取所述候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例；

判断所述时长比例是否，以及判断是否检测到所述候选目标人员的音频信息；

若所述时长比例大于预设比例阈值，且检测到所述候选目标人员的音频信息，则将所述候选目标人员作为所述目标人员。

本实施例中，在所述候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例大于预设比例阈值的同时，对所述候选目标人员的音频信息进行检测，避免所述候选目标人员只是一直处于开口而未发声的状态。也就是说，如果一候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例大于预设比例阈值，但是未检测到该候选目标人员音频信息，那么将判定该候选目标人员未在发言。

在一实施例中，所述会议发言人追踪方法还包括：

当同时存在多个嘴唇面积达到预设面积阈值的参会人员时，将多个嘴唇面积达到预设面积阈值的参会人员均作为目标人员；

获取每一参会人员的音频信息和视频信息，并采用多窗口分屏投影对每一目标人员的视频信息进行视屏投影，以及根据预设的发言规则依次播放每一目标人员的音频信息。

本实施例中，当同时存在多个嘴唇面积达到预设面积阈值的参会人员时，则说明这些参会人员均在发言，为了避免在发言的各位参会人员之间造成干扰影响，因此通过预设的发言规则使各位参会人员按照顺序依次发言。所述预设的发言规则可以根据目标人员的身份等级来制定，例如在本次会议中，目标人员A的身份等级高于目标人员B，那么优先播放目标人员A的音频信息；或者根据目标人员的嘴唇面积在首次达到预设面积阈值的时间来确定，例如目标人员A的嘴唇面积在第一次达到预设面积阈值的时间早于目标人员B的嘴唇面积在第一次达到预设面积阈值的时间，那么则先播放目标人员A的音频信息，再播放目标人员B的音频信息。

当然，当存在多位目标人员时，虽然对每一目标人员的音频信息设置了播放顺序，但是可以将所有目标人员的视频信息分屏投影，也就是说，将所有目标人员的视频信息分屏投影，并按照预设的发言规则按照顺序依次播放每一目标人员的音频信息。优选的，在播放当前目标人员的音频信息时，对当前目标人员的视频信息进行放大处理，即对当前目标人员的投影窗口进行放大处理，以突显当前目标人员。

在一实施例中，所述步骤S104包括：

利用声源定位技术对获取的音频信息进行定位；

当定位结果与所述目标人员的位置信息一致时，播放所述目标人员的音频信息以及投影所述目标人员的视频信息。

本实施例中，在获取到所述目标人员的音频信息后，通过声源定位技术对获取的音频信息进行定位，以再次确定所述音频信息对应的发言人的位置，避免在获取目标人员的音频信息过程中出现错误，或者避免在存在多位目标人员的情况下，由于采集的音频信息过多导致发生混乱，进而导致最终播放的音频信息与正在发言的目标人员的音频信息不一致。

在另一实施例中，若存在嘴唇面积达到预设面积阈值的参会人员，则对嘴唇面积达到预设面积阈值的参会人员进行手势检测，若检测到嘴唇面积达到预设面积阈值的参会人员的手势幅度达到预设手势动作阈值，则将嘴唇面积达到预设面积阈值且手势幅度达到预设手势动作阈值的参会人员作为目标人员，然后获取所述目标人员的音频信息，并播放所述目标人员的音频信息以及投影所述目标人员的视频信息。

图3为本发明实施例提供的一种会议发言人追踪装置300的示意性框图，该装置300包括：

视频信息获取单元301，用于获取包含每一参会人员人脸图像信息的视频信息，并基于每一参会人员的人脸图像信息获取每一参会人员的嘴唇面积；

实时检测单元302，用于对每一参会人员的嘴唇面积进行实时监测，并判断是否存在嘴唇面积达到预设面积阈值的参会人员；

第一目标确定单元303，用于若存在嘴唇面积达到预设面积阈值的参会人员，则将嘴唇面积达到预设面积阈值的参会人员作为目标人员；

第一播放投影单元304，用于获取所述目标人员的音频信息，并播放所述目标人员的音频信息以及投影所述目标人员的视频信息。

在一实施例中，如图4所示，所述视频信息获取单元301包括：

预处理单元401，用于对每一参会人员，对所述人脸图像信息进行去噪和腐蚀预处理；

灰度处理单元402，用于获取经过预处理的人脸图像信息中的像素坐标，并利用下列公式将所述人脸图像信息进行灰度处理，得到灰度人脸图像：

I(x,y)＝1/3*I_R(x,y)+1/3*I_G(x,y)+1/3*I_B(x,y)

式中，I(x,y)为像素I的坐标，I_R(x,y)为像素I的R通道值，I_G(x,y)为像素I的G通道值，I_B(x,y)为像素I的B通道值；

二值化处理单元403，用于利用图像二值化处理对所述灰度人脸图像进行局部阈值处理，以获取所述灰度人脸图像中的嘴唇区域；

轮廓确定单元404，用于通过膨胀腐蚀算法去除所述嘴唇区域内的噪声点，并利用最小外接矩形确定嘴唇区域内的嘴唇轮廓；

面积计算单元405，用于计算所述最小外接矩形面积，并将计算结果作为嘴唇面积。

在一实施例中，所述视频信息获取单元301还包括：

角点检测单元，用于利用角点检测算法确定所述嘴唇区域内的左嘴角坐标和右嘴角坐标；

比较单元，用于根据左嘴角坐标中的横坐标和右嘴角坐标中的横坐标计算左嘴角和右嘴角的嘴角长度，并将所述嘴角长度与所述最小外接矩形的长度进行比较；

第一面积确定单元，用于若所述嘴角长度大于所述最小外接矩形的长度，则将所述嘴角长度与所述最小外接矩形的宽度的乘积作为所述嘴唇面积；

第二面积确定单元，用于若所述嘴角长度小于或者等于所述最小外接矩形的长度，则将最小外接矩形面积作为所述嘴唇面积。

在一实施例中，所述第一目标确定单元303包括：

候选目标确定单元，用于当存在嘴唇面积达到预设面积阈值的参会人员时，将嘴唇面积达到预设面积阈值的参会人员作为候选目标人员；

候选监测单元，用于对所述候选目标人员的嘴唇面积继续监测；

第一比例获取单元，用于获取所述候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例，若所述时长比例大于预设比例阈值则将候选目标人员作为所述目标人员。

在一实施例中，所述第一比例获取单元包括：

第二比例获取单元，用于获取所述候选目标人员的嘴唇面积在预设时间阈值内达到预设面积阈值的时长比例；

判断单元，用于判断所述时长比例是否大于预设比例阈值，以及判断是否检测到所述候选目标人员的音频信息；

作为单元，用于若所述时长比例大于预设比例阈值，且检测到所述候选目标人员的音频信息，则将所述候选目标人员作为所述目标人员。

在一实施例中，所述会议发言人追踪装置300还包括：

第二目标确定单元，用于当同时存在多个嘴唇面积达到预设面积阈值的参会人员时，将多个嘴唇面积达到预设面积阈值的参会人员均作为目标人员；

分屏投影单元，用于获取每一参会人员的音频信息和视频信息，并采用多窗口分屏投影对每一目标人员的视频信息进行视屏投影，以及根据预设的发言规则依次播放每一目标人员的音频信息。

在一实施例中，所述第一播放投影单元304包括：

定位单元，用于利用声源定位技术对获取的音频信息进行定位；

第二播放投影单元当定位结果与所述目标人员的位置信息一致时，播放所述目标人员的音频信息以及投影所述目标人员的视频信息。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种会议发言人追踪方法、装置、计算机设备及存储介质 [P] . 中国专利： CN112633219A . 2021-04-09
2. 一种车辆追踪的方法、装置、设备及计算机存储介质 [P] . 中国专利： CN112597830A . 2021-04-02
3. A method for computer-aided is allocated a communication to the right, a method for computer-aided generating a communication quite - request message, communication is quite - allocation - unit, a communication - conference - server unit, a communication - conference - message - generating means, - a communication terminal device and method for computer-aided initializing a conference - message flow in a communications - conference [P] . 德国专利： DE102005049074B4 . 2008-04-03

机译：一种用于计算机辅助的方法在右侧分配了通信，一种用于计算机辅助的方法用于生成通信完全请求消息，通信完全分配单元，通信会议服务器单元，通信会议成员消息-产生装置，-用于计算机辅助初始化会议的通信终端设备和方法-通信中的消息流-会议
4. An apparatus for the realization of an electronic speakers list for conferences, sessions, etc. [P] . 德国专利： DE202018000165U1 . 2018-05-15

机译：一种用于实现会议，会议等的电子发言人列表的装置。
5. TELECOMMUNICATION CONFERENCE SERVER, TELECOMMUNICATION TERMINAL EQUIPMENT, METHOD FOR PRODUCING A TELECOMMUNICATION CONFERENCE CONTROL MESSAGE, METHOD FOR CONTROLLING A TELECOMMUNICATION CONFERENCE, COMPUTER READABLE STORAGE MEDIA AND COMPUTER PROGRAM ELEMENT [P] . 韩国专利： KR100836126B1 . 2008-06-09

机译：电信会议服务器，电信终端设备，生产电信会议控制消息的方法，控制电信会议的方法，计算机可读存储介质和计算机程序元素