公开/公告号CN112861775A
专利类型发明专利
公开/公告日2021-05-28
原文格式PDF
申请/专利权人 苏州威视通智能科技有限公司;
申请/专利号CN202110243416.6
申请日2021-03-05
分类号G06K9/00(20060101);G06K9/54(20060101);G06K9/62(20060101);G06N3/08(20060101);G07C1/10(20060101);H04N5/76(20060101);
代理机构44663 广州博士科创知识产权代理有限公司;
代理人马天鹰
地址 215000 江苏省苏州市工业园区金芳路18号东坊创智园地B3栋3楼
入库时间 2023-06-19 11:08:20
技术领域
本发明涉及会议考勤管理技术领域,特别涉及一种基于深度神经网络的参会人员识别记录系统及方法。
背景技术
考勤管理是企业事业单位对员工出勤进行考察管理的一种管理制度,包括是否迟到早退,有无旷工请假等,在施工现场等处开展会议时也需要对参会人员进行考勤管理,现有技术中对会议的考勤管理方法通常包括人工表格统计填报、手机APP参会填报以及参会刷卡记录三种方法。
上述现有技术中存在以下不足:人工表格统计填报需要配备专门的管理人员对参会人员的信息进行录入和整理。手机APP参会填报需要参会人员必须佩戴手机、电脑等可以承载APP硬件设备,不适用于一些限制使用电子产品或不方便使用电子产品的场所。参会刷卡记录需要参会人员佩戴专用的电子卡,易产生电子卡丢失、代刷的情况。以上三种方法的灵活性和便捷性均存在不足,且准确性难以保证,此问题亟待解决。
发明内容
针对现有技术存在的不足,本发明的目的在于提供基于深度神经网络的参会人员识别记录系统及方法,具有高灵活性和便捷度,自动化准确识别并记录参会人员,有利于降低会议组织的管理难度和管理成本的效果。
一种基于深度神经网络的参会人员识别记录系统,包括相机模块、边缘计算设备以及存储设备,所述相机模块和边缘计算设备均安装在开会区域内,所述边缘计算设备包括供电模块、AI核心运算模块以及网络传输模块,所述边缘计算设备通过网络传输模块与存储设备相连,所述相机模块采集开会区域内的视频和图片,所述网络模块将相机模块采集到的视频和图片传输至存储设备中,所述AI核心运算模块调用存储设备中的视频和图片进行处理、检测和识别。
本发明进一步设置为:所述AI核心运算模块包括模型应用模块,所述模型应用单元包括检测单元、第一判断单元和第二判断单元,使用图像处理算法调取所述相机模块截取每一帧图像输入检测单元,所述检测单元检测图像中的人数和位置;
所述第一判断单元设定开始阈值,图像中人数大于开始阈值且人员分布符合开会特征时判定为会议开始,所述相机模块开始录像;
所述第二判断单元设定结束阈值,图像中人数小于结束阈值且人员分布不符合开会特征时判定为会议结束,所述相机模块结束录像并上传至存储设备保存。
本发明进一步设置为:所述检测单元连接有模型训练模块,所述模型训练模块包括数据集制作单元和模型训练单元,所述数据集制作单元调取所述存储设备中的视频和图像转换成数据集,所述模型训练单元对数据集进行训练并输出模型至所述检测单元。
本发明进一步设置为:所述检测单元通过输入单一图片,得到所有满足参会人员特征的分割实例。
本发明进一步设置为:所述模型训练单元为经过特殊数据训练的模型及其衍生模型,包括FASTER-RCNN、SSD、Yolo。
本发明进一步设置为:所述数据制作单元通过计算机算法对输入图片进行预处理和增强,预处理和增强内容包括色彩空间转换、图像尺寸变换和图像投影变换。
本发明进一步设置为:所述相机模块设置为监控相机、广角相机以及红外线相机任意一种图像采集设备,所述网络传输模块设置为有线网络模块和无线网络模块,所述存储设备设置为硬盘、记忆卡、私有云服务器以及公有云服务器中任意一种。
一种基于深度神经网络的参会人员识别记录方法,包括以下步骤:
S1:数据制作单元调取相机模块上传至存储设备中的视频和照片并进行预处理,形成数据集;
S2:模型训练单元的深度神经网络模型经过不断的调整超参数,并满足设定的识别准确率与召回率后,停止参数调整,并将调整过的模型部署到检测单元
S3:利计算机视觉算法实时调取相机模块,截取每一帧图像输入检测单元中测试好的模型,对人像的个数和位置进行识别后输出至第一判断单元;
S4:图像中人数大于开始阈值,人员分布符合开会特征时第一判断单元判断为会议开始,相机模块开始录像;
S5:图像中人数小于结束阈值,人员分布不符合开会特征时第二判断单元判断为会议结束,相机模块结束录像并保存至存储设备中。
本发明进一步设置为,S1包括以下步骤:
A1:调取存储设备中相机模块拍摄的视频和照片,对视频进行截取,筛选其中带有人像的图片;
A2:使用图像标注工具对图片进行打标签操作;
A3:利用图像处理算法对图片进行resize操作修改大小;
A4:对数据集进行增强操作,对图片进行几何变换、随机修剪、标准化与归一化、亮度和对比度调节,再对数据集进行打乱操作;
A5:将数据集按照m:n的比例分为训练集和测试集,比例根据数据量分为8:2/99:1;
A6:将数据集转换为模型训练所需要的数据格式。
综上所述,本发明具有以下有益效果:
1.通过安装在开会区域的相机模块、边缘计算设备以及存储设备的设置,能够对开会区域的人员进行拍照、识别和记录,有效降低会议组织的管理难度和管理成本。
2.通过检测单元、第一判断单元和第二判断单元的设置,对参会人数和位置进行判断并录像,以便后续考勤统计;
3.通过模型训练模块的设计,提高检测单元的准确性,进一步提高考勤统计的准确性。
附图说明
图1为本发明中各个模块连接示意图;
图2为本发明中用于体现整体工作过程的流程图;
图3为本发明中用于体现模型训练模块的流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等用语为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例:
如图1至图3所示,为本发明中设计的一种基于深度神经网络的参会人员识别记录系统,包括相机模块、边缘计算设备以及存储设备,边缘计算设备带有存储功能,可查询段时间内的数据;相机模块和边缘计算设备均安装在开会区域内,所述相机模块设置为监控相机、广角相机以及红外线相机任意一种图像采集设备,所述网络传输模块设置为有线网络模块和无线网络模块,所述存储设备设置为硬盘、记忆卡、私有云服务器以及公有云服务器中任意一种,边缘计算设备将图片视频和识别结果传输至存储设备是为了更长时间的存储。
如图1所示,本实施例中相机模块设置为广角相机,网络传输模块设置为4G网络模块,存储设备为公有云服务器。边缘计算设备包括供电模块、AI核心运算模块以及网络传输模块,边缘计算设备通过网络传输模块与存储设备相连,相机模块采集开会区域内的视频和图片,网络模块将相机模块采集到的视频和图片传输至存储设备中,AI核心运算模块调用存储设备中的视频和图片进行处理和检测。
如图2和图3所示,AI核心运算模块包括模型应用模块,模型应用单元包括检测单元、第一判断单元和第二判断单元,使用图像处理算法调取相机模块截取每一帧图像输入检测单元,本实施例中图像处理算法为OpenCV,检测单元检测图像中的人数和位置,检测单元通过输入单一图片,得到所有满足参会人员特征的分割实例;
第一判断单元设定开始阈值,图像中人数大于开始阈值且人员分布符合开会特征时判定为会议开始,相机模块开始录像;
第二判断单元设定结束阈值,图像中人数小于结束阈值且人员分布不符合开会特征时判定为会议结束,相机模块结束录像并上传至存储设备保存,开始阈值和结束阈值根据参会人数进行调整。
如图2和图3所示,检测单元连接有模型训练模块,模型训练模块包括数据集制作单元和模型训练单元,数据集制作单元尽可能多的调取存储设备中的视频和图像转换成数据集,模型训练单元对数据集进行训练并输出模型至检测单元。模型训练单元为经过特殊数据训练的模型及其衍生模型,包括但不限于FASTER-RCNN、SSD、Yolo等,本实施例中模型网络采用Darknet框架下的Yolov4神经网络。
本发明还设计了一种基于深度神经网络的参会人员识别记录方法,包括以下步骤:
S1:数据制作单元调取相机模块上传至存储设备中的视频和照片并进行预处理,形成数据集;
S2:模型训练单元的深度神经网络模型经过不断的调整超参数,并满足设定的识别准确率与召回率后,停止参数调整,并将调整过的模型部署到检测单元
S3:利计算机视觉算法实时调取相机模块,截取每一帧图像输入检测单元中测试好的模型,对人像的个数和位置进行识别后输出至第一判断单元;
S4:图像中人数大于开始阈值,人员分布符合开会特征时第一判断单元判断为会议开始,相机模块开始录像;
S5:图像中人数小于结束阈值,人员分布不符合开会特征时第二判断单元判断为会议结束,相机模块结束录像并保存至存储设备中。
本发明进一步设置为,S1包括以下步骤:
A1:调取存储设备中相机模块拍摄的视频和照片,对视频进行截取,筛选其中带有人像的图片;
A2:使用图像标注工具对图片进行打标签操作;
A3:利用图像处理算法对图片进行resize操作修改大小;
A4:对数据集进行增强操作,对图片进行几何变换、随机修剪、标准化与归一化、亮度和对比度调节,再对数据集进行打乱操作;
A5:将数据集按照m:n的比例分为训练集和测试集,比例根据数据量分为8:2/99:1;
A6:将数据集转换为模型训练所需要的数据格式。
首先于搭建设备的工地负责人确定会议的开展位置,在能够清楚拍摄开会全貌的位置安装广角摄像头和AI核心运算模块,设置为云服务器的存储设备通过4G网络获取到相机的实时视频码流。数集制作单元尽可能多的由云服务器端下载相机模块上传的视频和图片,视频和图片包括开会场地未开会的日常状态以及开会状态两种状态,保证数据集的数量和多样性,并由视频中截取需要的图片,在全部图片中筛选带有人像的图片。
然后依次进行打标签、修改图像大小、对数据集进行增强、打乱、任务划分,当数据量很大时训练集和测试集的比例为99:1,反之为8:2,然后根据模型转换需要转换为所需格式的数据集。
进行网络选择,参会人员记录作为一种检测任务,采用目标检测深度神经网络,且实时性要求较高。在电脑上完成网络搭载和配置工作。
根据Darknet框架的需求,将数据集转为voc数据集的格式,从Darknet官网获取Yolov4网络相应权重,然后对网络模型进行个性化更改,修改类别和超参数的设置,根据训练和模型在测试集的效果调整超参数进行训练,直至训练效果符合预期,训练效果包括个数、位置、类别和置信度,再将训练好的模型输出至检测单元。
图像处理算法调用相机模块实时监测和图像截取并输入检测单元,检测单元判断图像中的人数和人员位置,第一判断单元判断人数大于开始阈值时,所述相机模块开始录像。第二判断单元判断人数小于结束阈值时,所述相机模块结束录像,并通过网络模块将录像传输至存储设备中。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
机译: 基于深度神经网络的语言模型插值语音识别记录系统
机译: 基于深度神经网络的特征增强基于深度神经网络和修改损耗函数来组合学习的方法和装置,用于扬声器识别到嘈杂的环境
机译: 深度情形下基于深度神经网络的具有容错和波动稳健性的深度神经网络多补丁组合识别面部的方法