公开/公告号CN113283307A
专利类型发明专利
公开/公告日2021-08-20
原文格式PDF
申请/专利权人 北京雷石天地电子技术有限公司;
申请/专利号CN202110481032.8
申请日2021-04-30
分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/62(20060101);
代理机构11829 北京城烽知识产权代理事务所(特殊普通合伙);
代理人王新月
地址 100101 北京市朝阳区天畅园8号楼3层8-307
入库时间 2023-06-19 12:18:04
技术领域
本发明涉及物体识别技术领域,具体而言,涉及一种视频中物体识别方法、系统及计算机存储介质。
背景技术
物体识别是计算机视觉中的最常见应用之一,物体识别要在图像中画出一个个框框,比如识别出人、车、动物、植物等等,框框中的图像要尽可能的完整的包含待识别的物体。
现有技术中,都是在识别出物体后再进行种类筛选,该方法具有一定的弊端,即识别物体时因区域数据多,在进行NMS计算时,需要处理冗余的区域数据,运算量大,浪费时间。
针对现有技术中识别物体计算量大、耗费时间的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例中提供一种视频中物体识别方法、系统及计算机存储介质,以解决现有技术中识别物体计算量大、耗费时间的问题。
为达到上述目的,一方面,本发明提供了一种视频中物体识别方法,该方法包括:将目标视频中的当前帧划分为多个区域;分别对每个区域进行识别和锚定,每个区域中得到多个锚定的边框;每个边框对应一个概率值以及一个中心点,每个所述中心点对应一物体种类;选取所述当前帧中需要保留的目标物体种类所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类的预设长宽重新进行框选,得到多个准目标框;对所述多个准目标框进行去重,得到目标物体框。
可选的,所述当前帧的目标种类与前一帧的目标种类相同或不同。
可选的,在所述将目标视频中的当前帧划分为多个区域;分别对每个区域进行识别和锚定,每个区域中得到多个锚定的边框之后包括:判断每个所述区域中所有所述边框对应的概率值是否都小于预设概率值,若是,将所述概率值对应的所述区域删除,反之,则保留。
可选的,所述对所述多个准目标框进行去重,得到目标物体框。包括:每个所述目标物体保留对应的一个所述准目标框,得到多个不同的所述目标物体框。
可选的,所述每个所述目标物体保留对应的一个所述准目标框包括:将每个所述目标物体对应的所有准目标框通过NMS算法得到交并比值;根据所述交并比值将每个所述目标物体保留对应的一个所述准目标框。
另一方面,本发明提供了一种视频中物体识别系统,包括:划分单元,用于将目标视频中的当前帧划分为多个区域;分别对每个区域进行识别和锚定,每个区域中得到多个锚定的边框;每个边框对应一个概率值以及一个中心点,每个所述中心点对应一物体种类;框选单元,用于选取所述当前帧中需要保留的目标物体种类所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类的预设长宽重新进行框选,得到多个准目标框;去重单元,用于对所述多个准目标框进行去重,得到目标物体框。
可选的,还包括:筛选单元,用于判断每个所述区域中所有所述边框对应的概率值是否都小于预设概率值,若是,将所述概率值对应的所述区域删除,反之,则保留。
可选的,所述去重单元包括:保留模块,用于每个所述目标物体保留对应的一个所述准目标框,得到多个不同的所述目标物体框。
可选的,所述保留模块包括:计算模块,用于将每个所述目标物体对应的所有准目标框通过NMS算法得到交并比值;根据所述交并比值将每个所述目标物体保留对应的一个所述准目标框。
另一方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的一种视频中物体识别方法。
本发明的有益效果:
本发明提供了一种视频中物体识别方法,该方法通过在筛选区域与去重技术之间增加种类筛选,即选取所述当前帧中需要保留的目标物体种类所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类的预设长宽重新进行框选,得到多个准目标框;使得可以筛选掉不感兴趣的种类并且减少了NMS的计算量,提高了数据处理速度,节省了时间;进一步的,在视频播放过程中可增加或删除种类,实现动态更改识别种类。
附图说明
图1是本发明实施例提供的一种视频中物体识别方法的流程图;
图2是本发明实施例提供的一种视频中物体识别系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种视频中物体识别方法的流程图,如图1所述,该方法包括:
S101.将目标视频中的当前帧划分为多个区域;分别对每个区域进行识别和锚定,每个区域中得到多个锚定的边框;每个边框对应一个概率值以及一个中心点,每个所述中心点对应一物体种类;
例如,在一个视频中要识别出一个大人、一个小孩、猫,而目标视频中有人、车、猫、树等等种类。首先将目标视频中的当前帧按行列划分为19*19个区域,分别对每个区域进行识别和锚定,每个区域中得到5个不同大小的锚定的边框,每个边框对应一个概率值以及一个中心点,每个所述中心点对应一物体种类,总共有80种种类。
S103.选取所述当前帧中需要保留的目标物体种类所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类的预设长宽重新进行框选,得到多个准目标框;
选取当前帧中需要保留的目标物体种类(人、猫)所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类(人、猫)的预设长宽重新进行框选,得到多个准目标框,多个准目标框的长宽可能正好与人或猫的身高、宽度相同,也可能超过人或猫的身高和宽度。需要注意的是,大人和小孩的预设长宽是不同的。
S104.对所述多个准目标框进行去重,得到目标物体框。
对框选出大人和小孩的多个准目标框进行去重,得到目标物体框。本发明中,通过在去重技术之前增加种类筛选,使得可以筛选掉不感兴趣的种类并且减少了NMS的计算量,提高了数据处理速度,节省了时间。
在一个可选的实施方式中,所述当前帧的目标种类与前一帧的目标种类相同或不同。
在视频播放过程中,可动态的增加或删除物体种类,实现动态更改识别种类,例如,现在除却识别大人、小孩和猫外,可再增加识别汽车和自行车,或现在只想识别大人和小孩,可把猫进行删除。
在一个可选的实施方式中,在S101之后包括:S102.判断每个所述区域中所有所述边框对应的概率值是否都小于预设概率值,若是,将所述概率值对应的所述区域删除,反之,则保留。
在将当前帧划分为19*19个区域,并且每个区域锚定5个边框后,判断每个区域中的5个边框对应的概率值是否都小于预设概率值,本发明中,设置预设概率值为0.6,若是,将所述概率值对应的所述区域删除,从而减少区域数量,便于后续种类筛选时减少计算量,提高数据处理速度。
在一个可选的实施方式中,所述对所述多个准目标框进行去重,得到目标物体框。包括:每个所述目标物体保留对应的一个所述准目标框,得到多个不同的所述目标物体框。
例如,人的准目标中心点只在肚子部位可以识别出是人,且肚子部位的准目标中心点有多个,那么大人具有多个准目标中心点,对应的会框选出多个准目标框,此时,只需保留一个准目标框即可,将其余的准目标框删除;类似的,小孩也具有多个准目标中心点,对应的会框选出多个准目标框,此时,只需保留一个准目标框即可,将其余的准目标框删除;同理,猫的准目标中心点只在头部可以识别出是猫,且头部的准目标中心点有多个,那么猫也具有多个准目标中心点,对应的会框选出多个准目标框,此时,只需保留一个准目标框即可,将其余的准目标框删除。
在一个可选的实施方式中,所述每个所述目标物体保留对应的一个所述准目标框包括:将每个所述目标物体对应的所有准目标框通过NMS算法得到交并比值;根据所述交并比值将每个所述目标物体保留对应的一个所述准目标框。
例如,猫有多个准目标中心点,对应的,会有多个准目标框,此时通过以下过程保留一个所述准目标框:1.建造一个存放待处理候选框的集合H,初始化为包含全部准目标框;建造一个存放最优框的集合M,初始化为空集;2.将所有集合H中的框进行排序,选出分数最高的框m,从集合H移到集合M;3.遍历集合H中的框,分别与框m计算交并比,如果高于预设阈值(本发明中,设置预设阈值为0.6),则认为此框与m重叠,将此框从集合H中去除;4.返回第2步进行迭代,直到集合H为空。集合M中的框即为所述准目标框。通过该方法,能够选出完整框选猫的目标物体框。
另一方面,本发明提供了一种视频中物体识别系统,图2是本发明实施例提供的一种视频中物体识别系统的结构示意图,如图2所示,包括:
划分单元201,用于将目标视频中的当前帧划分为多个区域;分别对每个区域进行识别和锚定,每个区域中得到多个锚定的边框;每个边框对应一个概率值以及一个中心点,每个所述中心点对应一物体种类;
例如,在一个视频中要识别出一个大人、一个小孩、猫,而目标视频中有人、车、猫、树等等种类。首先将目标视频中的当前帧按行列划分为19*19个区域,分别对每个区域进行识别和锚定,每个区域中得到5个不同大小的锚定的边框,每个边框对应一个概率值以及一个中心点,每个所述中心点对应一物体种类,总共有80种种类。
框选单元203,用于选取所述当前帧中需要保留的目标物体种类所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类的预设长宽重新进行框选,得到多个准目标框;
选取当前帧中需要保留的目标物体种类(人、猫)所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类(人、猫)的预设长宽重新进行框选,得到多个准目标框,多个准目标框的长宽可能正好与人或猫的身高、宽度相同,也可能超过人或猫的身高和宽度。需要注意的是,大人和小孩的预设长宽是不同的。
在视频播放过程中,可动态的增加或删除物体种类,实现动态更改识别种类,例如,现在除却识别大人、小孩和猫外,可再增加识别汽车和自行车,或现在只想识别大人和小孩,可把猫进行删除。
去重单元204,用于对所述多个准目标框进行去重,得到目标物体框。
对框选出大人和小孩的多个准目标框进行去重,得到目标物体框。本发明中,通过在去重技术之前增加种类筛选,使得可以筛选掉不感兴趣的种类并且减少了NMS的计算量,提高了数据处理速度,节省了时间。
在一个可选的实施方式中,还包括:筛选单元202,用于判断每个所述区域中所有所述边框对应的概率值是否都小于预设概率值,若是,将所述概率值对应的所述区域删除,反之,则保留。
在将当前帧划分为19*19个区域,并且每个区域锚定5个边框后,判断每个区域中的5个边框对应的概率值是否都小于预设概率值,本发明中,设置预设概率值为0.6,若是,将所述概率值对应的所述区域删除,从而减少区域数量,便于后续种类筛选时减少计算量,提高数据处理速度。
在一个可选的实施方式中,所述去重单元包括:保留模块,用于每个所述目标物体保留对应的一个所述准目标框,得到多个不同的所述目标物体框。
例如,人的准目标中心点只在肚子部位可以识别出是人,且肚子部位的准目标中心点有多个,那么大人具有多个准目标中心点,对应的会框选出多个准目标框,此时,只需保留一个准目标框即可,将其余的准目标框删除;类似的,小孩也具有多个准目标中心点,对应的会框选出多个准目标框,此时,只需保留一个准目标框即可,将其余的准目标框删除;同理,猫的准目标中心点只在头部可以识别出是猫,且头部的准目标中心点有多个,那么猫也具有多个准目标中心点,对应的会框选出多个准目标框,此时,只需保留一个准目标框即可,将其余的准目标框删除。
在一个可选的实施方式中,所述保留模块包括:计算模块,用于将每个所述目标物体对应的所有准目标框通过NMS算法得到交并比值;根据所述交并比值将每个所述目标物体保留对应的一个所述准目标框。
例如,猫有多个准目标中心点,对应的,会有多个准目标框,此时通过以下过程保留一个所述准目标框:1.建造一个存放待处理候选框的集合H,初始化为包含全部准目标框;建造一个存放最优框的集合M,初始化为空集;2.将所有集合H中的框进行排序,选出分数最高的框m,从集合H移到集合M;3.遍历集合H中的框,分别与框m计算交并比,如果高于预设阈值(本发明中,设置预设阈值为0.6),则认为此框与m重叠,将此框从集合H中去除;4.返回第2步进行迭代,直到集合H为空。集合M中的框即为所述准目标框。通过该方法,能够选出完整框选猫的目标物体框。
另一方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的一种视频中物体识别方法。
上述存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
本发明的有益效果:
本发明提供了一种视频中物体识别方法,该方法通过在筛选区域与去重技术之间增加种类筛选,即选取所述当前帧中需要保留的目标物体种类所对应的所有准目标中心点,根据每个准目标中心点及其对应的物体种类的预设长宽重新进行框选,得到多个准目标框;使得可以筛选掉不感兴趣的种类并且减少了NMS的计算量,提高了数据处理速度,节省了时间;进一步的,在视频播放过程中可增加或删除种类,实现动态更改识别种类。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
机译: 一种用于检测至少一个引起压力波非随机持续变化的物体的方法。一种计算机分析方法,用于分析检测到的地震或声波信号,以便检测至少一个在频带F中引起信号非随机持续变化的物体。检测至少一个引起感兴趣的地震或声音信号的物体。一种计算机系统,分析检测到的信号,以便检测至少一个引起感兴趣的信号的物体。计算机模块,分析检测到的信号,以便检测至少一个物体引起感兴趣的信号,该设备程序可以被机器读取。检测至少一个物体引起感兴趣的地震或声音的方法是一种有序的方法和计算机程序
机译: 存储介质使用grava u00c7 u00e7o / reprodu u00c7 u00e7o设备,reprod u00c7 u00e7o文本格式的字幕数据以及音频 /视频数据( AV),一种用于以文本格式复制音频 /视频(AV)和字幕数据的设备,M。 grava u00c7 u00e7o通过计算机中的读取控制设备的方法用于带有文本格式字幕数据的数据sincroniza u00c7 u00e7o音频//视频(AV),计算机中媒体当前通过 u00cdvel读取以及以sicroniza u00c7 文本格式复制字幕数据的方法u00e7o带有音频 /视频(AV)数据
机译: 视频和计算机存储介质中的人类行为识别方法和装置