公开/公告号CN114844873A
专利类型发明专利
公开/公告日2022-08-02
原文格式PDF
申请/专利权人 神马人工智能科技(深圳)有限公司;
申请/专利号CN202210375466.4
申请日2022-04-11
分类号H04L65/65(2022.01);H04L65/1108(2022.01);H04L67/02(2022.01);H04L69/16(2022.01);
代理机构深圳市洪荒之力专利代理有限公司 44541;
代理人李向丹
地址 518000 广东省深圳市福田区莲花街道景华社区红荔西路7002号第一世界广场A座7DEA6
入库时间 2023-06-19 16:14:25
法律状态公告日
法律状态信息
法律状态
2022-08-19
实质审查的生效 IPC(主分类):H04L65/65 专利申请号:2022103754664 申请日:20220411
实质审查的生效
2022-08-02
公开
发明专利申请公布
技术领域
本发明属于信息技术领域,尤其涉及基于人工智能的物联网设备视听流实时处理系统。
背景技术
流技术并不是一个新概念,已经创建了许多用于流视频和音频的解决方案,用于通过不同传输协议的无线连接传输数据,同样,虽然开发较晚,但可以使用其中一些协议来实现从机器人和连接/物联网设备传输视听流,但解决这些设备的连接问题并试图保持恒定传输速率的难度增加,物联网设备的计算能力有限,可能会阻碍流的快速编码。近年来随着人工智能的进步,以及处理视听数据和接收AI结果的实时性能的实现,增加的AI过程使整个流媒体过程又增加了一个复杂度,需要不同的方法。
将AI应用于连接到静态处理系统的摄像头/麦克风组合的音频和视频流的一些传统成功方法,数据采集后立即进行本地处理,使用处理系统的处理资源,例如独立的计算机或在连接到本地网络的本地服务器中处理流,并在通过 Internet 传输流之前通过可视化应用它们或修改音频将原始流与结果组合起来,之后最终用户可以在他们的端看到修改后的流设备。例如,某人使用 Zoom 等在线会议应用程序从他们的计算机流式传输将使用连接到计算机的摄像头和麦克风录制视频和音频,然后该应用程序将使用 AI 检测视频流中的人,将删除背景和添加虚拟背景,甚至可以在本地处理声音以去除背景噪音,并将处理后的视频和音频流传输到使用Zoom APP的另一台计算机或智能手机上观看。这个过程很常见,并且可以在 AI 模型可以在具有足够处理能力的处理单元中本地运行的系统中正常工作。延迟取决于本地系统的处理能力,处理能力越低延迟越大,因此为了减少延迟,本地处理系统可能需要较高的成本,在我们通常没有高处理能力的低成本移动机器人或其他物联网设备的情况下,这可能会引入很大的延迟,使 AI 过程非常缓慢,并为整个流媒体体验增加很大的延迟。在某些处理能力不足的情况下,这甚至会阻碍整个过程的完成,因为设备没有足够的处理能力来完成 AI 过程,这样,传统的方法无法应用于机器人或物联网(IOT)设备。除了上述过程,还有其他方法,包括数据收集设备将视听流传输到云端服务器,并使用云端服务器的计算能力完成人工智能过程,AI 处理完成后,将结果与原始流合并,并将最终流发送到最终用户的设备进行显示。这个过程可以避免在原始本地系统上进行整个AI流程和流式传输的复杂性,而且云服务器上的AI流程确实可以非常快地发生,但是使用云处理也有很大的成本。
发明内容
本发明实施例的目的在于提供基于人工智能的物联网设备视听流实时处理系统,旨在解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于人工智能的物联网设备视听流实时处理系统,包括:
收集模块,所述收集模块用于收集视听流,所述收集模块通过实时流协议将视听流传输给用户终端设备;
用户终端设备,所述用户终端设备用于运行WEBRTC图形客户端,所述用户终端设备通过与网络连接的方式访问收集模块和AI云服务器;
AI云服务器,所述AI云服务器用于在CPU或GPU以及支持机器学习框架的计算优化芯片上进行推理。
进一步的,所述收集模块为IOT设备或机器人。
进一步的,所述用户终端设备的系统用于实时处理视听流、隔离视频帧序列和音频剪辑。
进一步的,所述用户终端设备与AI云服务器之间建立WEBSOCKET连接。
进一步的,所述用户终端设备从流中提取数据块,并通过WEBSOCKET将其发送到AI云服务器进行计算,所述AI云服务器通过WEBSOCKET将推理结果发送回用户终端设备进行显示。
进一步的,视听流实时处理的具体步骤如下:
1)IOT设备和用户终端设备之间的P2P连接被发起;
2)实时流在用户终端设备上接收,并直接显示给用户;
3)用户终端设备从实时流中提取数据块并发送给AI云服务器;
4)AI云服务器对数据块进行处理,并将推理结果发送回用户终端设备;
5)用户终端设备处理推理结果,并在流的顶部显示输出。
进一步的,IOT设备、用户终端设备以及AI云服务器之间交互的具体步骤如下:
a.WEBRTC握手:IOT设备和用户终端设备使用第三方服务器交换WEBRTC握手以进行发现,若握手成功,用户终端设备与AI云服务器建立WEBSOCKET连接;
b.视频流建立:IOT设备和用户终端设备正在交换视频流,视频显示在用户终端设备层上;
c.帧提取和计算:用户终端设备从视频流中提取帧,并通过WEBSOCKET将其发送到AI云服务器进行计算;
d.AI信息显示:在计算完成后,AI云服务器通过WEBSOCKET将信息发送回用户终端设备进行显示。
与现有技术相比,本发明的有益效果是:
该基于人工智能的物联网设备视听流实时处理系统,通过收集模块、用户终端设备和AI云服务器对视听流进行了处理,为用户提供较好地服务,解决了因数据采集设备的处理能力带来的后续高成本的问题,同时避免了将视听流传输到用户终端设备的延迟。
附图说明
图1为基于人工智能的物联网设备视听流实时处理系统的结构示意图。
图2为基于人工智能的物联网设备视听流实时处理系统中的用户终端设备上的流层和 AI 显示层示意图。
图中:01-AI云服务器,02-用户终端设备,03-IOT设备。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1和图2所示,为本发明一个实施例提供的基于人工智能的物联网设备视听流实时处理系统,包括:
收集模块,所述收集模块用于收集视听流,所述收集模块通过实时流协议将视听流传输给用户终端设备02;
用户终端设备02,所述用户终端设备02用于运行WEBRTC图形客户端,所述用户终端设备02通过与网络连接的方式访问收集模块和AI云服务器01;
AI云服务器01,所述AI云服务器01用于在CPU或GPU以及支持机器学习框架的计算优化芯片上进行推理。
在本发明实施例中,优选的,用户终端设备02的系统使用本地资源,通过AI云服务器01处理分离的数据流,或将分离的数据传输到云端,云端根据网络性能进行处理,处理后的结果发送回用户终端设备02,用户终端设备02将处理后的结果与原始流相结合,并重现最终流以供用户观看和收听。
如图1所示,作为本发明的一种优选实施例,所述收集模块为IOT设备03或机器人。
在本发明实施例中,优选的,视听流由机器人或物联网设备收集,并使用实时流协议直接传输到最终用户设备。
如图1所示,作为本发明的一种优选实施例,所述用户终端设备02的系统用于实时处理视听流、隔离视频帧序列和音频剪辑。
在本发明实施例中,优选的,用户终端设备02的系统负责处理流,隔离视频帧序列和音频剪辑,之后,系统使用用户终端设备02的本地资源通过AI处理分离的流或将一些孤立的数据传输到云端,云端根据网络性能进行处理,并将结果发送回本地设备,将它们与原始流相结合,并重现最终流以供最终用户收听和观看。
如图1所示,作为本发明的一种优选实施例,所述用户终端设备02与AI云服务器01之间建立WEBSOCKET连接。
在本发明实施例中,优选的,WEBSOCKET是一种在单个TCP连接上进行全双工通信的协议。
如图1所示,作为本发明的一种优选实施例,所述用户终端设备02从流中提取数据块,并通过WEBSOCKET将其发送到AI云服务器01进行计算,所述AI云服务器01通过WEBSOCKET将推理结果发送回用户终端设备02进行显示。
在本发明实施例中,优选的,用户终端设备02具有WEBSOCKET 的支持。
如图1所示,作为本发明的一种优选实施例,视听流实时处理的具体步骤如下:
1)IOT设备03和用户终端设备02之间的P2P连接被发起;
2)实时流在用户终端设备02上接收,并直接显示给用户;
3)用户终端设备02从实时流中提取数据块并发送给AI云服务器01;
4)AI云服务器01对数据块进行处理,并将推理结果发送回用户终端设备02;
5)用户终端设备02处理推理结果,并在流的顶部显示输出。
在本发明实施例中,优选的,P2P即Peer-to-Peer的缩写,含义为“点对点”或者“端对端”,在P2P网络中,所有节点的地位都是对等的,每个节点即充当服务器,又充当客户端,这样可以缓解中心服务器压力,使得资源或任务处理更加分散化。
如图2所示,作为本发明的一种优选实施例,IOT设备03、用户终端设备02以及AI云服务器01之间交互的具体步骤如下:
a.WEBRTC握手:IOT设备和用户终端设备使用第三方服务器交换WEBRTC握手以进行发现,若握手成功,用户终端设备与AI云服务器建立WEBSOCKET连接;
b.视频流建立:IOT设备和用户终端设备正在交换视频流,视频显示在用户终端设备层上;
c.帧提取和计算:用户终端设备从视频流中提取帧,并通过WEBSOCKET将其发送到AI云服务器进行计算;
d.AI信息显示:在计算完成后,AI云服务器通过WEBSOCKET将信息发送回用户终端设备进行显示。
在本发明实施例中,优选的,用户设备将从流中提取帧并通过WEBSOCKET 连接将其发送到AI云服务器01进行计算,在此期间,仍然显示视频流,只有在收到来自 AI云服务器01的答复后,才会进行新的提取。 在计算完成后,AI云服务器01通过WEBSOCKET将信息发送回用户设备进行显示,由于视频已经显示在一个图层上,因此在其上添加另一个图层以显示 AI 信息。在正常情况下,WEBRTC 流的延迟约为 0.2 秒,对 AI云服务器01的请求需要大约 0.2 秒,AI 推理需要 0.1 秒。
本发明的工作原理是:
该基于人工智能的物联网设备视听流实时处理系统,通过收集模块、用户终端设备02和AI云服务器01对视听流进行了处理,为用户提供较好地服务,解决了因数据采集设备的处理能力带来的后续高成本的问题,同时避免了将视听流传输到用户终端设备02的延迟。
以上仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些均不会影响本发明实施的效果和专利的实用性。
机译: 封装视听内容的mpeg-2流的方法--专用部分,视听内容的设备-封装要复用的mpeg-2专用部分在MPEG2传输流中;通信协议----基于IP网络的局域网;交互式数字电视应用程序-到-用户设备;或设备Itivo的组合-用户以及一个或多个用于传输视听内容和/或数据的应用程序和方法
机译: 基于物联网和人工智能的水质实时管理系统
机译: 物联网中基于人工智能的人工智能辅助健康检测方法及电子设备