首页> 中国专利> 单路视频多路音频的视频监控方法及系统

单路视频多路音频的视频监控方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种单路视频多路音频的视频监控方法及系统，所述方法包括：设备端为每路音频分配一个固定的初始SSRC值；客户端与设备端建立RTSP交互方式；客户端向设备端请求单路视频和多路音频，设备端为每路音频随机生成对应的修正SSRC值并发送给客户端；设备端采集单路视频和多路音频，向客户端发送单路视频的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端；客户端根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频。本发明能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和/或相应路的音频。

著录项

公开/公告号CN104079870A

专利类型发明专利
公开/公告日2014-10-01

原文格式PDF
申请/专利权人杭州海康威视数字技术股份有限公司;
展开▼

申请/专利号CN201310109433.6
发明设计人李奎;蔡瑞青;陈杰;凌在龙;金祥庆;
展开▼

申请日2013-03-29
分类号
代理机构上海思微知识产权代理事务所(普通合伙);
代理人郑玮
地址 310052 浙江省杭州市滨江区东流路700号海康科技园1号楼
入库时间 2023-12-17 02:09:03

法律信息

法律状态公告日

法律状态信息

法律状态
2017-07-11

授权

授权
2014-10-29

实质审查的生效 IPC(主分类):H04N7/18 申请日:20130329

实质审查的生效
2014-10-01

公开

公开

说明书

技术领域

本发明涉及一种单路视频多路音频的视频监控方法及系统。

背景技术

目前，在进行视频监控时，通常一路模拟视频采集点只能对应一路音频，嵌入式设备通过采集、编码、封装等一系列操作，将音视频信号合成为复合码流，可用于本地存储、中心远程请求等音视频应用。

然而，随着视频监控要求的提高，目前出现了一种将设置有网络摄像机的监控区域中划分有多个不同的功能区域（如几个柜台）的监控场景，在这种监控场景中，进行视频监控的管理中心不仅要求实现远程实时视频的采集和播放，而且要求能够随意选播其中一路音频。针对这种监控场景，现有的一路模拟视频采集点对应一路音频的监控方式显然不能满足单路视频配合多路音频的应用需求。

发明内容

本发明的目的在于提供一种单路视频多路音频的视频监控方法及系统，能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和/ 或相应路的音频。

为解决上述问题，本发明提供一种单路视频多路音频的视频监控方法，包括：

设备端为每路音频分配一个固定的初始SSRC值；

客户端与设备端建立RTSP交互方式；

所述客户端向所述设备端请求单路视频和多路音频，所述设备端为每路音频随机生成对应的待写入RTP包的修正SSRC值，并将每路音频对应的修正 SSRC值发送给所述客户端；

所述设备端采集单路视频和多路音频，生成并向所述客户端发送单路视频的RTP包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC 值的RTP包发送到所述客户端，其中，每个RTP包包括一区分视频和音频的PT 值；

所述客户端接收单路视频和多路音频的RTP包，根据RTP包中的PT值区分视频和音频，根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频。

进一步的，在上述方法中，所述生成并向所述客户端发送单路视频的RTP 包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的 RTP包发送到所述客户端的步骤包括：

将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始SSRC值的RTP包；将单路视频的RTP包发送至所述客户端；

将单路视频的RTP包发送至所述客户端；将每路音频的RTP包中的初始 SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP 包发送到所述客户端。

进一步的，在上述方法中，所述客户端根据RTP包中的PT值区分视频和音频，根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频的步骤包括：

对所述RTP包进行拆包，根据RTP包中的PT值区分视频和音频，并根据多路音频的RTP包中的修正SSRC值区分各路音频，对每路视频或音频的码流进行解压，并根据用户的需求播放视频和/或相应路的音频的解压后的码流。

进一步的，在上述方法中，设备端为每路音频随机生成对应的待写入RTP 包的修正SSRC值，并将每路音频对应的修正SSRC值发送给所述客户端的步骤中：

在RTSP交互过程中的DESCRIBE阶段，所述设备端为每路音频随机生成对应的待写入RTP包的修正SSRC值，并将每路音频对应的修正SSRC值携带在SDP信息中发送给所述客户端。

根据本发明的另一面，提供一种单路视频多路音频的视频监控系统，包括：

客户端，用于通过RTSP方式与所述设备端进行交互，向所述设备端请求单路视频和多路音频，及接收单路视频和多路音频的RTP包，根据RTP包中的PT 值区分视频和音频，根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频；

设备端，用于通过RTSP方式与所述客户端进行交互，为每路音频随机生成对应的待写入RTP包的修正SSRC值，并将每路音频对应的修正SSRC值发送给所述客户端，及采集单路视频和多路音频，生成并向所述客户端发送单路视频的RTP包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP 包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正 SSRC值的RTP包发送到所述客户端，其中，每个RTP包包括一区分视频和音频的PT值。

进一步的，在上述系统中，所述设备端，用于将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始SSRC值的RTP包；将单路视频的RTP包发送至所述客户端；将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端。

进一步的，在上述系统中，所述客户端，用于对所述RTP包进行拆包，根据RTP包中的PT值区分视频和音频，并根据多路音频的RTP包中的修正SSRC 值区分各路音频，对每路视频或音频的码流进行解压，并根据用户的需求播放视频和/或相应路的音频的解压后的码流。

与现有技术相比，本发明通过设备端为每路音频分配一个固定的初始 SSRC值；客户端与设备端建立RTSP交互方式；所述客户端向所述设备端请求单路视频和多路音频，所述设备端为每路音频随机生成对应的待写入RTP包的修正SSRC值，并将每路音频对应的修正SSRC值发送给所述客户端；所述设备端采集单路视频和多路音频，生成并向所述客户端发送单路视频的RTP包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP包中的初始SSRC 值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端，其中，每个RTP包包括一区分视频和音频的PT值；所述客户端接收单路视频和多路音频的RTP包，根据RTP包中的PT值区分视频和音频，根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频，能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和/或相应路的音频。

附图说明

图1是本发明一实施例的客户端和设备端交互原理图；

图2是本发明一实施例的单路视频多路音频的视频监控方法的流程图；

图3是本发明一实施例的单路视频多路音频的视频监控系统的模块图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1和2所示，本发明提供一种单路视频多路音频的视频监控方法，包括客户端与设备端进行RTSP（Real Time Streaming Protocol）交互：

步骤S1，设备端为每路音频分配一个固定的初始SSRC值；

步骤S2，客户端1与设备端2建立RTSP交互方式；

步骤S3，所述客户端1向所述设备端2请求单路视频和多路音频，设备端 2为每路音频随机生成对应的待写入RTP包的修正SSRC值，并将每路音频对应的修正SSRC值通过SDP信息发送给所述客户端1。这样客户端1就可以根据所述修正SSRC值的数量和顺序得知有几路音频，每路音频所对应的修正 SSRC值。

具体的，RTSP为实时流传输协议，是TCP/IP协议体系中的一个应用层协议，是由哥伦比亚大学、网景和RealNetworks公司提交的IETF RFC标准。 RTSP协议定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。 RTSP在体系结构上位于RTP（Realtime Transport Protocol）实时传输协议和RTCP （Realtime Transport Control Protocol）实时传输控制协议之上，RTSP使用TCP 或RTP完成数据传输。HTTP与RTSP相比，HTTP传送HTML，而RTSP传送的是多媒体数据。HTTP请求由客户端发出，设备端作出响应；使用RTSP时，客户端1和设备端2都可以发出请求，即RTSP可以是双向的。

优选的，步骤S2中，可在RTSP交互过程中的DESCRIBE阶段，所述设备端2为每路音频随机生成对应的待写入RTP包的修正SSRC值，并将每路音频对应的修正SSRC值携带在SDP信息中发送给所述客户端1。具体的，RTSP交互大致可分为如下几个阶段：OPTIONS、SET_PARAMETER、DESCRIBE、 SETUP、PLAY、PAUSE、HEARTBEAT、TEARDOWN。本实施例中，为了区分多路音频，在DESCRIBE阶段为多路音频生成多个随机的SSRC值如SSRC1、 SSRC2…SSRCn，并携带在SDP信息里返回给客户端1，按照先后顺序第一个 SSRC1为第一路音频的修正SSRC值，第n个SSRCn为第n路音频的修正SSRC 值。然后在后续发送RTP包到客户端1时，将RTP包的报头中的初始SSRC值修改为相应的修正SSRC值。例如，设备端2在发送码流时根据音频RTP包的初始SSRC值来判断，若是音频的初始SSRC值为s1，则修改为第一路音频的初始SSRC值为修正SSRC值为SSRC1,若是音频的初始SSRC值为Sn，则修改为第n路音频的修正SSRC值为SSRCn。

详细的，SDP是会话描述协议，其目的就是在媒体会话中，传递媒体流信息，允许会话描述的接收者去参与会话。SDP基本上在internet上工作，SDP定义了绘画描述的统一格式，但并不定义多播地址的分配和SDP消息的传输，也不支持媒体编码方案的协商,这些功能均由下层会话传送协议完成。典型的下层会话传送协议包括:SAP(Session Announcement Protocol会话公告协议)、SIP、 RTSP、HTTP和使用MIME的E-Mail，其中，SAP只能包含一个会话描述，其它会话传输协议的SDP可包含多个绘画描述，SDP绘画描述的统一格式包括以下一些方面：

1）会话的名称和目的；

2）会话存活时间；

3）包含在会话中的媒体信息，包括：媒体类型(video，audio，etc)，传输协议(RTP/UDP/IP，H.320，etc)，媒体格式(H.261video，MPEG video，etc)多播或远端（单播）地址和端口；

4）为接收媒体而需的信息(addresses，ports，formats and so on)；

5）使用的带宽信息；

6）可信赖的接洽信息（Contact information）。

步骤S4，所述设备端2采集单路视频和多路音频，生成并向所述客户端1发送单路视频的RTP包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端1，其中，每个RTP包包括一区分视频和音频的PT值。具体的，所述设备端2可通过一网络摄像机采集所述单路视频，网络摄像机是一种结合传统摄像机与网络技术所产生的新一代摄像机，它可以将影像通过网络传至地球另一端，且远端的浏览者不需用任何专业软件，只要标准的网络浏览器（如Microsoft IE或Netscape）或配套的客户端软件即可监视其影像。网络摄像机内置一个嵌入式芯片，采用嵌入式实时操作系统。所述设备端接收网络摄像机传送来的视频信号数字化后由高效压缩芯片压缩，通过网络总线传送给客户端或管理服务器。客户端1的用户可以直接用浏览器或客户端软件观看监控视频，另外，授权用户还可以控制网络摄像机云台镜头的动作或对所述设备端和网络摄像机进行系统配置操作。设备端2可以采集一路模拟视频源、多路模拟音频源，生成并向所述客户端1发送单路视频的 RTP包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端，即通过网络将单路视频和多路音频的RTP包发送给所述客户端1。

优选的，步骤S4具体可包括：

所述设备端2将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始SSRC值的RTP包；

将单路视频的RTP包发送至所述客户端，

将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端。具体的，为了使客户端1接收到多路音频时，能够正确有效的区分每一路音频，这里需要将RTP包的报头中的初始SSRC值修改为相应的修正SSRC值，例如，将第一路音频的 SSRC置为修正SSRC值如SSRC1,将第二路音频的SSRC置为修正SSRC值如 SSRC2,将第n路音频的SSRC置为修正SSRC值如SSRCn，当客户端1接收到多路音频时，能够根据修正SSRC值对每一路音频进行区别存储和播放，所述设备端2可包括采集模块、编码模块、封包模块、网络发送模块，分别完成单路视频和多路音频编码和压缩形成码流、封装所述码流形成RTP包及发送所述 RTP包至所述客户端的各种功能，RTP包报文由两部分组成：报头和有效载荷。RTP报头格式如下表所示，

其中：

V：RTP协议的版本号，占2位，当前协议版本号为2。

P：填充标志，占1位，如果P=1，则在该报文的尾部填充一个或多个额外的八位组，它们不是有效载荷的一部分。

X：扩展标志，占1位，如果X=1，则在RTP报头后跟有一个扩展报头。

CC：CSRC计数器，占4位，指示CSRC标识符的个数。

M:标记，占1位，不同的有效载荷有不同的含义，对于视频，标记一帧的结束；对于音频，标记会话的开始。

同步信源(SSRC)标识符：占32位，用于标识同步信源。该标识符是随机选择的，参加同一视频会议的两个同步信源不能有相同的SSRC值。

特约信源(CSRC)标识符：每个CSRC标识符占32位，可以有0～15个。每个CSRC标识了包含在该RTP报文有效载荷中的所有特约信源。

PT:有效载荷类型，占7位，用于说明RTP报文中有效载荷的类型，如 GSM音频、JPEM图像等。

序列号：占16位，用于标识发送者所发送的RTP报文的序列号，每发送一个报文，序列号增1。接收者通过序列号来检测报文丢失情况，重新排序报文，恢复数据。

时戳(Timestamp)：占32位，时戳反映了该RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动，并进行同步控制。

步骤S5，所述客户端1接收单路视频和多路音频的RTP包，根据RTP包中的PT值区分视频和音频，根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频。

优选的，步骤S5中，根据RTP包中的PT值区分视频和音频，根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频的步骤具体包括：

对所述RTP包进行拆包，根据RTP包中的PT值区分视音频，并根据多路音频的RTP包中的修正SSRC值区分各路音频，对每路视频或音频的码流进行解压，并根据用户的需求播放视频和/或相应路的音频的解压后的码流。具体的，所述客户端可包括网络接收模块、拆包模块、解码模块、播放模块，其中，网络接收模块实现接收单路视频和多路音频的RTP包的功能，拆包模块实现所述 RTP包进行拆包，并根据RTP报头中的PT值和修正SSRC值区分视频或各路音频的码流的功能，解码模块实现将码流进行解压的功能，播放模块根据用户的需求播放相应路的视频或音频的解压后的码流。

综上所述，本实施例中设备端独立采集单路视频和多路音频，客户端在可以需要实时预览和录像回放视音频时，对其中任意一路进行实时点播。

实施例二

如图1和3所示，本发明还提供另一种单路视频多路音频的视频监控系统，包括客户端和设备端。

所述客户端1，用于通过RTSP（Real Time Streaming Protocol）方式与所述设备端进行交互，向所述设备端请求单路视频和多路音频，及接收单路视频和多路音频的RTP包，根据RTP包中的PT值区分视频和音频，根据多路音频的 RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频。

优选的，所述客户端1，用于对所述RTP包进行拆包，并根据RTP报头中的修正SSRC值区分视频或各路音频的码流，对每路视频或音频的码流进行解压，并根据用户的需求播放相应路的视频或音频的解压后的码流。具体的，所述客户端1可包括网络接收模块11、拆包模块12、解码模块13、播放模块14，其中，网络接收模块11实现接收单路视频和多路音频的RTP包的功能，拆包模块12实现所述RTP包进行拆包，并根据RTP报头中的初始SSRC值或修正SSRC 值存储每路视频或音频的码流的功能，解码模块13实现将码流进行解压的功能，播放模块14根据用户的需求播放相应路的视频或音频的解压后的码流。

所述设备端2，用于通过RTSP方式与所述客户端进行交互，为每路音频随机生成对应的待写入RTP包的修正SSRC值，并将每路音频对应的修正SSRC 值发送给所述客户端1，及采集单路视频和多路音频，生成并向所述客户端1发送单路视频的RTP包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端，其中，每个RTP包包括一区分视频和音频的PT值。具体的，所述设备端2将每路音频对应的RTP包的修正SSRC 值发送给所述客户端1后，客户端1就可以根据所述修正SSRC值的数量和顺序得知有几路音频，每路音频所对应的修正SSRC值。

更优的，可在RTSP交互过程中的DESCRIBE阶段，所述设备端2为每路音频随机生成对应的RTP包的修正SSRC值，并将每路音频对应的修正SSRC 值携带在SDP信息中发送给所述客户端。优选的，所述设备端2，用于将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始 SSRC值的RTP包；将单路视频的RTP包发送至所述客户端；将每路音频的RTP 包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正 SSRC值的RTP包发送到所述客户端。具体的，所述设备端2可包括采集模块 21、编码模块22、封包模块23、网络发送模块24分别完成单路视频和多路音频、编码和压缩形成码流、封装所述码流形成RTP包及发送所述RTP包至所述客户端的各种功能。本实施例的详细内容可参见实施一中的对应部分，在此不再赘述。

综上所述，本发明通过设备端为每路音频分配一个固定的初始SSRC值；客户端与设备端建立RTSP交互方式；所述客户端向所述设备端请求单路视频和多路音频，所述设备端为每路音频随机生成对应的待写入RTP包的修正SSRC 值，并将每路音频对应的修正SSRC值发送给所述客户端；所述设备端采集单路视频和多路音频，生成并向所述客户端发送单路视频的RTP包，生成每路音频的包含初始SSRC值的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端，其中，每个RTP包包括一区分视频和音频的PT值；所述客户端接收单路视频和多路音频的RTP包，根据RTP包中的PT值区分视频和音频，根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频，能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和/或相应路的音频。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 单路视频多路音频的视频监控方法及系统 [P] . 中国专利： CN104079870B . 2017.07.11
2. 一种包含单路音频多路视频的复合视频的播放方法及设备 [P] . 中国专利： CN106658030B . 2019.07.30
3. Method and system for monitoring video with single path of video and multiple paths of audio [P] . 美国专利： US10477282B2 . 2019-11-12

机译：一种具有单路视频和多路音频的视频监控方法及系统
4. METHOD AND SYSTEM FOR MONITORING VIDEO WITH SINGLE PATH OF VIDEO AND MULTIPLE PATHS OF AUDIO [P] . 欧洲知识产权局专利： EP3104597A4 . 2017-11-29

机译：视频单路径和多路径音频的视频监控方法和系统
5. Method and System for Monitoring Video With Single Path of Video and Multiple Paths of Audio [P] . 美国专利： US2017099524A1 . 2017-04-06

机译：一种具有单路视频和多路音频的视频监控方法及系统