首页> 中国专利> 控制实时会议会话的方法、使计算机执行该方法的计算机程序产品以及相关通信系统

控制实时会议会话的方法、使计算机执行该方法的计算机程序产品以及相关通信系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及控制实时会议会话的方法、使计算机执行该方法的计算机程序产品以及相关通信系统。一种控制实时会议会话的方法，包括：将第一用户的第一通信终端和第二用户的第二通信终端连接到媒体处理单元，其中会议会话包括第一用户的被动模式和第一用户的主动模式；在切换时间点处从被动模式切换到主动模式。该方法进一步包括：与记录相比，在切换后将被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间加速重放给第二用户；以及当在记录期间第一用户的主动数据的第二持续时间的第一次结束与在记录后主动数据的所重放的第二持续时间的第二次结束之间的同步延迟等于或小于预定持续时间时，关断记录并开始将第一用户的数据实时传输给第二用户。

著录项

公开/公告号CN107040751A

专利类型发明专利
公开/公告日2017-08-11

原文格式PDF
申请/专利权人统一专利有限责任两合公司;
展开▼

申请/专利号CN201710226801.3
发明设计人 J·托茨克;V·贾蒂利斯;C·切达基斯;K·马考;L·帕帕斯;
展开▼

申请日2017-02-03
分类号H04N7/15(20060101);
代理机构72001 中国专利代理(香港)有限公司;
代理人张健;刘春元
地址德国慕尼黑
入库时间 2023-06-19 03:02:21

法律信息

法律状态公告日

法律状态信息

法律状态
2020-04-10

授权

授权
2017-09-05

实质审查的生效 IPC(主分类):H04N7/15 申请日:20170203

实质审查的生效
2017-08-11

公开

公开

说明书

本发明涉及一种控制实时会议会话的方法。本发明进一步涉及一种使计算机执行该方法的计算机程序产品以及一种用于控制实时会议会话的通信系统。

现代会议会话(也简称为会议)可以由以会议桥或媒体流送器的形式存在的混合单元来建立。媒体流送器执行下述应用：该应用用于控制可被定义为程序的会议，该程序特别是允许管理员控制会议的计算机程序或应用软件。当用于控制会议的应用正在计算机上运行时，该应用能够提供来自会议的参与者(也称为用户)的话音信号的混合物。用于控制会议的应用可以被安装在个人计算机(简称为PC)上和/或运行于PC上。这种PC也被称为媒体流送器、媒体服务器或者应用服务器。接下来，除了其上安装应用以控制会议的计算机(因而例如，媒体流送器、媒体服务器或者应用服务器)外，用于控制会议的应用自身也被称为媒体服务器。在该程度上，接下来，术语“媒体流送器”(也称为“会议服务器”)等同地被用于以软件形式和以硬件中的该应用的形式执行用于控制会议的应用软件。媒体流送器被设立成作为服务器从会议参与者的通信终端中的每一个接收相应音频/视频信号，并传输混合的音频/视频信号到会议参与者的通信终端。存在差异，使得对于主动参与者，除自身的图像/语音外的所有图像/语音都由会议单元单独混合，而对于流送模式中的被动参与者，所有的被动用户都接收相同的图像/语音。因此，在大型会议中流送模式是有优势的，这是因为相比于对于每个参与者、除自身的图像/语音外的所有图像/语音都由会议单元单独混合的情况，会议单元的处理能力显著减弱。作为参与者的通信终端可以表现为电话单元、IP电话(IP：互联网协议)或者PC客户端，其中，诸如移动电话或另一服务器之类的另一通信终端是可能的。

在会议会话下，其特别地被理解为下述会议：其中，该会议的至少两个参与者不驻留于同一地点/位置处，使得他们不能在不使用技术手段的情况下彼此通信。相反，参与者的通信将经由混合单元通过混合参与者的语音信号而执行，其中所述会议可以被配置为例如电话会议或视频会议。在电话会议中，参与者仅通过交换话音来通信，而不管参与者的语音信号被如何传送。因此，通过陆地线路进行的电话会议和其中一个或多个参与者通过蜂窝网络彼此通信的电话会议二者都称为电话会议。

此外，以视频会议的形式存在的会议是可能的，其中除了参与者的语音信号的交换外，将参与者的图像信号实时传输给其他参与者。然而，接下来，会议还意在包括应用共享，其中除了参与者的语音和视频数据的交换(例如，以参与者之间的数据传送的形式)外，要在会议的参与者之间交换其他媒体。该数据相对于参与者的语音和/或图像信号的实时数据可以在时间上移位/延迟，且可以被显示在屏幕(例如个人计算机的屏幕)上。通常，以媒体流送器的形式存在的混合单元可以经由网络(例如，内联网或互联网)连接到会议的参与者的通信终端。在这种情况下，语音和/或视频和/或数据信号以数据分组的形式从会议中的一个参与者传送给另一参与者。

在电话交谈中(例如，在会议会话中)，参与者经常激活静音以防止人们听到来自他们的书桌的背景噪声或者以便在参与会议会话的同时讨论另一个问题。当用户按压解除静音或静音关闭按钮时，该静音模式可以被去激活。然而，存在用户忘记去按压静音关闭按钮时的时间，并且到参与者开始谈话的时间，静音仍然开启，并且显然，会议的其他参与者不能够听到谈话的参与者，直到谈话的参与者认识到解除静音或静音关闭并重复已说过的内容。虽然存在检测语音活动并自动地关断静音按钮的机制，但这些高度复杂的机制需要一些时间，直到解除静音已经被激活以用于要传输给其他参与者的先前静音的参与者的语音。在最优情形下，该语音活动识别和后续自动解除静音的响应行为可能需要大约2到3秒，其中静音的谈话参与者的某些有用信息可能丢失。因此，当会议会话的用户忘记解除静音时，期望更好地减少信息的丢失。

类似问题对于下述会议会话而发生：其中，单个或几个参与者正在主动参与，并且一大群其他参与者是被动的，即，仅听该单个或几个主动参与的参与者的主题。这种情况可能发生在小组讨论或网络研讨会中。经由快速通信信道而服务的主动参与者可以经由快速语音和/或视频会议信道而服务。被动参与者可以经由不同的更慢语音和/或视频会议信道而服务，从而导致在针对被动参与者而接收数据时与由主动参与者对数据的接收的同一时间点相比时有延迟。只要参与者保持被动，该延迟对于被动参与者来说就不是关键的。然而，被动参与者可能想要说话或临时参加主动参与者的讨论，典型地由所谓的“举手”或类似的指示来引入。在该指示后，管理员或主持人可以利用通知将被动参与者转变为主动参与者。因此，由于流送延迟阻止该参与者赶上实时讨论的时间点，指示了要参加主动参与者的讨论的参与者经由实时而连接到他不知道的讨论的时间点。该情形与如针对在开始谈话前忘记解除静音的静音参与者而描述的情形可比较。因此，当相对于会议会话的主动用户接收到延迟数据的被动用户被转变为主动用户时，期望更好地减少信息的丢失。因此，本发明的目的是提供一种方法，当会议会话的被动用户被转变为主动用户时，该方法更好地减少信息的丢失。

该目的由根据权利要求1的控制实时会议会话的方法、根据权利要求12的使计算机执行该方法的计算机程序产品以及根据权利要求14的用于控制实时会议会话的通信系统解决。

本发明的控制实时会议会话的方法包括以下步骤：将第一用户的第一通信终端和第二用户的第二通信终端连接到媒体处理单元，以在第一用户和第二用户之间传输音频和/或视频数据，其中会议会话包括：第一用户的被动模式，其中数据作为被动数据而被第一通信终端接收和传输，但不被第二终端接收；以及第一用户的主动模式，其中数据作为主动数据而被第一通信终端接收和传输且被第二终端接收；在切换时间点处从被动模式切换到主动模式，其中在切换后，第一用户的被动数据的第一持续时间被留下要传输给第二用户，第一持续时间结束在切换时间点处或开始于切换时间点；记录第一用户的被动数据的第一持续时间和主动数据的第二持续时间，第二持续时间开始于切换时间点；与记录相比，在切换后将被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间加速重放到第二用户，重放开始于切换时间点；以及当同步延迟、即在记录期间第一用户的主动数据的第二持续时间的第一次结束与在记录后主动数据的重放的第二持续时间的第二次结束之间的同步持续时间等于或小于预定持续时间(例如，n乘以10毫秒，其中n为1和10之间的整数，优选地，3到5，并且更优选地，被选择成使得预定持续时间不会被第一和/或第二用户感知到)时，关断记录并开始将第一用户的数据实时传输给第二用户。会议会话可以由诸如网络服务器之类的媒体流送器或诸如DSP单元(DSP：数字信号处理器)或会议桥之类的会议单元建立。音频和/或视频数据可以作为RTP分组(RTP：实时传输协议)而传输。可以使用耦合至分布式媒体处理单元的单个或若干个媒体处理单元。第一和第二通信设备中的每一个可以为有线电话、蜂窝电话、诸如PC或平板PC之类的计算机、服务器等等。在被动模式中，可以仅针对给定用户的接收而传输或流送音频和/或视频数据。因此，被动模式中的用户的通信终端不被允许/不能够向媒体处理单元传输数据。被动模式的音频和/或视频数据可以以更小的数据速率传输，从而导致与主动模式的音频和/或视频数据的传输相比更低的服务质量和/或更慢的传输速度。例如，在视频会议中，被动模式可以不传输图像数据，而仅传输供被动用户接收的音频数据。可以针对主动模式预留更高服务质量信道。分别针对主动和被动信道使用不同传输信道。主动模式可以实时地向通信终端传输数据和从通信终端传输数据。在回放所记录的数据期间，这种实时主动模式被定义成仍在主动模式中传输，尽管第二用户尚未实时接收到数据。

在切换时间点处结束的第一持续时间对应于2到3秒的语音识别和后续自动解除静音的持续时间。在该第一持续时间期间，会议会话的其他用户不能听到仍然静音且因而被动的参与者，并且该静音持续时间被留下要传输给诸如第二用户之类的另一个用户。开始于切换时间点的第一持续时间对应于在针对被动用户接收数据时与由主动用户对数据的接收的同一时间点相比时的延迟，主动用户被与被动用户相比更快的通信信道所服务。主动用户可以经由(S)RTP[(安全)实时传输协议]上的实时语音和/或视频会议、经由SIP(会话发起协议)或WebRTC(网络实时通信)通信平台而服务，而被动用户可以经由HTTP(S)[超文本传输协议(安全)]上的语音/视频流送(也被称为DASH(HTTP上的动态自适应流送)或HLS(HTTP实况流送)协议)而服务。与几百毫秒的实时延迟相比，基于流送的协议以大约3到5秒的流送延迟、以音频和/或视频数据的形式递送媒体。因此，开始于切换时间点的第一持续时间可以处于相同范围(即3到5秒)中。

已记录被留下要传输给第二用户的第一持续时间并且继续记录开始于切换时间点的第一用户的主动数据的第二持续时间允许在在主动模式中提供到第一用户的数据的无缝过渡的同时重构未被传输给第二用户的数据。所记录的数据以比记录速度更快的速度被重放，即，与记录相比加速重放，其中在从切换时间点开始切换后，重放被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间到第二用户。由于加速重放，有可能在时间上逐渐重构第一持续时间的丢失内容，以赶上在主动模式中提供的更快或实时或传输。当在记录期间第一用户的主动数据的第二持续时间的第一次结束与在记录后主动数据的所重放的第二持续时间的第二次结束之间的同步延迟等于或小于预定持续时间(例如不会被第一和/或第二用户感知到的10到30msec(毫秒))时，关断记录并且将在关断后第一用户的数据实时传输给第二用户。这样，第二用户接收尚未接收到的第一持续时间的时间中的概述以及主动模式中的第一用户的音频和/或视频数据的后续内容，直到不再必须记录数据和可能切换回到第一用户的数据向第二用户的直接传输。所记录的被动数据和所记录的主动数据的加速重放替代恰在从被动模式切换到主动模式后第一用户的主动数据向第二用户的实时传输。在从第一用户的被动模式切换到第一用户的主动模式后，第一用户的数据不仅可以被传输给第二用户，而且可以被传输给第一用户。因此，通过在以几秒的延迟完成流送的同时赶上几百毫秒的实时延迟，第一用户可以听他的被动模式的结束与他的主动模式的开始之间的延迟数据。通过引入媒体处理单元，有可能同时记录和回放第一用户的数据，在没有媒体处理单元的情况下，当将第一用户从被动模式切换到主动模式时，该数据会丢失。关于本发明，媒体处理单元作为附加组件而介于第一终端和第二终端之间，该附加组件在切换点后同时执行音频和/或视频记录和播放。

有利地，在记录和/或重放期间引入被动数据的所记录的第一持续时间和/或主动数据的所记录的第二持续时间的信息的丢失以用于实现加速重放，例如通过实现丢失系统，包括丢弃或跳过被动数据的所记录的第一持续时间和/或主动数据的所记录的第二持续时间的单个或若干个话音样本和/或帧。在本发明的数字音频/视频系统中，可以促进加速重放，例如通过实现丢失系统，其容忍某种程度的服务降级，优选地在所感知的用户体验不降低的情况下。在音频的情况下，存在不同编解码器，对此，编码器从固定时间切片(例如，ITU-T G.711)一对一地简单对话音样本进行编码。相比于应用其中时间切片可以跨越多于一个话音样本的附加算法的编解码器，这些编解码器是更合适的。话音样本被填充到帧中，这些帧进而被分组化以用于通过会议会话的通信网络/系统而传输。通信终端的发送方侧处的编码器可以生成在UDP分组上的sRTP内实时加密传送的连续流，作为分组丢失风险与协议开销之间的折衷，每一个连续流承载几个或少数话音样本。RTP分组包括使用中的编解码器的标识以及允许重排序和标识传输网络上的分组丢失的时间戳。在对RTP有效载荷进行解密后，可以将有效载荷堆叠为位流到抖动缓冲器上，从而适应第一通信终端之间的传输网络的传播延迟变化。从该缓冲器，解码器可以消耗该位流以用于在接收器的音频设备处重放，该接收器可以体现为媒体处理单元。

可以通过在第一通信终端中的解码器前面实现丢失系统来促进音频/视频流的加速重放，该丢失系统在将话音样本堆叠到第一通信终端的抖动缓冲器前丢弃每第n个话音样本(m乘以10毫秒)。必须避免大批丢弃，即，提供少数m，对此，m的数目通常是已知的，这不影响第一和/或第二用户的用户体验，例如，m可以在编解码器的质量度量中被确定到预定值。进一步的附加实施例是通过缩短音频数据的分组包括的静默时段来加速重放，在该静默时段内，可由第一通信终端注入的舒适噪声模式被识别。在视频的情况下，类似于盒式录像机(VCR)能力“前进”，促进例如加速重放。在前进期间，第一通信终端或媒体处理单元有利地以更快速度对接收到的信息进行解码，且可以跳过以分组传输的视频数据的某些帧。直至双倍速度，甚至更快的速度，可以保留音频。MPEG和相关的视频编解码器知道(I)帧内、(P)预测和(B)双向帧。在快速/更快前进期间，例如，解码器可以跳过(B)双向帧或后续B-帧以用于加快/加速重放。

实施例中的同步延迟的预定持续时间被定义为n乘以10毫秒，其中n是优选地被选择成使得同步延迟不会被第二用户感知到的整数，例如，通过将n选择为1与10之间的整数，优选地为6，更优选地为3。建议将数字n选择成使得接收的人(例如第二用户)不会感测到/注意到同步延迟。n的值不仅可以取决于接收的人的主观感知，而且可以取决于第一通信终端、媒体处理单元和第二终端之间的传输网络的质量。传输网络的服务质量越低，则数字n可以被选择为越小。另一方面，如果在第一用户和第二用户之间的通信信道中已存在可感知的中断，则数字n可以被选择成使得由同步延迟引入的中断不会被感知达到比在同步延迟不被传输的情况下通信信道中的其他中断更高的程度。

在实施例中建议：当在第一用户的主动数据的第二持续时间的记录已经开始后第一用户被通信会话的第二用户或另一用户在第一中断时间点处中断时，被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间到第二用户的加速重放在第一中断时间点处结束，并且，关断记录和开始将第一用户的数据实时传输到第二用户被移位到第一中断时间点。在这种情况下，关断记录和开始实时传输第一用户的数据在时间上被移位到第一中断时间点，以用于对中断用户给予他说话的机会。在中断后，第一用户可以停止谈话并等待其他中断用户完成。在第一中断时间点处，记录与重放一起完成。因此，尚未重放的第一用户的所记录的数据的信启不被传输给第二用户。

当在被动模式中第一用户被静音且在开始讲话后未激活解除静音功能以切换到主动模式时，产生了特别有利的实施例。在该实施例中，在切换时间点处结束且被留下要传输给第二用户的第一持续时间包括根据语音活动检测单元的响应行为的语音活动检测响应持续时间，其中当语音活动检测响应持续时间(即，语音活动识别的响应行为的持续时间)结束时，由语音活动检测单元通过自动激活解除静音功能来触发从第一用户的被动模式向第一用户的主动模式的切换。结合从切换时间点开始记录第一用户的被动数据的第一持续时间和主动数据的第二持续时间、从切换时间点开始将被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间加速重放到第二用户、以及关断记录并开始将第一用户的数据实时传输到第二用户的特征，当在记录期间第一用户的主动数据的第二持续时间的第一次结束与记录的主动数据的所重放的第二持续时间的第二次结束之间的同步延迟等于或小于预定持续时间时，该实施例是对本发明的目的来说的一种解决方案，其在会议会话的用户忘记解除静音时更好地减少信息的丢失。

当在IP上的实时通信中存在故意延迟要被引入以用于同步会议会话的第一用户和第二用户的流时，在另一实施例中提出语音活动检测响应持续时间的至少部分被用作故意延迟。在语音活动检测响应持续时间期间，第一用户仍然是静音的且(尚)不能被第二用户听到。因此，当没有照此引入用于同步会议会话的流的故意延迟时，对于第二用户而言是有利的，但是，检测第一用户的语音以对第一用户自动解除静音所需的语音活动检测响应持续时间的部分被用作故意延迟。

当在第一用户的主动数据的第二持续时间的记录已经开始之前第一用户被第二用户在第二中断时间点处中断时，进一步的实施例解决了该情况。关断记录以及开始将第一用户的数据实时传输给第二用户然后被移位到当语音活动检测响应持续时间结束时的时间点，其中被动数据的第一持续时间的加速重放在当语音活动检测响应持续时间结束时的时间点处结束。因此，在语音活动检测单元已经检测到语音后发送的所有其他信息不被传输给第二用户，因此，在第一用户静音时，第二用户将仅听到第一用户已经发送的内容。第一用户也可以听到他的重放语音，直到语音活动检测响应持续时间结束。因此，第一用户知道：他在中断前所说的不论什么内容都已经被传输给第二用户。此后，由第一用户和/或第二用户负责决定谁将继续谈话，正如在当两个用户尝试同时谈话时的会议会话中经常发生的那样。

在大型会议会话或者网络研讨会中，在另一实施例中，当第一用户已经对会议会话的管理员和/或指示识别装置给出他意图从被动模式切换到主动模式的指示(例如，以诸如举手或按压在指示按钮或触摸板上之类的手势的形式)时，由管理员和/或由指示识别装置自动地将被动模式切换到主动模式，该指示识别设备识别指示并响应于识别该指示而执行从被动模式到主动模式的切换。指示识别装置可以包括用于检测第一用户的光学数据的单个或若干个相机，该光学数据被处理以用于检索第一用户的光学指示。指示识别装置可以可替换地或另外包括用于记录和检索第一用户的音频说话的一个或多个麦克风。如果利用若干个麦克风和/或相机，则可以通过处理来自麦克风和/或相机的飞行时间信息来检测第一用户的位置/定位。指示识别装置可以被媒体处理单元所包括或被实现为独立单元。

根据本发明的另一实施例，被动数据以比主动数据的数据速率低的数据速率传输，其中相对于主动数据，被动数据被第一用户以被动延迟接收，其中被动延迟对应于开始于切换时间点且被留下要传输给第二用户的第一用户的被动数据的第一持续时间。该实施例解决了下述情况：其中在主动模式中，音频/视频数据被实时传输，而在被动模式中，音频/视频数据以比在主动模式中低的速度通过流送而传输。在多于两个用户的情况下，在另一实施例中，通过以媒体流送单元(例如，网络服务器)的形式存在的混合单元将被动数据传输给第一用户，从而引入被动延迟作为流送延迟持续时间的流送延迟，例如1到10秒，优选地3到5秒。因此，结合从切换时间点开始记录第一用户的被动数据的第一持续时间和主动数据的第二持续时间、从切换时间点开始将被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间加速重放到第二用户、以及关断记录并开始将第一用户的数据实时传输到第二用户的特征，当查看记录的第一用户的主动数据的第二持续时间的第一次结束与记录的主动数据的所重放的第二持续时间的第二次结束之间的同步延迟等于或小于预定持续时间时，这些相应实施例是本发明的另一目的的解决方案，其提供了一种方法，该方法更好地减少当会议会话的被动用户被转变为主动用户时的信息丢失，该被动用户以相比于主动用户的延迟接收音频和/或视频数据。

在进一步实施例中，可以针对加速重放而预适应流送在记录期间流送延迟的被动数据，例如，通过减少传送延迟和/或省略流送延迟的被动数据的互补编码层。预适应可以通过传输不同数据流到第一用户和第二用户而实现，第一用户已经指示他想要从被动模式切换到主动模式，第二用户未指示他想要从被动模式切换到主动模式。可以在媒体处理单元中针对第一用户生成预适应的数据流。可以在媒体处理单元中针对其他潜在切换的被动用户生成相同或其他的预适应数据流。

可以提供计算机程序产品，其在运行于计算机上时使该计算机执行如前所概述的本发明方法。该计算机程序产品可以是包括指令的软件产品。该计算机程序产品可以被机器可读介质所包括，其中该机器可读介质可以是软盘、CD(致密盘)、DVD(数字多功能盘)或任何其他合适的数字或模拟介质。

本发明进一步包括用于控制实时会议会话的通信系统，其包括：第一用户的第一通信终端；第二用户的第二通信终端；以及媒体处理单元，其中第一通信终端和第二通信终端连接到媒体处理单元，以用于在第一用户和第二用户之间传输音频和/或视频数据，其中通信系统被配置成允许会议会话包括：第一用户的被动模式，其中数据作为被动数据而在第一通信终端处接收且被第一通信终端传输，但不被第二终端接收；以及第一用户的主动模式，其中数据作为主动数据而被第一通信终端接收和传输，且被第二终端接收。通信系统进一步包括：切换装置，用于在切换时间点处从被动模式切换到主动模式，其中在切换后，第一用户的被动数据的第一持续时间被留下要传输给第二用户，第一持续时间在切换时间点处结束或开始于切换时间点；记录装置，用于对第一用户的被动数据的第一持续时间和主动数据的第二持续时间进行记录，第二持续时间开始于切换时间点；重放装置，用于与记录相比，在切换后将被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间加速重放给第二用户，重放开始于切换时间点；以及关断装置，用于当在记录期间第一用户的主动数据的第二持续时间的第一次结束与在记录后主动数据的所重放的第二持续时间的第二次结束之间的同步延迟等于或小于预定持续时间时，关断记录并开始将第一用户的数据实时传输给第二用户。

作为用于会议会话的多于两个用户的实施例，本发明包括通信系统，其进一步包括：以媒体流送单元(例如，网络服务器)的形式存在的混合单元，用于提供会议特征或会议单元，其中媒体处理单元和/或混合单元被布置在诸如专用自动化交换分机之类的专用交换分机内部。在会议会话中的音频/视频数据传输的情况下，可以不经由PBX而是经由可连接到媒体处理单元的以网络服务器的形式存在的媒体服务器来传输数据。网络服务器和媒体处理单元可以链接到分解的PBX，其处置呼叫/会话控制和协议处置。媒体处理单元可以生成诸如反馈音之类的通告，并在混合音频/视频数据信号以及到第一和第二通信终端的连接方面处置会议。当使用专用自动交换分机(PABX)时，这种PBX可以被实现为自动提供切换功能的服务器。根据本发明，在实施例中提出：媒体处理单元的部分或全部功能(诸如从被动模式切换到主动模式、记录第一用户的被动数据的第一持续时间和主动数据的第二持续时间、与记录相比在切换后将被动数据的所记录的第一持续时间和主动数据的所记录的第二持续时间加速重放给第二用户、以及当在记录期间第一用户的主动数据的第二持续时间的第一次结束与在记录后主动数据的所重放的第二持续时间的第二次结束之间的同步延迟等于或小于预定持续时间时关断记录并开始将第一用户的数据实时地传输到第二用户)和/或媒体流送器的部分或全部功能(诸如混合第一和第二用户的数据流)被布置在诸如专用自动交换分机之类的专用交换分机内部。

以下参照附图来强调本发明的进一步实施例和优点。对改善的清晰度，附图并非真正按比例或成比例绘制。在附图中，只要未以其他方式提及，相同的附图标记指示具有相同含义的相同部分。附图图示了：

图1A、1B，第一实施例中的根据本发明的包括媒体处理单元的用于四个用户的会议会话的通信系统的示意图，

图2，第二实施例中的根据本发明的包括静音用户的方法的示意时间线，

图2A，根据本发明的图2的示意时间线的流程图，

图3，第三实施例中的根据本发明的包括实时主动模式和延迟被动模式的方法的示意时间线，

图4，根据本发明的图3的示意时间线的流程图，

图5，第四实施例中的根据本发明的包括由通信系统添加的预期延迟的方法的示意时间线，

图6，第五实施例中的根据本发明的包括在从被动模式切换到主动模式后的中断的方法的示意时间线，以及

图7，第六实施例中的根据本发明的包括在从被动模式切换到主动模式前的中断的方法的示意时间线。

图1A图示了用于四个用户的会议会话的通信系统100。第一用户的通信终端1(例如，智能手机、平板PC、IP电话或PC客户端)经由连接链路6连接到以媒体流送器的形式(即，以网络服务器的形式)存在的混合单元3或者会议单元。由通信系统100建立来自会议会话的用户的数据的传输和混合。用于会议会话的用户之间的数据传输的其他协议是可能的。第二或更多用户的附加通信终端5A、5B、5C(例如，有线电话或蜂窝电话)分别通过通信链路7A、7B和7C链接到混合单元3。混合单元3和媒体处理单元2被专用自动化交换分机4所包括。当用户的音频/视频数据在通信终端1、5A、5B和5C之间向下游(即，从混合单元3到通信终端1、5A、5B、5C，也称为从服务器到客户端)和向上游(即，从通信终端1、5A、5B、5C中的至少一个到混合单元3，也称为从客户端到服务器)传输时，来自通信终端(也称为客户端)的数据的交换经由混合单元3发生，而不涉及媒体处理单元2。在要连接的仅两个用户的实施例中，混合单元3将使第一用户和第二用户的数据通过而不进行混合。可替换地，对于在需要时仅使用PBX或PABX的切换功能的第一通信终端(1)和第二通信终端(5A)之间的通信链路，混合单元可能缺失。

当会议会话包括例如第一用户的被动模式(其中数据作为被动数据而被第一通信终端1接收和传输，但不被第二终端5A、5B、5C接收，即，允许数据在混合单元3和第一通信终端1之间向上游和向下游传输，但不从混合单元3到第二通信终端5A、5B、5C向下游传输以及第一用户的主动模式时(其中数据被第一通信终端1从第二通信终端5A、5B、5C接收且被第一通信终端1传输到第二通信终端5A、5B、5C，即，允许数据在混合单元3和第一通信终端1之间向下游和向上游传输以及在混合单元3和第二通信终端5A、5B、5C之间向下游和向上游传输时，可能的是，在从被动模式切换到主动模式后，第一用户的被动数据的第一持续时间不被传输给第二用户，且因此被留下要传输给第二用户。如图1B中所示，在这种情况下，第一通信终端1未直接连接到混合单元3，而是经由通信链路8链接到媒体处理单元2，媒体处理单元2经由通信链路9链接到混合单元3。取代在从被动模式切换到主动模式后经由混合单元3直接传输语音/视频数据给通信终端5A、5B、5C，在切换到主动模式后，为了赶上会议会话的用户之间的主动模式中的实时会话，以比在记录期间的速度更快的速度且与由媒体处理单元2进行的记录同时记录和重放被留下要传输的被动数据的第一持续时间。

图2图示了第一用户静音的实施例的图1B的情况，也称为静音开启模式或静音激活模式，这被定义为被动模式，并且存在从混合单元3到媒体处理单元2的切换，混合单元3可以是会议单元(DSP单元)、会议服务器或媒体处理单元。在从混合单元3到媒体处理单元2的切换之后，从第一通信终端1接收的RTP分组在通信系统100中不再被导向到混合单元3，而是被导向到媒体处理单元2，其中媒体处理单元2发送(经处理的)RTP分组到混合单元3。图2中的上部区域1A表示第一通信终端1(所传输的数据的定时)。图2B中的下部区域2A表示记录模式2R和重放模式2P中的媒体处理单元2。在从被动模式切换到主动模式的切换时间点13A之前，媒体处理单元2开始记录11第一用户何时激活静音开启12，这可以保留用于节省用于在媒体处理单元2中记录的存储器的时间窗口。图2中显示的水平箭头12到26——以及图3、5、6和7中的其他水平箭头——的长度表示对彼此的相对持续时间/时间段(参见图2左上角处的时间“t”——以及图3、5、6和7中的“t”——的箭头的方向)。

在静音后的某个时间点处，第一用户在表示语音活动检测响应持续时间的箭头13的开始处决定谈话。在语音活动检测响应持续时间13的结束处检测第一用户的语音，语音活动检测响应持续时间13可以是大约1到3毫秒。当在某时间后静音被自动去激活时，这意味着：在静音持续时间期间，第一用户所说的内容在未被媒体处理单元2记录的情况下将会丢失。第一用户在静音被去激活并且已经在第一用户和第二用户之间向上游和向下游建立有效载荷时的时间点后继续谈话。

该实施例中的语音活动检测响应持续时间13是被动数据的第一持续时间，其连同第一用户的主动数据的第二持续时间14一起自从被动模式切换到主动模式的切换时间点13A开始被记录。因此，在第二持续时间14的开始处，通过切换到主动模式来自动地对静音进行去激活，并且在语音活动检测响应持续时间13期间所说的无论什么内容都从媒体处理单元2传输给到混合单元3。由于语音活动检测响应持续时间13的结束时间点不是预先知道的，因此可以由每用户的个体轮转记录缓冲器针对会议会话的所有用户而布置记录(例如在媒体处理单元2或混合单元3处)，轮询过程指代一种模式或排序，由此最近记录以循环的方式盖写每用户的先前记录序列。

与记录速度相比，针对下述操作选择更快的速度：经由媒体处理单元2加速重放被动数据的所记录的第一持续时间13和主动数据的所记录的第二持续时间14，以及经由混合单元3和通信链路7A、7B、7C向通信终端5A、5B、5C传输它们(参见所重放的语音活动检测响应持续时间23和所重放的第二持续时间24相对于所记录的语音活动检测响应持续时间13和所记录的第二持续时间14的更小长度)。如图2中所示，记录继续第二持续时间15、16。只要在记录期间第一用户的主动数据的第二持续时间16的第一次结束18与在记录后主动数据的所重放的第二持续时间26的第二次结束26A之间的同步延迟27等于或小于预定持续时间，则加速重放继续。因此，媒体处理单元2继续向混合单元3重放所记录的第二持续时间15、16作为所重放的第二持续时间25、26，直到第一用户的所重放的音频/视频数据处于同步延迟27的预定持续时间内。当同步延迟处于预定持续时间(其可以是10到100毫秒，优选地是30到50毫秒)内时，在媒体处理单元2不再记录且不再重放的切换点17处存在记录的关断，使得混合单元3现在由通信终端1供给音频/视频数据(参见主动模式中的第二持续时间19)，而没有来自媒体处理单元2的参与或媒体处理单元2的绕过。这样，通信系统100开始实时传输第一用户的数据至第二用户。

图2A的示意时间线的流程图开始于第一用户激活静音S21，其中记录S22开始，导致切换到媒体处理单元2，S23，这发起以语音活动检测的形式存在的静音关闭检测，S24。静音关闭检测继续，直到第一用户开始谈话，导致从被动模式切换到主动模式以及与记录的速度相比加速重放S25第一用户的所记录的/视频数据。记录继续S26，只要最后记录的会话时间差(也称为同步延迟)小于以毫秒为单位测量的预定持续时间，S27(参见图2A中的步骤S27中的xms，其中x是整数，例如1到100，优选地是30-50，并且ms是毫秒)。一旦达到或缩短预定持续时间，就在更快模式中重放主动数据的最后记录的第二持续时间，S28。然后，通信系统100切换过去到第一通信终端1，S29，其中图2A的流程结束。

图3在包括实时主动模式和延迟被动模式的示意时间线中图示了本发明的另一个实施例。第一通信终端1(及其数据传输的时间线)由水平条1B表示，而媒体处理单元2由水平条2B表示。具有主动和被动参与者/用户的会议会话由通信系统100建立。在主动用户和被动用户方面以不同方式服务于用户，主动用户与经由例如会议服务器3A而交换的实时媒体通信，被动用户通过流送36(例如，在例如由媒体流送器(典型地，网络服务器)3B递送的https上)接收媒体/数据，其中会议服务器和媒体流送器可以被混合单元3所包括。该实施例可以尤其出现在大量参与者(例如，数十个或数百个用户作为被动用户和几个用户作为主动用户)的会议中。与主动模式的实时通信相比，媒体流送可能受制于显著的附加延迟(大致3-5秒)。因此，流送可能不适合于在线(即，实时)通信，但可能足以节省用于大量被动用户的会议和/或混合单元处的处理能力，这是因为只要流送延迟未被停留在被动模式中的用户感知到，由被动用户发送的媒体就不需要被处理。

然而，被动用户可以改变成主动用户以贡献于主动用户的讨论。为此，例如，来自网络研讨会，概念“举手”31对于被动用户30而言是已知的，被动用户30可以被静音以避免大型或移动配置中的背景噪声。基于第一用户的该用户指示，主持人可以通过用户交互或者通信系统100可以自动地将第一用户从被动模式切换到主动模式，32。由于不可忽略的编码延迟，实时通信可以领先流送通信几秒，导致要平滑地赶上(优选地不被经转变的第一用户33和/或诸如第二用户之类的其他与会者感知)的时间间隙。与应用自动化解除静音的语音(活动)检测相比，这是类似的场景，区别在于：从被动模式切换到主动模式的时间点是已知的/由通信系统100而不是由第一用户触发的。因此，在该方面中，图3中图示的实施例是不同的。

在将第一用户从被动模式切换到主动模式的时间点32处，媒体处理单元2开始对从第一通信设备1捕获的实时媒体37进行记录37A。在切换时间点32处，媒体流送的重放缓冲器(未示出)仍可以包含媒体帧36B，其要被递送给第一用户的第一通信设备1以避免信息丢失。在另一实施例中，媒体处理单元2可以与规则媒体流送36并行提供至少一个预适应/优化的媒体/数据流36A，以用于节省重放期间的时间的目的，例如，以所处理的数据的形式，该所处理的数据包括与规则媒体流送36相比减少的传送延迟和/或省略的互补编码层。一旦由规则媒体流36和/或媒体处理单元2的预适应媒体流送36A通过重放来递送剩余帧36B，在切换到主动模式后对实时数据37的所记录的持续时间37A的加速重放(参见重放持续时间37B)就开始(无缝)继续实时持续时间38的同时记录的媒体(参见持续时间38A)的重放持续时间38B，直到所重放的媒体/数据与实时媒体适时地在预定同步延迟内。这是第一用户从媒体处理单元2切换到被混合单元3所包括的会议服务器的时间点。在记录2R的关断时间点17(也称为同步点34)处，开始将实时数据从第一通信设备1传输到混合单元3(即，向上游39)以及从混合单元3传输到第一通信设备1(即，向下游39A)。遵循同步点34的第一用户的过渡模式33和主动用户模式35被定义成被开始于切换时间点的主动模式所包括。结论是，开始于持续时间37B的时间线与图2中图示的开始于第二持续时间24的解除静音使用相对应。

图4图示了图3的示意时间线的流程图，并开始于作为被动用户的第一用户举手，31。会议会话的主持人/管理员将第一用户从被动模式切换到主动模式，S41，这停止了从媒体流送器到第一通信终端1的规则流送(向下游，S42)。其开始记录S43音频/视频数据，其(在被动模式中)从第二通信终端5A、5B、5C流送到媒体处理单元2(即，向上游)，其中媒体处理单元2可以可选地提供经修改/预适应的媒体流，以便除了S43的所记录的流之外或取代S43的所记录的流，促进加速重放S44。从媒体处理单元2向第一通信终端1传输S45剩余排队流送帧。一旦最后的帧已经被传输S46到第一通信终端1，就开始S47重放预适应的剩余排队流送帧或没有预适应的剩余排队流送帧并且随后加速重放已被传输到媒体处理单元2(向上游)的所记录的媒体/数据。一旦所记录的数据的最后记录的内容已经被重放S48，就关断第一用户的记录并且在主动模式中将第一用户从流送切换到实时，32。第一用户然后处于主动模式(激活)中，该主动模式使得能够在第一用户和第二用户之间进行双向实时通信，S49，这结束图4中图示的流程。

图5图示了本发明方法的示意时间线，包括由通信系统100添加的预期延迟51以同步会议会话的用户的数据流。为了避免重复描述，仅强调与图2的区别。在图5的上部区域1C中，表示了第一通信终端1，而在下部区域2C中表示媒体处理单元2。尤其是在IP上的实时通信中，可以引入故意延迟以便对流进行同步。故意延迟使得其他用户可能比第一用户自己晚一些时间听到第一用户的语音。可以通过对使用本发明方法的用户的流进行优先化排序来利用该预期延迟。通过提供语音活动检测响应持续时间13的一部分作为预期延迟，将静默持续时间制止到更小的量。取代生成用于对会议会话的用户的数据流进行同步的预期延迟，利用语音活动检测响应持续时间13的至少部分以提供预期延迟51。由于语音活动检测响应持续时间是其中第一用户仍然静音的静默持续时间，因此静默持续时间可以出现在该预期延迟期间。

图6图示了本发明方法的示意时间线，其包括在从被动模式切换到主动模式后的中断。该实施例解决了以下情况：其中在媒体处理单元2重放第一用户的所记录的音频/视频内容的同时，作为另一用户的第二用户介入。在图6的上部区域1D中，表示了第一通信终端1，而在下部区域2D中表示媒体处理单元2。该另一用户正在中断会话，这导致中断时间点61处重放的中断。当该另一用户正在中断第一用户时，可以礼貌的是，第一用户停止谈话并等待该另一用户完成。这意味着：关断记录18的切换点17被移位到中断时间点61。一旦这种情况发生，应该被记录的所有信息/数据就被自动移位到通信终端1，由区域1D表示。记录被停止，并且要记录的后续持续时间64、65、66不被记录，但被第一通信终端1向上游传输作为持续时间64A、65A、66A。因此，未记录的持续时间64、65、66将不以加速方式被重放作为持续时间62B、25、26。中断时间点61使得在重放期间，由其他用户进行的数据接收结束于时间点63A处。尽管第一用户已经在从时间点63A到62A的持续时间期间谈话，但从时间点63A到时间点62A的导致记录停止的所有其他信息被丢弃。从时间点63A到时间点62A的重放中的持续时间在图6中被显示为持续时间64B和65B，其在记录中对应于持续时间62。丢失持续时间64B之前的持续时间63对应于中断时间点61之前记录的持续时间13。在时间点62A后，没有说出哪个在图6中由灰色持续时间64、64A、65、65A显示。由于在中断时间点61之后所说的任何内容都将被传递以用于传输给第一通信终端1，因此这些分组/数据66、66A也以灰色示出。

图7图示了本发明方法的示意时间线，包括在从被动模式到主动模式的切换时间点17之前的中断时间点71，导致用于记录的关断时间点18。在图7的上部区域1E中，表示了第一通信终端1，而在下部区域2E中表示媒体处理单元2。当第一用户谈话并且解除静音尚未被检测到时，可以引入中断时间点71。在这种情况下，在记录被关断时的时间点18处，切换点17被移位到语音活动检测响应持续时间13的结束。这意味着：在语音检测后发送的信息丢失，图7中以黑色示作持续时间72。因此，诸如第二用户之类的其他用户将仅听到在静音上时已经说出的内容。在静音上时所记录的数据已经被记录，且在第一用户继续说话时被重放。在示作间隙73和图7的该持续时间中，除了他的实时语音外，第一用户还将听到如在记录已经被关断之前在静音上所记录的他的语音。因此，第一用户将知道他在中断前所说的无论什么内容不会丢失而是被传输给第二用户。然后，由用户负责决定谁将继续谈话，正如在当两个用户尝试同时谈话时的会议中可能发生的那样。

取代单个媒体处理单元2，可以利用若干个媒体处理单元以设施本发明。在该实施例中，由第二用户触发的中断将从服务于第二用户的相关媒体处理单元指示。

已关于前文中讨论的单个或若干个实施例而公开的一个技术特征或若干个技术特征(例如，利用若干个媒体处理单元)也可以出现在另一实施例(例如，包括图3和图4中分别显示的实时主动模式和延迟被动模式的实施例)中，除了它/它们未被指定为存在或者它/它们不可能出于技术原因而存在。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 控制实时会议会话的方法、使计算机执行该方法的计算机程序产品以及相关通信系统 [P] . 中国专利： CN107040751A . 2017-08-11
2. 用于将与用户设备之间的基于IP的语音的语音通信会话相关的话音同基于web的应用进行组合的方法、媒体服务器、计算机程序和计算机程序产品 [P] . 中国专利： CN102224543A . 2011-10-19
3. METHOD OF CONTROLLING A REAL-TIME CONFERENCE SESSION, A COMPUTER PROGRAM PRODUCT CAUSING A COMPUTER TO EXECUTE THE METHOD, AND A COMMUNICATION SYSTEM FOR CONTROLLING THE REAL-TIME CONFERENCE SESSION [P] . EP3203701B1 . 2021-04-21

机译：控制实时会话会话的方法，计算机程序产品导致计算机执行方法，以及用于控制实时会话会话的通信系统
4. METHOD OF CONTROLLING A REAL-TIME CONFERENCE SESSION, A COMPUTER PROGRAM PRODUCT CAUSING A COMPUTER TO EXECUTE THE METHOD, AND A COMMUNICATION SYSTEM FOR CONTROLLING THE REAL-TIME CONFERENCE SESSION [P] . 欧洲知识产权局专利： EP3203701A1 . 2017-08-09

机译：控制实时会议的方法，导致该方法执行的计算机程序产品以及用于控制实时会议的通信系统
5. METHOD AND TRANSFERRING CONTROL OF AN EXISTING MULTI-PARTICIPANT CONVERSATION TO A CONFERENCE CONTROL APPLICATION AND COMPUTER PROGRAM PRODUCT FOR EXECUTING THE METHOD [P] . IN2013KN00938A . 2014-04-11

机译：现有的多参加者会话的方法和转移控制到会议控制应用程序以及用于执行该方法的计算机程序产品