首页> 中国专利> 对用户接口进行控制来自动对焦地显示呼叫参与者

对用户接口进行控制来自动对焦地显示呼叫参与者

摘要

一种控制用户接口根据参与者在呼叫中的语音活动来显示所述呼叫的参与者的方法,所述方法包括:监控所述呼叫中的参与者的语音活动并根据参与者在所述呼叫的最小时间期上的语音活动来确定参与者是活跃的参与者还是不活跃的参与者。响应于确定参与者是活跃的还是不活跃的参与者,活跃的参与者被显示在所述用户接口的第一区域中,以及不活跃的参与者被显示在所述用户接口的第二区域中。所述用户接口的所述第一区域大于所述用户接口的所述第二区域。

著录项

  • 公开/公告号CN103155548A

    专利类型发明专利

  • 公开/公告日2013-06-12

    原文格式PDF

  • 申请/专利权人 斯凯普公司;

    申请/专利号CN201180049442.X

  • 申请日2011-10-14

  • 分类号H04N7/14(20060101);H04N7/15(20060101);H04L12/18(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人李舒;汪扬

  • 地址 爱尔兰都柏林

  • 入库时间 2024-02-19 19:59:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-17

    专利权的转移 IPC(主分类):H04N7/14 登记生效日:20200330 变更前: 变更后: 申请日:20111014

    专利申请权、专利权的转移

  • 2017-09-15

    授权

    授权

  • 2013-07-17

    实质审查的生效 IPC(主分类):H04N7/14 申请日:20111014

    实质审查的生效

  • 2013-06-12

    公开

    公开

说明书

技术领域

本发明涉及一种控制电话会议中的用户接口的方法。

背景技术

基于分组的通信系统允许诸如个人计算机这样的设备的用户跨诸如互联网这样的计算机网络进行通信,在这种情况下,分组协议可以是互联网协议(IP)。基于分组的通信系统可以被使用于视频通信。这些系统对用户是有利的,因为它们通常比固网或移动网络具有显著低的成本。这可以特别地是针对长距离通信的情况。为了使用基于分组的系统,用户必须在他们的设备上安装和执行客户端软件。这样的客户端软件可以建立话音和视频呼叫。

在视频通信系统中,在视频呼叫期间,第一用户的终端将从第二用户的终端接收视频和语音数据。所接收的视频数据典型地包括在所述呼叫期间的、第二用户的脸部或身体的实时视频。所接收的视频数据将典型地被显示在第一用户的终端上的显示器的主要视频区域中。所述视频数据由第二用户的终端上的编码器进行编码以用于到第一用户的终端的传输。所接收的视频数据然后由第一用户的终端上的解码器进行解码。

这些视频通信系统虑及多个用户间的视频会议。在这样的系统中,从所述多个用户接收的视频数据将典型地被显示在用户的终端中的每一个上的显示器的主要视频区域中。

是可以被合作使用到的设备。设备包括多个摄像机来提供视频会议的全景视图。用户接口在全景显示区域中显示所有的参与者,所述全景显示区域包括针对参与者中的每一个的显示区域。

当视频会议的参与者正在说话时,他们除了被显示在用户接口的活跃的说话者区域中之外,还与所述视频会议的其他参与者一起被显示在全景显示区域中。活跃的显示区域大于全景显示区域中的参与者显示区域。因此,针对当前正在说话的参与者的视频显示的相对大小被改变成适合活跃的显示区域,而全景显示区域中的活跃的说话者的显示保持相同大小。这使得视频会议的当前说话者能被更加清晰地显示在多个用户的用户终端上。

在这个系统中,活跃的参与者基于对参与者在视频呼叫中的活动的瞬时评估被确定,并且活跃的参与者的显示因此被改变。

发明内容

发明人已经认识到本系统具有大量缺点。

首先,在具有全部活跃地参与并对会话做出贡献的多个用户的视频呼叫期间,由于对参与者在视频呼叫中的活动中的每个活动的瞬时评估,所述系统将频繁地改变所述视频被呈现的方式。这可能造成所述用户感到眩晕或者对所述视频呼叫本身分心 。

其次,频繁地调整不同的视频流被再现在屏幕上的方式造成用户终端上的更大的处理需求。更大的处理需求也可以被置于解码器近侧和编码器远端,特别是在编码和/或解码模式取决于图像的呈现大小的情况下。

因此,需要一种技术通过控制视频呼叫中的参与者的显示来解决前面提及的问题。

根据本发明的第一方面,提供了一种控制被显示在用户终端上的用户接口来显示呼叫的参与者的方法,所述方法包括:将多个预定显示配置存储在所述用户终端的存储装置中;经由用户接口从所述呼叫中的用户接收选择信号,并且响应于接收到所述选择信号,从所述存储装置中选择所述预定显示配置中的一个;以及监控所述呼叫中的参与者的语音活动。

优选地,所述方法进一步包括根据所述呼叫中的参与者的语音活动在所选择的预定显示配置的多个位置中显示所述呼叫的参与者。

根据本发明的第二方面,提供了一种控制用户接口根据参与者在呼叫中的语音活动来显示所述呼叫的参与者,所述方法包括:监控所述呼叫中的参与者的语音活动;根据参与者在所述呼叫的最小时间期上的语音活动来确定参与者是活跃的参与者还是不活跃的参与者,其中响应于确定参与者是活跃的参与者,在用户接口的第一区域中显示所述参与者,其中不活跃的参与者被显示在用户接口的第二区域中,用户接口的所述第一区域大于用户接口的所述第二区域。

这有利地允许降低用户接口被要求来改变所接收的数据流被再现给屏幕的方式的次数。这改进了用户体验并且减少了处理需求。

优选地,显示参与者的步骤包括显示表示参与者的图像。

优选地,确定的步骤在呼叫期间在预定时间间隔上被实施,并且其中参与者在用户接口的第一和第二区域间的自动转换响应于在所述预定时间间隔上的确定步骤被实现。

优选地,如果所述呼叫中的参与者的语音活动在预定门限之上达所述最小时间期,则参与者被确定为是活跃的参与者。

替换地或附加地,如果在所述最小时间期内的语音活动间的暂停的预定数量没有被超过,则参与者被确定为是活跃的参与者。

确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者可以针对每个参与者被单独地评估。

替换地,确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者可以是基于所述呼叫中的所有参与者的语音活动间的比较的。

优选地,手动超控(manual override)包括手动地控制用户接口来在所述用户接口的第一或第二区域中显示参与者,而不管语音活动。

手动超控可以在用户接口的第一或第二区域中显示参与者,而不管确定步骤在随后的时间间隔上的结果。

替换地,在开始随后的时间间隔的确定步骤后,手动超控可以被终止。

优选地,参与者可以被布置在预定显示配置的集合中的一个配置中的显示器上,所述一个配置根据所述比较被选择。

参与者在预定显示配置的区域间的自动转换可以响应于在所述预定时间间隔上的所述确定步骤被实现。

替换地,所述预定显示配置的集合中的一个可以按在随后的时间间隔上的确定步骤的结果被选择。

本发明的以上方面可以独立地或结合另外的方面被实施,例如,第一方面可以被使用来选择预定显示配置,以及第二方面的以上实施例中的任一个可以被使用来根据所监控的语音活动在所选择的显示配置内显示参与者。

本发明的另一方面提供了一种用户终端,其被控制来根据参与者在呼叫中的语音活动显示所述呼叫的参与者,所述用户终端包括:显示器,其被配置来显示具有第一和第二区域的用户接口,所述用户接口的所述第一区域大于所述用户接口的所述第二区域;用于监控所述呼叫中的参与者的语音活动的装置;用于根据参与者在所述呼叫的最小时间期上的语音活动来确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者;以及用于控制所述用户接口根据所述确定来显示所述呼叫的参与者的装置,其中响应于确定参与者是活跃的参与者,所述活跃的参与者被显示在所述用户接口的第一区域,以及不活跃的参与者被显示在所述用户接口的第二区域。

所述用户终端可以被配置来执行上面的方法特征中的任一个。

本发明还提供了计算机程序产品;所述程序包括代码,当其在处理器上被执行时,执行上面定义的方法特征中的任一个的步骤。

在进一步的方面中,本发明提供了通信系统,其包括连接到通信网络的多个用户终端,其中所述多个用户终端中的至少一个用户终端是如上文所定义的。

附图说明

为了更好地理解本发明以及示出同样的发明如何被付诸实践,现在将通过例子对下面的图做出参考,其中

图1示出了基于分组的通信系统;

图2示出了用户终端的子部分的详细视图;

图3示出了在用户终端上执行的客户端的用户接口;

图4a、4b、4c示出了视频呼叫中的参与者的示例性的语音信号;

图5示出了在用户接口中显示的、视频呼叫的参与者;

图6a、6b、6c示出了视频呼叫的参与者可以如何被手动地显示在用户接口中的一定的位置中;

图7a、7b、7c示出了示例性的显示模板。

具体实施方式

首先参考图1,其图示了通信系统100。注意,所述通信系统可以是对等通信系统或是基于服务器的通信系统。所述通信系统的第一用户(命名为“用户A”102)操作第一用户终端104,其被示出为连接到网络106。注意,网络106利用基于分组的通信系统,诸如互联网。用户终端104例如可以是个人计算机(“PC”)、个人数字助理(“PDA”)、移动电话、游戏设备或能够连接到网络106的其它嵌入式设备。该用户设备被布置成从该设备的用户接收信息和将信息输出给该设备的用户。在本发明的优选实施例中,用户设备包括诸如屏幕或监视器这样的显示器、以及键盘和鼠标。用户设备104经由诸如调制解调器这样的网络接口108被连接到网络106,并且用户终端104和网络接口108之间的连接可以是经由电缆(有线)连接或无线连接。

用户终端104运行由软件提供商提供的客户端110。客户端110是在用户终端104中的本地处理器上执行的软件程序。用户终端104也被连接到手持机112,所述手持机112包括扬声器和麦克风以使得用户能在呼叫中听和说。所述麦克风和扬声器不一定必须是以传统的手持机的形式,而可以是以具有集成的麦克风的头戴式耳机或耳塞式耳机的形式,或可以作为独立地连接到用户终端104的单独的喇叭和麦克风。用户终端104也可以被连接到视频摄像机114,诸如网络摄像机。

多个另外的用户终端116、118、120可以被连接到网络106,其包括与第一用户的终端相类似的元件。

客户端110提供了在用户终端104上显示的用户接口。所述用户接口包括标有“联系人”的按钮,并且当这个按钮被选择时,被用户存储在联系人列表中的联系人被显示。到所述联系人列表中的用户的诸如话音和视频呼叫这样的呼叫可以在所述通信系统上通过选择联系人并且使用诸如鼠标这样的指点设备在“呼叫”按钮上点击被发起。

在用户A、B、C和D之间的电话会议中,在第一用户终端104上执行的客户端110执行对话音和/或视频IP分组的编码(用于传输)和解码(用于接收的分组)。来自用户终端104的话音和/或视频IP分组经由网络接口108被传送到网络106,以及经由网络接口被路由到被呼叫方(用户B、C和D)的用户终端116、118和120。在被呼叫用户的用户终端上运行的客户端(类似于客户端110)解码所述话音和/或视频IP分组以便产生可以被在他们的终端116、118、120上的被呼叫的用户听见和看见的音频和/或视频信号。

在呼叫的用户不向所述呼叫中的其他用户传送视频数据的情况下,与所述用户相关联的化身(avatar)在所述呼叫中的用户终端上运行的客户端中被显示。所述化身图像可以是以用户的照片的形式的真实表示;或是诸如最喜欢的卡通人物、动物、对象、抽象图像的符号表示;或甚至是由用户选择来显现给同一基于分组的通信系统的其他用户的任意图像。

图2图示了用户终端104的子部分的详细视图。

在呼叫中,用户终端104分别经由手持机112和网络摄像机114从用户A 102接收语音和视频数据。用户终端104也通过网络106从分别在多个另外的用户终端116、118、120上的用户B、C、D接收语音和视频数据。

视频数据在解码器202处被接收,所述解码器解码所述视频数据并将解码的视频数据发送到显示器驱动器210。话音检测器和分析器204检测语音什么时候在用户终端104上被接收到。所述话音检测器和分析器分析从话音检测器204接收的语音数据并输出参数,所述参数例如是被发送到时序分析块206的、针对用户A102的声级。时序分析块205使用时间间隔X、Y、Z的预定集合以及变量“最小平静时间(MinQuietTime)”和“最大平静时间(MaxQuiteTime)”分析所述声级,其是由所述系统设置的并被输入到时序分析块205。时序分析块205的结果被发送到比较器206,所述比较器使用输入到比较器206的声级门限值确定视频呼叫中的用户在所述呼叫中是活跃的还是不活跃的参与者。比较器206的操作详细地在下面被充分描述。如果要被比较的参数是声级,则所述门限值是声级。

由比较器206做出的所述确定被传到显示器驱动器210来自动地控制所述显示器,或者被传到存储器储存装置208。存储器储存装置208存储多个模板(预定显示配置),所述模板可以被使用来显示所述呼叫中的用户。响应于从比较器206接收到对所述呼叫中的活跃的和/或不活跃的参与者的确定,所述存储器储存装置将适当的模板发送到显示器驱动器210。

显示器驱动器210控制所述用户接口根据从比较器206接收的确定或者从存储器储存装置208接收的预定的显示配置来输出对视频呼叫的用户A、B、C和D的显示。

手动超控行212被输入到显示器驱动器210。当用户A 102在用户接口中做出选择时,所述手动超控行212从显示器300(如图3中示出的)接收输入。手动超控的操作和选择的类型详细地在下面被充分描述。

如图3中图示的,第一用户的终端104具有可用的显示区域300以用于显示呼叫的参与者。该显示区域300可以是客户端前端中的面板、来自客户端的单独的窗口、或全屏显示器。

显示区域300包括较大的第一区域302(舞台),其显示从呼叫中的活跃的参与者接收的图像。

活跃的参与者的图像306中的每一个被显示在舞台302中,并被调整大小成适合舞台区域302。

显示区域300也包括较小的第二区域304(名单),其显示从呼叫中的不活跃的参与者接收的图像。

不活跃的参与者的图像306中的每一个被显示在名单区域304中。应当理解,因为名单的大小小于舞台的大小,如图3中示出的,不活跃的参与者的图像306将被调整大小成适合名单区域304,并将比舞台区域302中的活跃的参与者的图像306在视觉上较不突出。

在呼叫期间,如果用户具有连接到他们的用户终端的网络摄像机,则实时视频数据将被显示为用户的图像306,并将被显示在呼叫中的用户的用户终端上。

在呼叫期间,用户的视频数据到所述呼叫中连接的其它用户终端的传输可以被停止。这可以通过由用户进行的故意活动来完成,例如用户关闭他们的网络摄像机、断开他们的网络摄像机与他们的用户终端的连接、或者在客户端提供的用户接口中做出仅传送话音数据的选择。替换地,这可以非故意地完成,例如用户可能具有对于他们的网络摄像机的技术问题。如果在呼叫期间,用户的视频数据到呼叫中连接的其它用户终端的传输被停止,则被使用在客户端软件中的他们的化身将被显示为图像306。

在视频呼叫的用户不具有能够在呼叫中传送视频数据的硬件的情况下,即用户不具有连接到他们的用户终端的网络摄像机114,则被使用在客户端软件中的他们的化身将被显示为图像306。

现在将描述参与者的显示器如何在正常的规则下基于视频呼叫中的会话流被重新调整大小。

当视频呼叫在多个用户间被开始时,在用户中的任意一个开始讲话之前,将赞赏的是:用户都可以被显示在舞台区域302中、用户都可以被显示在名单区域304中、或者一个或多个用户可以被显示在舞台区域302中以及一个或多个用户可以被显示在名单区域304中。

在连接阶段,在舞台区域302和名单区域304中布置的用户可以被依据参与者的姓名或显示名(用户名)按字母顺序排序。

名单可以被配置成具有可滚动的区域307(图6C)。例如,如果在视频呼叫中具有比可以被显示在名单区域304中的更多的不活跃的参与者,则用户可以在名单中滚动多个视频或化身306来显示名单区域304中的其他不活跃的参与者。

视频呼叫中的用户中的每一个的语音活动被时序分析块205在预定时间间隔上进行监控。预定时间间隔典型地以秒计,即1秒。应当理解,所述预定时间间隔的值仅仅是例子并不以任何方式进行限制。

在这些预定时间间隔上,比较器206通过将从时序分析块205接收的用户的声级与声级门限进行比较来确定视频呼叫中的每个用户是活跃的参与者还是不活跃的参与者。

在呼叫期间,用户自己的图像309可以被选择地显示在他们自己的用户终端上、被显示在名单区域304中的一侧,例如被显示在名单区域304中的右手侧。名单区域304中的用户自己的图像并不形成可滚动区域的一部分,即,将被保持固定在名单区域304中。

如果用户的声级在声级门限之上达最小的时间期(Xms),则比较器206确定用户在视频呼叫中是活跃的参与者。用户的声级被定义为用户的语音的音量级。替换地,用户的语音的信噪比也可以被使用为用户的声级的参数。此外,用户的语音信号可以被过滤成仅包括人类话音频率,以及用户的声级可以基于在这些人类话音频率内的频率级被确定。

图4a示出了视频呼叫中的活跃的参与者的示例性的语音信号。

替换地或附加地,如果在最小时间期内的、具有长度(Yms)的暂停的预定数量没有被超过,则比较器206确定用户在视频呼叫中是活跃的参与者。图4b示出了所述视频呼叫中的活跃的参与者的另一示例性的语音信号。

如果用户正被显示在名单区域304中(即,其是不活跃的参与者),并且在随后的时间间隔上,比较器206确定所述用户是视频呼叫的活跃的参与者,则所述用户被提升到舞台区域302,并且对活跃的参与者的显示将因此被重新调整大小,从而所述活跃的参与者对于视频呼叫的其他用户在视觉上是更加突出的。

应当理解,如果用户正被显示在舞台区域302中(即,其是活跃的参与者),并且在随后的时间间隔上,所述系统确定所述用户是所述视频呼叫的活跃的参与者,则所述用户将保持在舞台区域302中,并且对活跃的参与者的显示的重新调整大小不发生。

当用户已经平静达“平静期(QuietPeriod)”时,所述系统确定所述用户在视频呼叫中是不活跃的参与者。图4c示出了视频呼叫中的不活跃的参与者的示例性的语音信号。

时序分析块205分析用户的语音活动在最后Z秒内的声级。Z的值典型地以秒计,即30秒。应当理解,Z的这个值仅仅是例子并不以任何方式进行限制。

比较器在平静期上将从时序分析块205接收的用户的声级与的声级门限进行比较,该平静期被示出在图4c中。所述平静期是最后Z秒内的时间期,并通过被输入到时序分析块205的变量“最小平静时间”和“最大平静时间”来定义。所述平静期是在最小平静时间和最大平静时间之间的时间期。

通过例子,图4c示出了等于10秒的变量最小平静时间和等于20秒的变量最大平静时间。在这个例子中,所述系统确定所述用户在最小平静时间和最大平静时间之间的这10秒时间内是否是平静的。

变量最小平静时间和最大平静时间由所述系统固定并且在用户终端104上的客户端110中与在用户终端116、118、120上运行的客户端(类似于客户端110)中是相同的。在一个实施例中,视频呼叫中的用户(例如图1中示出的用户A和用户B-D)对变量最小平静时间和最大平静时间的值不具有控制。

当用户已经平静达平静期时,他从舞台302降下来。平静被定义为用户的声级在门限水平之下达平静期,其具有所述语音信号的、在所述平静期内在所述门限之上的最大可允许的间隔(Yms)。这允许随机的小故障或咳嗽发生,而不造成用户被降下来。

在确定用户是否是不活跃的参与者中使用的间隔Y(图4c中示出的)可能与在确定用户是否是活跃的参与者中使用的Y的值(图4b中示出的)是相同的值。替换地,在确定用户是否是不活跃的参与者中使用的Y的值可以被设置成与在确定用户是否是活跃的参与者中使用的Y的值相不同的值。应当理解,X、Y和Z的值可以按照系统要求被设置。X和Y的值典型地以秒计,即X=1秒和Y=0.5秒。应当理解,X和Y的这些值仅仅是例子并不以任何方式进行限制。

平静期越长,用户被认为值得降下来花费的时间越长。对于此的原因是要确保仅做简短评论的人们比积极地参与会话达长的时间期的人们被更快地从舞台区域302移除。

如前面所描述的,视频呼叫中的用户中的每个的语音活动被时序分析块205在预定时间间隔上监控,并且在这些间隔间没有转换发生。这提供了用户在舞台区域302和名单区域304之间的两次随后的转换之间的最小间隔,由此避免了用户在显示区域300中的过多移动。

在视频呼叫期间,当用户在视频呼叫中开始说话并且其他用户没有一个正在说话时,不是一个接一个地使参与者降下来,而是布局保持在它的当前状态达某一时间期T1。这个时间期T1比使参与者降下来正常花费的时间期(即,平静期)更长。这被进行来改进布局中的视觉连续性,因为正在说话的其他用户中的任意一个很可能与先前显示在屏幕上的会话有关。如果用户保持是唯一的说话者达足够长时间(即T1),则布局根据如上面描述的正常规则而改变。

在一个实施例中,在视频呼叫期间,当参与者从舞台区域302被降下到名单区域304时,被降下的参与者的视频或化身306最远地出现在名单区域304中的一侧,例如出现在名单区域304中的左手侧。这样,布置在名单304中的参与者的次序被动态地改变以便在名单区域304的左手侧上一直显示最近被降下的参与者。

在视频呼叫期间,当呼叫的类型由于新用户加入或现有的用户离开视频呼叫而改变时,不是立即改变显示区域300的布局,而是所述布局仍然保持在它的当前的状态达某一时间期。这可以是大约长度T1。这避免了用户在显示区域300的舞台区域302和名单区域304之间的过多移动,网络连接是不稳定的会造成用户退出视频呼叫以及然后快速地重新加入视频呼叫。

尽管已经描述了参与者的显示如何在正常规则下基于视频呼叫中的会话流被重新调整大小,但是应当理解,在其中呼叫中的用户向其它用户终端传送音频数据而不传送视频数据的会议呼叫期间,该用户的化身将在舞台区域302和名单区域304之间移动,并因此基于以上描述的规则被重新调整大小。

在替换的实施例中,比较器206基于呼叫中的所有参与者的语音活动之间的比较来确定某个参与者在所述呼叫中是活跃的参与者还是不活跃的参与者。在这个实施例中,比较器206基于参与者中的每一个已经说话的时间的长度(即参与者中的每一个的声级在声级门限之上的时间的长度)之间的比较来确定某个参与者在所述呼叫中是活跃的参与者还是不活跃的参与者。

在另一替换的实施例中,最小时间期(Xms)适应于取决于用户已经说话的时间的长度,即用户的声级在声级门限之上的时间的长度。在这个实施例中,最小时间期(Xms)可以基于用户已经活跃的时间的长度被扩展。在这种情况下,如果说话者是特别活跃的说话者,则其较少可能被从舞台区域302降下到名单区域304。

在另一替换的实施例中,最小时间期(Xms)适应于取决于呼叫中的一个或多个其他用户已经说话的时间的长度,即所述一个或多个其他用户的声级在声级门限之上的时间的长度。在这个实施例中,最小时间期(Xms)可以取决于所述其他用户之一已是活跃的参与者的时间或者取决于针对所有所述呼叫参与者的平均活跃期而被增加,其中,所述平均活跃期是呼叫中的所有的参与者已活跃的平均时间。

当一个以上的用户在呼叫期间同时开始和停止说话时,比较器206确定呼叫中的多个参与者中的哪一个最快地被提升为活跃的参与者或被降下为不活跃的参与者。在这个实施例中,比较器206被配置成在整个呼叫期间监控所有参与者的活动,并且当多个参与者同时开始和停止说话时,比较器206确定这些参与者中的、在所述呼叫期间说话最多的那个参与者相比呼叫中的其他参与者被较快地提升到舞台区域302作为活跃的参与者。由此得出,已经在舞台区域302中的、与呼叫中的其他参与者同时开始和停止说话的活跃的参与者将基于在所述呼叫中的说话最少而比任意其他活跃的参与者较快地降下到名单区域304。

如图5中图示的,用户可以对显示区域300进行手动调节。

用户可能想要手动超控所述系统的行为的一些部分以便强制地提升或降下某人。

在一个实施例中,这种手动超控使用定位在参与者的视频或化身306的每一个中的按钮502被实施。将按钮502点击成开(ON)状态704的用户将把所述参与者强制停留在其当前正在被显示的地方(或者在名单区域304中或者在舞台区域302上),而不管随后的时间间隔中的任意语音活动。该用户在下文中被称为被“钉(pin)”到名单区域304或舞台区域302上。

按钮302到关(OFF)状态的用户选择将把参与者设置成正常模式,以便在随后的时间间隔中遵守正常规则。

如果用户点击参与者的视频或化身306,其中参与者已经被强制停留在他当前正在被显示的地方,则钉住的参与者在“强制在舞台上”和“强制在名单中”之间进行切换,并保持在切换的位置中,而不管随后的时间间隔中的任意语音活动。

在这个实施例中,如果用户点击不活跃的参与者的视频或化身306,其中不活跃的参与者没有被强制停留在他当前正在被显示的地方(即未被钉住),则所述系统表现得好像不活跃的参与者的声级在声级门限之上达最小的时间期(Xms),并升起所述不活跃的参与者以便加入在舞台区域302中显示的活跃的参与者,如图6a中所示出的。在这种转换后,现在的活跃的参与者将在随后的时间间隔中遵守正常的规则。

在这个实施例中,如果用户点击活跃的参与者的视频或化身306,其中活跃的参与者没有被强制停留在他当前正在被显示的地方(即未被钉住),所述系统表现得好像活跃的参与者的声级在声级门限之下达最小的时间期(Xms),并使所述活跃的参与者降下以便加入在名单区域304中显示的不活跃的参与者,如图6b所示出的。在这种转换后,现在的不活跃的参与者将在随后的时间间隔中遵守正常规则。

在替换的实施例中,没有明确的能力来使用相关联的按钮将参与者钉住以便停留在他们当前正在被显示的地方(或者在名单区域304中或者在舞台区域302中)。

在这个替换的实施例中,如果用户在参与者的视频或化身306中做出选择,则视频或化身306的位置在舞台区域302和名单区域304之间进行切换,并且所述参与者被钉在新的位置中,而不管在随后的时间间隔中的任意的语音活动。

在这个替换的实施例中,如果用户在参与者的视频或化身306中做出选择,其中所述参与者的已经被钉住,则视频或化身306的位置在舞台区域302和名单区域304之间进行切换,并且所述参与者将在随后的时间间隔中遵守正常的规则。

参照图6c,在另一个替换的实施例中,用户可以通过点击当前被显示在舞台区域302中的、活跃的参与者的视频或化身306来激活手动超控,并且当前在舞台区域302中的任意其他的参与者被降下到名单区域304中。降下的参与者保持被钉到名单区域304,而所选择的参与者保持被钉到舞台区域302。

在这个实施例中,当用户点击当前被显示在名单区域304中的、不活跃的参与者的视频或化身306时,所选择的参与者被提升并被钉到舞台区域302,并且当前正在舞台区域302中显示的任意其他参与者被降下并被钉到名单区域304。以这种方式,单个参与者被钉到舞台区域302,而所有其他参与者被钉到名单区域304。所有参与者保持被钉住,而不管随后的时间间隔中的任意语音活动。在这个实施例中,手动超控被终止,并且在用户点击显示到名单区域304的左手侧的‘播放’按钮308后,参与者在随后的时间间隔中返回到遵守正常规则。

参照图7a、7b和7c,现在将描述用来进一步降低屏幕上的移动的数量的实施例。

在这个实施例中,在说话最多的参与者和说话很多的存档参与者之间做出区分。舞台区域中的槽的数量因此可以进行调整。

在这个实施例中,呼叫以名单区域304中的每一个人开始。参与者一旦接起,其就被提升到舞台区域,其添加一个槽,直到在舞台上示出两个槽。接着,后面接起的参与者取代较不活跃的说话者,而同时在舞台上维持最大两个槽。在这个启动期期间内,所述舞台有最大两个槽可用来显示接起和说话的参与者。所有其他参与者被示出在名单区域中。在启动期后,如果存大部分时间在说话的单个参与者,则所述布局可以在舞台上改变成一个槽。在启动期后,如果存在说很多话的三个或更多个参与者,则所述布局可以在舞台上改变成示出三个槽。

在这个实施例中,说话者基于他们的语音活动在模板中占用槽。

图7a、7b和7c示出了显示器300的三种可能的模板。图7a、7b和7c中的模板示出了主要的说话者702,其比次要的说话者706更突出地被显示,次要的说话者706本身比呼叫中的观众参与者704更突出地被显示。应当理解,具有针对参与者的不同布局的任意数量的模板可以被使用,并且图7a、7b和7c中示出的例子不以任何方式进行限制。

模板的选择由比较器206结合时序分析块206通过分析会话强度被自动地完成。会话强度由在时间的一定间隔内所述会话中牵涉到多少人来定义。

最低强度的会话是当没有人在说话时。随着在时间的一定间隔内所述视频中说话的参与者的数量被增加,会话强度越高。

图7a示出了当主要说话者702在视频呼叫中向观众704讲话时从存储器储存装置208发送到显示器驱动器210的模板 。

当主要说话者702正在讲话时,时序分析块205监控观众704的语音活动来确定会话强度是否已经改变。

在一种情景中,主要说话者702可能正通过视频呼叫向观众704作报告,在这期间,主要说话者702可能完成他的报告并传递给观众704中的参与者之一。在该情景中,倘若在时间的所述一定的间隔内保持仅一个参与者正在说话,则会话强度将不改变,因此所述模板将保持不变。新的主要说话者将取代先前的主要说话者并因此被更突出地显示。所述取代是瞬时的,从而使屏幕上的移动的数量最小化。

当时序分析块205和比较器206检测到存在主要说话者702时,所述主要说话者702的终端上的显示区域300不从它的当前模板被改变。在这种情况下,模板中的槽被配置成通过在某一时间期(例如,每10秒)上不断地轮流交换来显示所述呼叫中的所有其他参与者的视频或化身306,所述参与者占用所述槽。主要说话者702因此被提供有模拟报告情景的显示区域300,凭此所述主要说话者可以环顾他的观众中的每一个人。

在另一个情景中,在由主要说话者702进行的报告期间(其中,图7a中示出的模板正在被使用),观众中的参与者之一704可能被牵涉到所述报告中,并且因此会话强度将增加到两个参与者。时序分析块205将检测会话强度中的所述增加,并且比较器206将改变所述模板来显示所述两个参与者,如图7b中示出的。

如图7b和7c中示出的,可能从存储器储存装置208发送到显示器驱动器210的模板可以具有针对主要说话者702、次要说话者706和观众704的一个或多个位置。当比较器206检测会话强度中的改变时,比较器206将或者改变所述模板,或者将自动地控制所述显示器驱动器210来根据他们的语音活动在所述模板中提升/降下参与者,而不改变所述模板。

例如,参照图7b,如果观众704中的参与者被牵涉到会话中,则新的说话者将取代最不活跃的主要说话者702。类似地,参照图7c,如果观众704中的参与者被牵涉到所述会话中,则新的说话者将取代最不活跃的次要说话者706。在这两种情景中,取代是瞬时的,从而使屏幕上的移动数量最小化。

应当理解,在这个实施例中,屏幕上的移动的数量可以通过改变显示器300上的、用户的位置而不改变所述布局被降低。这确保了针对视频呼叫中的用户的更加稳定的用户体验。

在进一步的实施例中,说话者基于他们的语音活动占用模板中的槽,然而,模板的选择不由比较器206结合时序分析块205自动地完成。在这个实施例中,在用户终端上执行的通信客户端110从存储器储存装置208选择要被发送到显示器驱动器210的模板。

在这个实施例的一个实施方案中,通信客户端110接收比较器206的输出来确定呼叫期间的活跃的参与者的平均数量,并且从存储器储存装置208中选择适当的模板。在这个例子中,通信客户端110可以确定在所述呼叫内的多个时间期中的活跃的参与者的数量,并且然后取平均。应当理解,在所述呼叫期间的活跃的参与者的平均数量可以在所述呼叫的整个长度上、最后Z秒或在预定时间期内被确定。

在这个实施例的另一个实施方案中,通信客户端110通过确定针对所述呼叫中的每个参与者的语音活动的持续时间来确定在所述呼叫的参与者之间的会话交互多强,从存储器储存装置208选择适当的模板然后基于这种确定被进行。应当理解,针对所述呼叫中的每个参与者的语音活动的持续时间可以在所述呼叫的整个长度、最后Z秒或在预定时间期内被确定。如果所述呼叫中的参与者中的每一个的语音活动的持续时间在预定持续时间之下,则所述通信客户端110可以从存储器储存装置208选择模板,所述模板在用户接口的舞台区域302中包括多个显示位置。

在这个实施例的另一个实施方案中,如果呼叫中的未中断的语音活动的持续时间在预定持续时间之上,则所述通信客户端110可以从存储器储存装置208选择模板,所述模板在用户接口的舞台区域302中包括单个显示位置(如图7a示出的)。相比于在先前的实施方案中描述的预定持续时间,这个预定持续时间可以是相同的或不同的长度。应当理解,呼叫中的未中断的语音活动的持续时间可以在所述呼叫的整个长度、最后Z秒或在预定时间期内被确定。

在替换的实施例中,模板的选择由用户完成。在这个实施例中,模板可以在用户接口中被显示给用户,所述用户接口是由客户端提供的并被显示在用户终端上。用户可以通过在由客户端提供的用户接口中进行选择来访问模板,这可以通过选择图标、选择下拉菜单或打开文件夹等等。

响应于在用户接口中的对模板的用户选择,所选择的模板被从存储器储存装置208发送到显示器驱动器210来在用户的终端上显示所选择的模板。

一旦模板已经被用户选择,呼叫中的参与者将根据呼叫期间的会话强度来在模板中占用槽。当比较器206检测会话强度中的改变时,所述比较器206将自动地控制显示器驱动器210来根据他们的语音活动在所述模板中提升/降下参与者,而不改变所述模板。

在这个实施例中,用户可以在建立呼叫的过程中或在呼叫已经开始后选择模板。一旦模板已经被选择,取代模板可以在呼叫期间被用户选择。

在本发明的实施例中,与瞬时取代相反,显示器驱动器210实施转换技术来平滑地和快速地改变显示区域300的特征。例如,当比较器206检测到新的说话者应当取代在模板中(诸如图7a、7b或7c中的模板但不限制于此)的另一个说话者时,或者当用户实施手动超控时,新的说话者的视频或化身306可以被淡入以取代同时被淡出的先前的说话者的视频或化身306。所述淡入-淡出取代转换将典型地花费0.3秒。

当改变所述显示模板时,转换的另一种形式被实施。当额外的槽被引入来显示在显示区域300中的另一参与者时,已有的槽被摇(panned out)出以便为新的槽让出空间,所述新的槽淡入进新创建的空间。当降低显示区域300中的槽的数量时,相反的转换发生,即要被移除的槽淡出,剩下的槽摇入。淡入/淡出典型地花费0.3秒,而摇入/摇出典型地花费0.2秒。

尽管本发明已经参照优选的实施例被具体地示出和描述,但是本领域的技术人员应当理解,在不背离如所附权利要求定义的本发明的范围的条件下,可以进行在形式和细节上的各种改变。

权利要求书(按照条约第19条的修改)

1.一种控制被显示在用户终端上的用户接口来显示呼叫的参与者的方法,所述方法包括:

将多个预定显示配置存储在所述用户终端的存储装置中;

经由所述用户接口从所述呼叫中的用户接收选择信号,以及响应于接收所述选择信号,从所述存储装置选择预定显示配置中的一个;和

监控所述呼叫中的参与者的语音活动。

2.根据权利要求1的方法,进一步包括根据所述呼叫中的参与者的语音活动来在所选择的预定显示配置的多个位置中显示所述呼叫的参与者。

3.一种控制用户接口根据参与者在呼叫中的语音活动来显示所述呼叫的参与者的方法,所述方法包括:

监控所述呼叫中的参与者的语音活动;

根据参与者在所述呼叫的最小时间期上的语音活动来确定某个参与者在所述呼叫中是活跃的参与者还是不活跃的参与者,

其中响应于确定参与者是活跃的参与者,在所述用户接口的第一区域中显示所述参与者,其中不活跃的参与者被显示在所述用户接口的第二区域中,所述用户接口的所述第一区域大于所述用户接口的所述第二区域,其中多个活跃的参与者中的每个被显示在所述用户接口的第一区域中。

4.根据权利要求3的方法,其中显示所述参与者的步骤包括显示表示参与者的图像。

5.根据权利要求3或4的方法,其中所述确定的步骤在所述呼叫期间在预定时间间隔上被实施,以及其中每个参与者在用户接口的第一和第二区域间的自动转换响应于在所述预定时间间隔上的确定步骤被实现。

6.根据权利要求3到5中的任一项的方法,其中当新的参与者加入所述呼叫时,参与者在第一和第二区域间的自动转换在某一时间期后被实现。

7.根据权利要求3到5中的任一项的方法,其中当参与者离开所述呼叫时,参与者在第一和第二区域间的自动转换在某一时间期后被实现。

8.根据权利要求3到7中的任一项的方法,其中如果所述呼叫中的某一参与者的语音活动在预定门限之上达所述最小的时间期,则所述参与者被确定是活跃的参与者。

9.根据权利要求6或7的方法,其中如果所述最小时间期内的语音活动间的暂停的预定数量没有被超过,则参与者被确定是活跃的参与者。

10.根据权利要求3到9中的任一项的方法,其中确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者针对每个参与者被单独地评估。

11.根据权利要求3到9中的任一项的方法,其中确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者是基于所述呼叫中的所有参与者的语音活动间的比较的。

12.根据权利要求3到11中的任一项的方法,其中当参与者和一个或多个其他参与者的所述语音活动同时发生时,在所述呼叫期间说话最多的参与者在其他活跃的参与者之前被显示在所述第一区域中。

13.根据权利要求11的方法,其中当参与者和一个或多个其他参与者的所述语音活动同时发生时,在所述呼叫期间说话最少的参与者在其他参与者之前被从所述第一区域移动到所述第二区域。

14.根据权利要求3到13中的任一项的方法,其中当参与者从所述用户接口的第一区域向第二区域的转换发生时,最近被转换到第二区域的参与者被最远地显示到所述第二区域的一侧。

15.根据权利要求3到14中的任一项的方法,其中参与所述呼叫的用户将他们自己的图像显示在所述用户接口的所述第二区域的一侧。

16.根据权利要求3到15中的任一项的方法,其中用户接口的所述第二区域被配置成可滚动的区域,由此当所述呼叫中存在比一次可以被显示在所述用户接口的第二区域中的更多的不活跃的参与者时允许滚动。

17.根据权利要求15和16的方法,其中所述用户的自己的图像不形成所述可滚动区域的一部分,并且其被固定在所述用户接口的第二区域中。

18.根据权利要求3到17中的任一项的方法,其中在开始所述呼叫前进行的所述呼叫的连接期间,参与者被布置在所述用户接口的第一区域、第二区域、或第一和第二区域两者中。

19.根据权利要求18的方法,其中所述第一区域和第二区域中的参与者每个都按字母顺序被布置。

20.根据权利要求3到16中的任一项的方法,其中手动超控包括手动地控制所述用户接口在所述用户接口的第一或第二区域中显示参与者,而不管语音活动。

21.根据权利要求20的方法,其中所述手动超控控制所述用户接口在所述用户接口的第一或第二区域中显示参与者,而不管在随后的时间间隔上的确定步骤的结果。

22.根据权利要求21的方法,其中所述手动超控控制所述用户接将一个参与者显示在所述用户接口的第一区域中,并将所有其他的参与者显示在所述用户接口的第二区域中。

23.根据权利要求20的方法,其中在开始随后的时间间隔的确定步骤后,所述手动超控被终止。

24.根据权利要求20到22中的任一项的方法,其中在用户点击被显示到所述用户接口中的第二区域的一侧的播放按钮后,所述手动超控被终止。

25.根据权利要求16的方法,其中所述参与者被布置在预定显示配置的集合的一个配置中的显示器上,所述一个配置根据所述比较被选择。

26.根据权利要求25的方法,其中参与者在预定显示配置的区域间的自动转换响应于在所述预定时间间隔上的确定步骤被实现。

27.根据权利要求25的方法,其中预定显示配置的集合中的另一个配置按在随后的时间间隔上的确定步骤的结果被选择。

28.根据权利要求25的方法,其中当确定所述呼叫中存在一个活跃的参与者时,所述活跃的参与者的当前选择的预定显示配置响应于所述确定并不改变。

29.根据权利要求28的方法,其中除了所述一个活跃的参与者之外的所有呼叫参与者被显示在所述一个活跃的参与者的用户接口的当前选择的预定显示配置的区域中。

30.根据权利要求29的方法,其中在某一时间期后,被显示在当前选择的预定显示配置的区域中的所述参与者被全部交换成任意其他呼叫参与者。

31.根据权利要求30的方法,其中所述呼叫参与者全部不断地轮流交换;每次交换在预定时间期后发生。

32.根据权利要求27的方法,其中当所述预定显示配置中的另一个被选择时,现在被显示在所述用户接口中的任意额外的参与者通过现有显示的参与者摇出并为要被显示的新的参与者让路而被接纳,所述新的参与者在某一时间期上被淡入。

33.根据权利要求27的方法,其中当所述预定显示配置中的另一个被选择时,现在将被从所述用户接口移除的任意参与者在某一时间期上被淡出,以及剩余的被显示的参与者摇入以便填充已移除的参与者留下的空间。

34.根据权利要求3到33中的任一项的方法,其中在所述预定显示配置的区域间的自动转换、在所述用户接口的第一和第二区域间的自动转换、以及被显示的呼叫参与者的交换被配置成在某一时间期上逐步地淡出现有的参与者显示图像以及在同期时间上逐步地淡入新的参与者显示图像。

35.一种计算机程序产品,所述程序包括代码,当其在处理器上被执行时,执行权利要求1到34中任一项的步骤。

36.一种用户终端,其被控制来根据参与者在呼叫中的语音活动显示所述呼叫的参与者,所述用户终端包括:

显示器,被配置来显示具有第一和第二区域的用户接口,用户接口的所述第一区域大于用户接口的所述第二区域;

用于监控所述呼叫中的参与者的语音活动的装置;

用于根据参与者在所述呼叫的最小时间期上的语音活动确定某一参与者在所述呼叫中是活跃的参与者还是不活跃的参与者的装置;和

用于控制所述用户接口根据所述确定来显示所述呼叫的参与者的装置,其中响应于确定参与者是活跃的参与者,所述活跃的参与者被显示在所述用户接口的第一区域中,以及不活跃的参与者被显示在所述用户接口的第二区域中,所述用户接口的所述第一区域大于所述用户接口的所述第二区域,其中多个活跃的参与者中的每个被显示在所述用户接口的所述第一区域中,其中多个活跃的参与者中的每个被显示在所述用户接口的所述第一区域中。

37.一种根据权利要求36的用户终端,其中用于确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者的装置包括:

用于使用所述最小时间期内的时间间隔的预定集合分析所述参与者的语音活动并输出所分析的语音信号的装置;和

用于将所分析的语音信号与针对所述最小时间期的预定门限进行比较的装置。

38.根据权利要求36或37的用户终端,其中用于控制所述用户接口的装置被连接来从所述用户接口接收手动超控输入,以便在所述用户接口的第一或第二区域中显示参与者,而不管语音活动。

39.根据权利要求36到38中的任一项的用户终端,进一步包括用于存储预定显示配置的集合的装置,其中所述预定显示配置中的一个响应于确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者被选择。

40.一种通信系统,包括连接到通信网络的多个用户终端,其中所述多个用户终端中的至少一个用户终端是依照权利要求36到39中的任一项的。

41.一种控制被显示在用户终端上的用户接口根据参与者在呼叫中的语音活动来显示所述呼叫的参与者的方法,所述方法包括:

监控所述呼叫中的参与者的语音活动;

针对所述呼叫中的参与者中的每个,根据参与者在所述呼叫的最小时间期上的语音活动来确定参与者在所述呼叫中是活跃的参与者还是不活跃的参与者;和

控制所述用户接口显示第一和第二区域,以及响应于至少所述确定,控制所述用户接口在所述用户接口的第一和第二区域的所选择的一些中显示所述呼叫中的参与者,其中多个活跃的参与者中的每个被显示在所述用户接口的所述第一区域中。

42.根据权利要求41的方法,进一步包括将多个预定显示配置存储在所述用户终端上的存储装置中,以及根据所述确定从所述存储装置中选择所述预定显示配置中的一个,其中所选择的预定显示配置在所述用户接口中显示所述呼叫的参与者。

43.根据权利要求42的方法,其中通信客户端应用在所述用户终端上被执行,并且响应于确定所述通信客户端应用的步骤,从所述存储装置中选择所述预定显示配置中的一个。

44.根据权利要求42的方法,其中所述确定的步骤在所述呼叫的多个时间期上被执行,以及所述预定显示配置中的一个根据在所述多个时间期上所述呼叫中的活跃参与者的平均数量被从所述存储装置中选择。

45.根据权利要求41的方法,其中所述用户接口的所述第一区域大于所述用户接口的所述第二区域。

46.根据权利要求41的方法,其中如果所述呼叫中的参与者中的每个的语音活动的持续时间在预定持续时间之下,则在所述用户接口的所述第一区域中显示多个所述参与者。

47.根据权利要求46的方法,其中所述显示的步骤包括从所述存储装置中选择预定显示配置,所述预定显示配置在所述用户接口的所述第一区域中具有多个显示位置。

48.根据权利要求41的方法,其中如果所述呼叫中的未中断的语音活动的持续时间在预定持续时间之上,则在所述用户接口的所述第一区域中显示单个参与者。

49.根据权利要求48的方法,其中所述显示的步骤包括从所述存储装置中选择预定显示配置,所述预定显示配置在所述用户接口的所述第一区域中具有单个显示位置。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号