首页> 中国专利> 周围电话系统中的对话检测

周围电话系统中的对话检测

摘要

一种使用电信系统控制至少一个设备(8,12,13,20-25)的方法,包括:获得传送来自至少一个远程电信终端(1,2)和来自用于与至少一个本地输出设备(17-19)形成至少一个本地电信终端的至少一个本地输入设备(14-16)的信息的信号,连接在远程和本地电信终端之间是打开的;使用至少一个用于检测与对应电信终端(1,2,8,12,13)的用户之间的对话轮换相应的类型的交互的准则随着时间相对于彼此分析从所述电信终端(1,2,8,12,13)中的至少两个传送的信息(40,41);以及当确定是否满足所述至少一个准则时调节至少一个用于控制设备(8,12,13,20-25)的输出信号。

著录项

  • 公开/公告号CN102160335A

    专利类型发明专利

  • 公开/公告日2011-08-17

    原文格式PDF

  • 申请/专利权人 皇家飞利浦电子股份有限公司;

    申请/专利号CN200980136665.2

  • 发明设计人 A·S·哈马;

    申请日2009-09-09

  • 分类号H04L12/28;H04M3/56;G10L15/00;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人孙之刚

  • 地址 荷兰艾恩德霍芬

  • 入库时间 2023-12-18 03:04:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    未缴年费专利权终止 IPC(主分类):H04L12/28 专利号:ZL2009801366652 申请日:20090909 授权公告日:20150128

    专利权的终止

  • 2015-01-28

    授权

    授权

  • 2011-11-23

    实质审查的生效 IPC(主分类):H04L12/28 申请日:20090909

    实质审查的生效

  • 2011-08-17

    公开

    公开

说明书

技术领域

本发明涉及使用电信系统控制至少一个设备的方法。本发明还涉及电信系统和计算机程序。

背景技术

H?rm?, A., “Ambient telephony: scenarios and research challenges”, Proc. INTERSPEECH 2007, August 2007给出了开发用于家庭环境的全规模周围电话方面的技术挑战的综述。周围电话是基于扩音器和麦克风的阵列的扬声器电话系统,所述扩音器和麦克风分布在家庭环境中并且经由家庭网络彼此连接。该系统可以经由连接到因特网、蜂窝电话网络以及可能的传统地面线路的中心设备接收来自任何源的呼叫。音频再现可以以空间选择的方式执行。例如,用户可以与另一人进行对话,使得另一人看起来随着谈话者从一个房间到另一个房间平稳地移动,或者使得存在若干同时打开的连接并且在家庭环境的空间分开的位置中获得联系。从一个设备和一个空间位置到另一个设备和空间位置移动呼叫的可能性是周围电话的中心特征之一。

在其中到远程呼叫者的若干同时连接在任一时刻打开的方案(scenario)中,一些远程呼叫者实际上可能不在任何给定时间存在。如果周围电话系统能够在基本上不使其使用复杂化的情况下适应变化的使用要求,那么这将是有用的。

发明内容

希望的是提供一种上述类型的方法、系统和计算机程序,其在其中到远程终端的连接打开的方案中允许使电话系统适应变化的要求而无需来自用户的大量显式输入。

所述方法被提供,其包括:

- 获得传送来自至少一个远程电信终端和来自用于与至少一个本地输出设备形成至少一个本地电信终端的至少一个本地输入设备的信息的信号,连接在远程和本地电信终端之间是打开的;

- 使用至少一个用于检测与对应电信终端的用户之间的对话轮换(turn-taking)相应的类型的交互的准则随着时间相对于彼此分析从所述电信终端中的至少两个传送的信息;以及

- 当确定是否满足所述至少一个准则时调节至少一个用于控制设备的输出信号。

通过使用至少一个用于检测与对应电信终端的用户之间的对话轮换相应的类型的交互的准则随着时间相对于彼此分析从所述至少两个电信终端传送的信息,可以检测打开的一个或多个连接是否被使用。用户不必为系统提供任何附加的命令以检测对话是否正在进行。可以根据与外部呼叫者的对话是否正在进行通过向所述至少一个设备提供适当的输出信号而适应性调节本地环境。例如,可以根据与外部呼叫者的对话是否正在进行而使提供听觉输出的设备静音。所述方法考虑了以下事实:许多类型的电信网络允许连接对于用户具有很少边际成本或者没有边际成本地持久地打开。对于这样的网络,打开的连接由于延长的时间段而可能未被有效使用。事实上,所述方法提供了一种用于这样的网络的存在性管理。

应当注意到,US2005/0251386公开了一种对话检测器,该对话检测器包括:信号预调节器,其响应来自对象的源音频信号并且产生预强调信号;比较器,其耦合来接收预强调信号并且产生分辨率和采样率降低且指示预强调信号的至少一个特性的脉冲;以及分析单元,其响应产生的脉冲并且利用自适应规则和指示的预强调信号的特性以便从中确定对象进行的对话的存在性。

该已知的系统仅仅使用了来自一个麦克风或其他源的源音频信号以便捕获口头表达。不存在以下公开内容:获得传送来自连接在其间打开的至少两个电信终端的信息的信号。由此可见,也不存在以下公开内容:使用至少一个用于检测与对应电信终端的用户之间的对话轮换相应的类型的交互的准则随着时间相对于彼此分析从所述至少两个电信终端传送的信息。事实上,该已知的系统只能区分语音和背景噪声。

进一步注意到,US6766019公开了一种用在声学回声消除器中的双向谈话检测方法,所述声学回声消除器用于降低接收室中产生的不希望的回声,该接收室接收包含进入的语音的远端信号并且产生其中具有不希望的回声的返回信号。该方法包括计算归一化互相关估计,该归一化互相关估计代表通过远端信号的协方差归一化并且进一步通过返回信号的方差归一化的远端信号与返回信号之间的互相关。

该已知的系统并不执行随着时间的从所述至少两个电信终端传送的信息的分析,并且所述分析没有使用至少一个用于检测与对应通信终端的用户之间的对话轮换相应的类型的交互的准则。相反地,执行了进入信号与本地输入信号是否相同(指示回声)的瞬时分析。

本方法的一个实施例包括随着时间相对于彼此分析从所述电信终端中的至少两个传送的音频信息。

与例如视频信息形成对照的是,特定阈值音量以上的音频信息将以与源对对话的贡献相应的脉冲串出现。这使得确定两个或更多音频信号的源之间的对话类交互的存在性相对容易。无需语音识别,而基于视频信息确定对话类交互通常将要求用于检测对话类交互的图像分析。该分析可以包括例如基于脸部检测和分析检测嘴唇运动,自动手势识别,例如语音活动期间手的运动,以及聆听和谈话期间的(虚拟)眼睛接触。应当指出的是,在该实施例中并没有排除视听信号的分析。与文本消息相比较,音频信息更适合分析以便检测与对话轮换相应的类型的交互。文本消息通常也会要求至少分析主题标题以确定它们是否涉及特定讨论,例如电子论坛上主办的讨论。通常,仅仅基于到这种论坛的贴子的时间流检测对话是困难的。

该实施例的一个变型包括在检测到与电信终端的对应用户之间的对话轮换相应的类型的交互时建立电信终端之间的视频链接。

关于这点,建立可以简单地表示从远程终端接收的视频信号现在在先前没有提供这样的输出的本地输出设备上再现,而不管视频信号是否可用。在该变型中已经实现的效果在于,使得屏幕空间在其他时间可用于其他用途,例如再现视频内容,如电视广播、相片图像等等。然而,优选地,当建立视频链接时,视频数据通信开始,从而作为附加的效果,经济地利用了可用的带宽。

在一个实施例中,向至少一个设备提供输出信号以便产生听觉输出,其中该输出信号引起听觉输出音量的调节。

效果在于,增加了传送到例如本地电信终端的语音信息的可理解性。这种终端的用户可以以适合于充分欣赏音乐的音量聆听音乐,直到自动地确定对话已经开始。

本方法的一个实施例包括,当确定在本地电信终端的至少一个用户以及远程电信终端中的特定终端的用户方面没有满足所述至少一个准则时,使得来自该特定远程电信终端的信息停止由至少一个本地输出设备复现。

效果在于,远程电信终端的用户不必通过中断该终端与本地终端之间的连接的预定命令主动地终止呼叫。尤其是在允许连接以很少的额外成本或者没有额外成本地保持打开的系统中,这确保了来自远程电信终端的信号不在本地电信终端的环境中连续地复现。在话音通信系统的情况下,本地用户不经受来自远程电信终端的背景噪声的持久刺耳的声音。

所述方法的一个实施例包括,当确定在与多个本地输入设备和本地输出设备有关的特定位置处的用户以及特定远程电信终端的用户方面没有满足所述至少一个准则时,使得从该特定远程电信终端传送的信息在本地输出设备的选定子集处复现。

效果在于,允许调节周围电话系统,其中连接“跟随”用户从建筑物内的一个位置到另一个位置。在该变型中,只有到特定用户与其进行对话类交互的那些远程呼叫者的连接才随着用户移动。一方面,这意味着当用户移动时,更少的连接必须移动。另一方面,可以向本地电信终端的两个或更多用户中的每一个提供仅仅来自他们与其进行对话的那些外部呼叫者的信息。尤其是在所述两个或更多用户处于不同房间中的情况下,这使得对话更清楚,防止混淆或者甚至不能听见通信伙伴。

所述方法的一个实施例包括,当确定在所述至少一个本地电信终端的至少一个特定用户方面没有满足所述至少一个准则时,根据至少一个本地输入设备接收的输入调节至少一个用于控制设备的输出信号。

效果在于,允许按照若干不同的使用方案调节本地电信终端处的环境设置。特别地,即使在没有确定引起至少一个本地输入设备接收的输入的用户参与对话的情况下,该输入的存在性也用作例如开始用于话音激活的用户接口的语音分析或者使环境适于两个本地用户之间的对话的线索。输入完全不存在可能导致另一组调节,例如将形成本地电信终端的所有设备移入“备用”模式。

所述方法的一个实施例包括,当确定在电信终端的用户方面满足所述至少一个准则时,利用状态指示器通过通信网络传送与用户关联的标识。该标识可以是用户与其关联地注册的终端。消息可以广播或者以另外的方式传输到覆盖网络,该覆盖网络可以是与用来传送被分析的信息以便检测与对话轮换相应的交互的网络不同的网络。效果在于,自动地实现存在性管理系统,其特别地不依赖于显式用户输入。

所述方法的一个实施例包括,当检测到与传送来自多个本地输入设备中的少于全部本地输入设备的信息的本地用户和特定远程电信终端的用户之间的对话相应的类型的交互时,调节信息从其传送到该特定远程电信终端的本地输入设备的选择。

效果在于,远程用户接收更少的背景噪声。来自本地用户的信息对于远程用户更可理解。

一个实施例包括,当检测到与传送来自多个本地输入设备中的少于全部本地输入设备的信息的本地用户和任何远程电信终端的用户之间的对话相应的类型的交互时,基于这些本地输入设备的已知位置推断本地用户的位置。

特别是在所述信息为音频信息的情况下,这种基于音频的定位方法与本文提出的对话检测方法结合变得强大得多。特别地,这意味着该定位方法仅通过使用被确定为携带用户对对话类交互的贡献并且没有携带例如背景噪声的信号来实现。

所述方法的一个实施例包括检测在仅仅远程电信终端的组的用户方面满足所述至少一个准则,以及

- 将至少一个用于标识所述远程终端组的信号提供给用于建立仅仅形成所述组的远程终端之间的直接连接的系统。

效果在于,尤其是在周围电话系统中包含了本地电信终端的情况下,消除了不必要的呼叫中继和大量背景噪声。

依照另一个方面,依照本发明的电信系统包括:

- 用于通过电信网络建立至少一个远程电信终端与形成至少一个本地电信终端的至少一个本地输入设备和至少一个本地输出设备的组件之间的连接的设备;

- 信号处理系统,其用于处理传送来自所述电信终端中的至少两个的信息的信号,连接在所述电信终端之间是打开的,

其中该信号处理系统被设置成使用至少一个用于检测与对应电信终端的用户之间的对话轮换相应的类型的交互的准则随着时间相对于彼此分析从所述至少两个电信终端传送的信息;以及

- 接口,其用于提供控制至少一个设备的输出信号,其中所述系统被设置成当确定所述至少一个准则是否被满足时根据该确定的结果调节输出信号。

所述电信系统响应情况的变化而无需来自用户的显式命令。

在一个实施例中,所述系统被设置成执行依照本发明的方法。

依照本发明的另一方面,提供了一种包含一组指令的计算机程序,其在结合到机器可读介质中时,能够使得具有信息处理能力的系统执行依照本发明的方法。

附图说明

下面将参照附图描述本发明,在附图中:

图1示意性地示出了包括两个远程终端的通信网络中的周围电话系统;

图2示意性地示出了周围电话系统中的个人(individual)电话设备的功能部件;

图3示意性地示出了周围电话系统中的主电话或代理电话的功能部件;

图4示意性地示出了代表来自有效(active)对话中的两个用户的语音信号的两个通道中的语音活动;以及

图5为示出若干方式的流程图,在这些方式中,对话检测用来控制周围电话系统中的会话管理、发起和终止。

具体实施方式

通过举例的方式,图1中示出了连接到电信网络3的两个远程终端1、2。具有三个空间5-7的建筑物4形成具有到网络3的至少一个连接的本地环境。

网络3是广域网,并且可以例如包括蜂窝电话、POTS网络或宽带互联网络。通信可以经由直接连接进行,但是优选地为基于数据分组的。在下文中,将假设通信是基于话音的,具有可选的视频图像,例如视频会议应用的情况。相同的原理也应用于个人之间的其他信息通信方法,包括文本消息传送、在公告牌上发布消息等等。在这些其他实例中,像在本实例中一样,使用至少一个用于检测与对应终端的用户之间的对话轮换相应的类型的交互的准则随着时间相对于彼此分析从远程终端1、2以及从建筑物4中的实际或虚拟本地终端传送的信息。检测的对话用来控制周围电话系统中的会话发起、终止和管理以及可选地控制建筑物4中的设备。有关检测的对话的信息也用来由周围电话系统控制音频再现和捕获。

网络连接性越来越基于其中不计呼叫分钟的统一费率订购模型(flat-rate subscription model)。因此,常见的是具有非常长时间的呼叫,这些呼叫不再打开或关闭,而是以许多不同的方式部分地打开。因此,将存在许多情形,其中存在对若干远程终端1、2打开的连接,而没有连接由用户用来传送信息。例如,用户可以在甚至不在他的计算机附近的情况下登录对等覆盖网络。

在所说明的实施例中,周围电话系统由个人联网电话单元构成,这些单元优选地使用无线网络连接。然而,这里概述的原理也适用于这样的系统,其中多个麦克风和扩音器连接到相同的电话系统,例如家庭内部通信系统或有线电话系统。这里概述的方法在这个实例中由周围电话系统执行,从而在呼叫者与用户之间进行区分,呼叫者用来指远程终端1、2的用户并且用户用来指建筑物4内的个人。

主电话单元8包括到电信网络3的接口,并且单独地示于图3中。在所示的实例中,存在到因特网、普通老式电话系统和蜂窝电话网络的接口9-11。在可替换的实施例中,可以使用更少的和其他类型的接口。在其他的个人电话单元12、13经由主电话单元8与远程终端1、2通信的意义上,也可以将主电话单元看作代理电话单元。个人电话单元中的第一个12详细地示于图2中,其他的单元是相同的。主电话单元8包括图1中所示的周围电话系统中的个人电话单元。

每个个人电话单元12、13和主电话单元8与至少一个麦克风14-16和至少一个扬声器17-19接口。在所示的实施例中,第二个人电话单元13以及主电话单元8中包含的个人电话单元也与对应相机20、21和显示设备22、23接口。输出信号可以从第二个人电话单元13提供给外部照明设备24以及诸如收音机或电视机之类的娱乐设备25。这些连接中的一个或多个也可以经由无线网络或者用于家庭自动化的某种网络实现。

参照图2,对于个人电话单元12操纵的到远程呼叫者的每个连接提供单独的呼叫单元26。接口27包括解码器和输入缓冲器。在所示的实例中,接口27包括包含G.722解码器和输入缓冲器的RTP(实时分组协议)套接字接口。它接收来自IP(互联网协议)套接字(未示出)的RTP数据。

再现单元28使得解码的音频数据能够由扬声器17再现。它至少部分地在控制单元29的控制下操作,该控制单元也实现几何模型,并且反过来从主电话单元8接收例如依照SIP(会话发起协议)协议且作为基于IP的TCP(传输控制协议)分组而携带的消息形式的控制信号。延迟线30被提供用于向输入信号处理单元31提供参考信号。该参考信号使得输入信号处理单元31能够执行声学回声消除。输入信号处理单元31也执行自动增益控制,并且可以执行其他的信号处理功能以便提供携带来自用户的音频信息的信号。输入信号处理单元31也接收来自控制单元29的控制信号。该输入信号处理单元将携带音频信息的信号提供给G.722解码器和输出RTP套接字32并且提供给语音活动检测(SAD)系统33。

典型的SAD系统33使用这样的算法,该算法根据短的音频片段计算一定数量的特性特征并且使用这些特性特征确定声音片段是否是语音、非语音或者静音。可以执行任何类型的语音活动检测(也称为话音活动检测)算法。在以下文献中给出了若干实例:

Bhou-Gazale, S. and Assaleh, K., “A robust endpoint detection of speech for noisy environments with application to automatic speech recognition”, Proc. ICASSP 2002, Orlando, Florida, May 2002;

Davis, A. et al., “Statistical voice activity detection using low/variance spectrum estimation and an adaptive threshold”, IEEE Trans. on audio, speech and language processing, 14(2), 2006, pp. 412-424;以及

Huang, L, and Yang, C., “A novel approach to robust speech detection in car environments”, IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 3(5-9), 2000, pp. 1751-1754。

已经注意到,SAD系统33的功能也可以仅仅在主电话单元8中实现,其接收经由G.722解码器和输出RTP套接字32提供的信号。该功能也可以实现为输入信号处理单元31中执行的回声消除和语音增强算法的一部分。语音活动检测的输出经常是二进制值。它也可以是例如置信度值。针对预定持续时间间隔的语音活动检测的结果通过建筑物4中的网络发送到主电话单元8。

参照图3,主电话单元8为向其打开连接的每个外部呼叫者(在这种情况下与远程终端1、2相应)创建呼叫实例34。呼叫实例34利用语音增强功能35以提供携带音频信息的传输到个人电话单元12、13中的一个或多个的信号。该信号也经受语音活动检测36。语音增强功能35的输出和携带音频信息且与呼叫实例34关联的其他信号二者都在特别地输出到扬声器17-19中的一个或多个之前提交给剩余的AEC 37。

对话活动检测单元38接收来自第一个人电话单元12中的SAD系统33和其他个人电话单元中的相似系统二者以及来自语音活动检测功能36的输出,该语音活动检测功能应用到从呼叫实例34关联的远程终端1、2传送的信息。对话活动检测单元38的输出是代表使用关联的远程终端1、2的呼叫者与包括个人电话单元12、13中的一个或多个的环境中的本地用户之间的对话类交互的存在性的瞬时概率的值。这些输出被提供给主控制单元39以便控制周围电话系统本身或者其外部的设备,例如娱乐设备25或者外部照明设备24等等,如将要解释的。

可以以若干不同的方式检测对话轮换。参照图4,示出了两个音频信息流40、41,一个信息流来自远程终端1、2之一,并且另一个信息流来自个人电话单元12、13之一或主电话单元8的用户。后一流41事实上可以通过使用例如WO2007/086042中描述的分割技术将音频信号分割成与提供音频信息给电话单元8、12、13之一的若干用户之一关联的片段来获得。流40、41包括由SAD系统33和SAD功能36确定的静音时段42、43和语音时段44、45。

与对话轮换相应的交互类型的检测基于若干原理:

1. 对于大多数对话而言,在对话中,在任一时刻只有一个谈话者是活动的;

2. 谈话者轮流谈话,使得活动/静音谈话者的通道交替;

3. 两个通道中的连续静音意味着在参与者之间不存在活动的对话轮换;

4. 一个通道中的非交替语音活动意味着不存在通道之间的对话活动,而是存在例如由相同远程终端1、2拾取的两个呼叫者之间的对话;

5. 如果语音时段44、45与静音时段42、43之间的轮换在通道之间不同步,那么在所讨论的通道之间不存在对话轮换。这就是为什么随着时间相对于彼此分析流40、41的原因。

一种检测对话轮换的可能的算法如下:令n为音频帧标号并且pl(n)为通道l中的帧n包含SAD系统33或SAD功能36确定的语音的似然率。在一个简单的实例中,pl(n)的值可以是0(无语音)或者1(语音)。存在初始化为零的四个状态变量Presence1Presence2ConflictSilence。存在如下初始化的三个另外的状态变量:

g1 = 0.9;

g2 = 0.99;以及

g3 = 0.995。

以伪代码表示,该算法如下运行:

1. 确定通道1和2中的当前帧n的VAD状态并且评估:

if p1(n)>0 AND p2(n)==0,

Presence1 := g1*Presence1+(1-g1);

Presence2 := g2*Presence2;

Conflict := g2*Conflict;

Silence := g3*Silence;

end

if p2(n)>0 AND p1(n)==0,

Presence2 := g1*Presence2+(1-g1);

Presence1 := g2*Presence1;

Conflict := g2*Conflict;

Silence := g3*Silence;

end

if p2(n)>0 AND p1(n)>0,

Presence1 := g2*Presence1+(1-g2);

Presence2 := g2*Presence2+(1-g2);

Conflict := g1*Conflict+(1-g1);

Silence := g3*Silence;

end

if p2(n)==0 AND p1(n)==0,

Presence1 := g3*Presence1;

Presence2 := g3*Presence2;

Conflict := g3*Conflict;

Silence := g3*Silence+(1-g3);

end

Conversation(n)=Presence1+Presence2Conflict-Silence;

2.    n:=n+1 go to step 1。

Conversation(n)的当前值超过特定阈值时,检测到对话。因此,算法随着时间评估信息,因为它是后顾性的(backward-looking),状态变量确保Conversation的当前值基于在先音频帧的评估。同时,由于它是对话是否存在的连续演进的确定,因而它适合作为用于控制设备的输出信号的基础。

上面概括的基本方法可以尤其是根据可用的计算资源以各种不同的方式增强。例如,除了状态变量Presence1Presence2ConflictSilence之外或者作为这些状态变量的替代物,可以使用在更长的观测时段(若干音频帧)上计算的状态变量。这些状态变量包括在两个或更多信号中的若干分钟的语音活动检测值上计算的相关或互信息度量。

在自然对话中,聆听参与者经常向谈话者提供简短话语(“是的”、“好的”、“真的?”、“嗯”等等)形式的反馈。这经常称为反向通道语音活动。其可以基于这些话语简短(<1s)并且由相对较长的静音分开这一事实在来自远程终端1、2之一以及来自个人电话单元12、13之一或主电话单元8的用户的音频信息流40、41内单独地检测。反向通道活动检测可以用作附加的状态变量,或者它可以用来修改例如状态变量Conflict,其中仅当一定时间片段的重叠语音活动不代表来自另一谈话者的反向通道活动时检测到冲突(conflict)。

另外的特征可以从轮换的时间精细结构导出。例如,第二音频信息流41中的语音活动时段45的终点与第一音频信息流40中的后续语音活动时段44的起点之间的时间点以及相反情况之间的时间差值可以用作对话轮换的质量度量。在对话类交互的情况下,与非对话交互相比,对于说话者的若干变化测量的该时间差值具有稍微正的平均值和低的方差。在后一种情况下,时间差值具有零平均值和大的方差。

为了提高检测说话者变化的精度,可以利用音频信息内容的分析增强语音活动检测。特别地,对于音频信息流40、41,可以分析音高(pitch)。在许多语言中,说出的话语结束之前的上升的音高表示对另一谈话者的疑问。如果这接着是另一谈话者的语音活动,其可能地在小的停顿之后,那么这种类型的变化可以标记为问题-回答结构,其可以表征为用来检测对话类交互的对话模型中的特征(状态变量)。

应当注意到,上面详细地描述的算法基于使用一阶积分器确定的若干状态变量的动态时间演进。各种不同的线性和非线性滤波和积分算法可以用作可替换方案。

代替使用特征的线性组合以形成代表对话活动的似然率的特征Conversation,对话的检测可以基于不同于线性检测(或回归)模型的其他模型,包括基于判别分析、支持向量机和神经网络的各种不同类型的数据分类方法。

特征Conversation也可以是具有0与1之间的标度上的值的连续似然率变量,而不是二进制变量。

最后,代替使用固定参数以用于时间演进(g1g2g3)和检测逻辑(步骤2)的是,单独的技术可以用来最优化用于不同用户和呼叫者或者不同情境的参数。例如,可以单独地对于系统的每对对话伙伴或者每个本地用户和标识的定期远程呼叫者调整对话检测器。类似地,根据传送正被分析的音频信息的信号是来自第一或第二个人电话单元12、13还是来自主电话单元8,所述参数和/或检测逻辑可以不同。

对话检测的方法通常相当难于实时实现。然而,在诸如电信系统之类的中介环境(mediated environment)中,它们的实现在较低计算成本下变得可行,因为已经清楚每个音频信息流来自何处。这与在装有麦克风的房间中的人之间进行对话检测的系统形成对照,因为在那里所有的声音被捕获并且必须首先归属于房间中的各个人。

通常,建筑物4中的周围电话系统提供了一种空间音频输入/输出系统,该系统可以加以控制,使得当用户从空间5-7之一移动到另一空间时呼叫者跟随用户。也可能具有与环境中的不同用户的多个同时呼叫以及还有保留打开或驻留在特定位置,但是不活动的呼叫。在其中存在若干呼叫者,来自周围电话系统的与所述呼叫者的连接在任何给定时间打开的情况下,用户应当能够发信号告知系统哪个呼叫者打算移动。例如,如果第一用户正在第一空间5中与呼叫者A对话并且第二用户在相同空间中与呼叫者B对话,那么当第一用户移动到第二空间6时,系统确保只有到呼叫者A的连接移动到第二空间6。这要求跟踪用户,而且也要求确定第一用户参加的有效对话。该确定如下面参照图5解释的自动地执行。也存在呼叫者A和B只与彼此对话的可能性。在这种方案下,系统可以关闭周围电话系统与呼叫者A和B的远程终端1、2之间的连接。系统也可以检测仅局部地存在对话,即不涉及任何外部呼叫者的第一和第二用户之间的对话。

参照图5,给出了由周围电话系统执行且涉及尤其在电话/视频会议系统的会话管理情境中的各种示例性控制应用的方法的概要。

在上面已经详细说明的第一步骤46中,获得将来自远程终端1、2中的至少一个的信息传送到建筑物4中的周围电话系统的主电话单元8的信号。此外,个人电话单元12、13和主电话单元8获得携带来自用户的音频信息的信号。可选地(步骤47),如所解释的,将这些本地信号分割成来自不同用户的贡献。

然后,使用例如上面详细说明的算法,通过使用至少一个用于检测与呼叫者和用户之间的对话轮换相应的类型的交互的准则随着时间相对于彼此分析从远程终端1、2和本地终端传送的信息,检测对话(步骤48)。

同时,跟踪建筑物4中的用户(步骤49)以便确定他们当前位于空间5-7中的哪个空间。在一种变型中,使用标签(例如RFID(射频识别)标签)和位于建筑物4内的读取器跟踪用户。在另一个实施例中,使用基于音频的定位方法,即通过确定来自麦克风14-16的信号的相对信号强度跟踪用户。在该后一种变型中,不同样地标识和跟踪用户,而是确定并行步骤48中检测的对话中的每个本地参与者位于何处。其他跟踪方法可以作为可替换方案使用或者在该步骤49中组合使用。

如果确定特定本地用户不参与检测的对话,但是音频信息仍然清楚地从该用户传送,那么至少一个用于根据至少一个本地输入设备接收的输入控制设备的输出信号可以由主电话单元8或者个人电话单元12、13之一提供。特别地,不存在对话的情况下的话音输入可以用作使得话音激活的用户接口能够允许用户例如设置新的连接(呼叫特定远程终端1、2)、控制娱乐设备25的扬声器17-19的音量等等的线索。

另一方面,如果确定用户参与检测的对话,那么通过电信网络3传送与用户关联的标识(步骤50)。该消息适当地为通过对等网络的消息,用以指示用户对于其他活动或另外的对话类交互的可用性。该消息可以包括在并行步骤49中确定的用户位置的另外指示。当然,如果确定用户在建筑物中,但不是任何检测的对话中的参与者,那么状态的传送也将涉及传输与用户可用于对话类交互的指示共同地传送与用户关联的标识的消息。应当注意到,在没有单独地标识用户的情况下,例如因为只有基于音频的定位方法被使用,那么与用户关联的标识可以仅仅包括周围电话系统的标识,或者可能地包括个人电话单元12、13和主电话单元8代表的本地终端之一的标识。

特别地,如果检测到新的对话,涉及迄今未用于对话的个人电话单元12、13,例如第二电话单元13,那么可以通过向第二电话单元13以及因而向与其附接的相机20和显示设备22提供控制信号而打开到远程呼叫者的视频链接(步骤51)。因此,例如,显示设备22的内容可以从娱乐变化为其他呼叫参与者的图像。仅在检测到一个或多个呼叫者与第二电话单元13邻近的用户之间的对话时接通相机20确保了不持久地传输来自建筑物4内的图像,而是仅在需要时将其传输到远程终端。用户不必给出任何命令以提供该效果,而是只需参与对话。

此外,如果检测到新的对话,那么可以使被设置成产生与正在进行的通信无关的听觉输出的娱乐设备25静音(步骤52),或者至少可以通过提供用于控制娱乐设备25的适当的输出信号而自动地降低听觉输出的音量。在这个方面,也考虑完全关断娱乐设备25以及调节音量。

在所说明的实施例中,使用远程终端1、2之一的呼叫者与被确定为处于电话单元12、13之一的环境中的本地用户之间的对话的检测用来选择复现来自远程终端1、2中的特定终端的音频信号所在的电话单元(步骤53),并且使得音频信息停止由其他电话单元8、12、13复现。因此,在先前向所有电话单元8、12、13打开连接的情况下,紧邻它们之一的用户与远程呼叫者之间的对话的检测将使得从远程呼叫者使用的特定远程终端1、2传送的音频信息在本地输出设备(即扬声器17-19)的选定子集处复现,所述选定子集可以是一个这样的输出设备。类似地,当通过确定用户的位置或者通过监视来自这些设备的音频信号的相对强度和/或内容而检测到本地用户正传送来自所述输入设备(即麦克风14-16)中的少于所有的输入设备的信息时,调节信息从其传送到呼叫者使用的远程终端1、2的麦克风14-16的选择。因此,将向远程呼叫者提供更清楚地理解的音频信息。

应当注意到,所述周围电话系统也通过使用至少一个用于检测与远程终端的用户之间的对话轮换相应的类型的交互的准则而相对于彼此分析从两个远程终端1、2传送的信息。可能发生的是,该分析得到以下结论:存在不涉及建筑物4中的任何用户的远程终端1、2用户之间的有效对话。在这种情况下,主电话单元8将消息传输到远程终端1、2(步骤54),向它们告知呼叫者和/或他们的电信终端的身份并且指示直接的对话是可能的。该消息可以例如依照SIP(会话发起协议)协议。如果并且当使用远程终端1、2的呼叫者接受该消息时,建立起使用远程终端1、2的呼叫者之间的新呼叫,其不再通过建筑物4中的主电话单元8而中继。因此,当检测到在包括仅仅远程终端1、2的电信终端组的用户方面满足所述至少一个用于检测对话类交互的准则时,主电话单元8提供至少一个标识远程终端1、2组的信号以便建立仅仅形成该组的远程终端1、2之间的直接连接。在当前实例中,信号发送到这些终端,但是在另一个实施例中,信号可以通过网络3发送到某种交换管理连接。

如果用户在建筑物4内移动,那么这被检测到(步骤49)。已知该特定用户参与哪个对话类交互(步骤48)。检测到用户正参与哪些对话类交互以及特别地与哪些远程终端1、2的用户交互之后,执行选择使外部呼叫者“移动”到哪个电话单元8、12、13的步骤55。该步骤55类似于当检测到新的对话时执行的相应步骤53。特别地,调节信息从其传送到所涉及的远程终端1、2的本地输入设备(即麦克风14-16)的选择。

确定了在用户的位置变化之后他或他要使用的电话单元8、12、13中的最合适的电话单元,使外部呼叫者移动56。换言之,当检测到在电话单元8、12、13的第一个处不再存在本地用户与远程终端1、2中的特定终端的用户之间的对话时,来自该特定远程终端的信息停止在电话单元8、12、13的第一个处复现。这使得在定位用户之后其开始在电话单元8、12、13中的不同电话单元处复现。

此外,当检测到对话类交互随用户移动到新的电话单元8、12、13时,控制该新的电话单元的邻域中的外部设备。特别地,可以使娱乐设备25静音,可以打开视频链接并且可以控制照明设备24以照亮第二电话单元13的环境以便提高通过视频链接提供的画面质量,或者在任何情况下强调说话者是谁。

通过检测远程终端1、2之一的用户与本地用户之间的对话类交互,进行所有上述调节且事实上使得这些调节成为可能。原则上,无需使用控制面板或远程控制单元的附加用户输入。

应当指出的是,上述实施例说明了而不是限制了本发明,并且本领域技术人员在不脱离所附权利要求书的范围的情况下应当能够设计出许多可替换的实施例。在权利要求书中,置于括号之间的任何附图标记都不应当被视为限制了权利要求。动词“包括/包含”并没有排除存在权利要求中未列出的元件或步骤。元件之前的措词“一”或“一个”并没有排除存在多个这样的元件。在相互不同的从属权利要求中陈述了特定的技术措施这一事实并不意味着这些技术措施的组合不可以加以利用。

例如,代替使用个人电话单元12、13的是,可以利用仅仅一个与围绕建筑物4分布的麦克风和扬声器接口的终端实现周围电话系统。

尽管已经使用其中检测语音活动的实例解释了检测对话的方法,但是此外或者作为可替换方案可以使用基于内容的分析以便检测语音的存在性。而且,在提供了视频链接的情况下,可以与音频和/或视频信号有关地使用视频分析以便确定对话类交互是否正在发生。例如,在从本地用户传送音频信息的同时在远程用户的视频图像中的运动的缺乏或者聆听姿势的检测将是对话类交互的良好指示器。类似地,散布于有效身体运动时段的运动缺乏或聆听姿势的时段也可以是对话类交互的良好指示。在分析到“白板”环境的贴子流的情况下,类似的方法可以用来区分不同的对话类交互。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号