首页> 中国专利> 在启用网络的会议中对发言者分类

在启用网络的会议中对发言者分类

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

描述了在启用网络的会议中对发言者分类的系统、方法、和/或技术(“工具”)。在一些场合下，这个发言者的分类列表指示哪个发言者是主导者。通过这个分类列表，一个参与者的通信设备可以提供关于发言者的背景。在一些场合下，一个参与者的通信设备具有呈现发言者的实时视频或其他视觉标记，例如每个或最具主导地位的发言者的名字、图片、头衔、或位置。这些和其他关于发言者的背景可以帮助参与者更好地理解启用网络的会议中的讨论。

著录项

公开/公告号CN101371244A

专利类型发明专利
公开/公告日2009-02-18

原文格式PDF
申请/专利权人微软公司;
展开▼

申请/专利号CN200780003044.8
发明设计人 A·W·克兰茨;D·库克利卡;W·钟;G-W·沈;Z·Z·袁;T·M·摩尔;D·利维恩;M·R·范巴斯克尔克;
展开▼

申请日2007-01-03
分类号G06F15/16(20060101);G06F17/00(20060101);
代理机构31100 上海专利商标事务所有限公司;
代理人陈斌
地址美国华盛顿州
入库时间 2023-12-17 21:32:13

法律信息

法律状态公告日

法律状态信息

法律状态
2015-05-20

专利权的转移 IPC(主分类):G06F15/16 变更前: 变更后: 登记生效日:20150428 申请日:20070103

专利申请权、专利权的转移
2012-06-13

授权

授权
2009-04-15

实质审查的生效

实质审查的生效
2009-02-18

公开

公开

说明书

背景

当前，许多人通过启用网络的会议来远程通信。启用网络的会议允许人们不必旅行就可在群组中交互。但是这些远程会议可能会混乱，因为它们提供的背景比亲自参加的会议少。例如，一个在伦敦的会议参与者可能不知道谁正在发言——是该公司在波士顿的首席技术官还是纽约的厂商。而且当多个参与者同时发言时会更加混乱。

概述

描述了在启用网络的会议中对发言者分类的系统、方法、和/或技术(“工具”)。在一些场合下，这个发言者的分类列表指示哪个发言者是主导者。通过这个分类列表，一个参与者的通信设备可以提供关于该发言者的背景。在一些场合下，一个参与者的通信设备具有呈现发言者的实时视频或者其他视觉标记，例如每个或最具主导地位的发言者的名字、图片、头衔、或位置的显示器。这些和其他关于发言者的背景可以帮助参与者更好地理解启用网络的会议中的讨论。

提供本概述用来以简化形式介绍将要在下面的详细描述中进一步描述的概念的选集。本概述既不旨在表示所要求保护的主题的关键或实质特征，也不旨在用来帮助确定所要求保护的主题的范围。

附图简述

图1示出该工具的不同示例性可在其中操作的一个示例性操作环境。

图2示出一个示例性中央通信拓扑。

图3示出一个示例性分布式通信拓扑。

图4示出音频流的示例性流程图，其模块在图1中描述。

图5示出第一示例性语音/时间图。

图6示出第二示例性语音/时间图。

图7是描述该工具可在启用网络的会议中分类和/或选择下主导发言者的不同方式的一个示例进程。

图8阐明在启用网络的会议中确定主导发言者的一个示例性算法。

在整个公开和附图中使用相同的数字以引用相同的组件和特征。

详细描述

概观

下面的文献描述能够在启用网络的会议中分类发言者的工具。当一个以上参与者正在或者最近一直发言，该工具可以基于参与者的发言历史和其他因素在参与者之间分类。该工具可以向参与者提供这个分类列表以便该参与者可以获得正在或者最近一直发言的参与者的背景。在一些场合下，所述工具也可指示哪位参与者是主导发言者。

该工具可在其中启用这些和其他技术的环境，在下面的一个题为示例性操作环境的章节被首先阐明。该章节之后是题为示例性主导发言者确定的描述示例性操作环境中的元素可能操作的示例性方式另一章节。随后是题为分类进程的描述该工具在启用网络的会议中可分类发言参与者的方式的另一章节。题为示例性算法的最后一章阐明分类发言者模块可选择主导发言者的示例性算法。

示例性操作环境

在详细描述该工具前，提供下面关于示例性操作环境的讨论以便帮助读者理解可采用该工具的各个发明性方面的一些方式。下面描述的环境仅构成一个例子并且不旨在将该工具的应用限于任何一个特定的操作环境。可使用其他环境，而不背离所要求保护的主题的精神和范围。

图1在100大体示出了一个这样的具有五个与会者的操作环境，参与者A被示为用通信设备102通信，参与者B被示为用通信设备104通信，参与者C被示为用通信设备106通信，参与者D被示为用连接到电话至网络通信设备110的电话108通信，参与者E被示为用通信设备112通信。在某些场合下，一个参与者可以包括多人——例如在两个人正在电话108上经由扬声器电话或启用电话网络的会议呼叫发言。

该环境也具有通信网络114，例如一个企业内联网或者一个全球互联网(例如，因特网)。参与者的设备可以能够直接地(例如，启用无线因特网的膝上型计算机、PDA或图形输入板PC，或者有线或无线连接到因特网的台式计算设备或启用VoIP的电话或蜂窝电话)或者间接地(例如，连接到电话至网络设备的电话)与网络通信。该会议可以通过分布式或者中央网络拓扑(或这些的组合)来启用。示例性的分布式和中央网络拓扑作为下面描述的一个例子的一部分被示出。

通信网络和/或任何这类设备，包括电话和电话至网络设备，可以是具有一个或多个处理器116和计算机可读媒体118的一个计算设备(每个设备用“○”标记以指示这个可能性)。计算机可读媒体包括媒体处理器120，它具有话音活动模块122、优先级模块124、能访问历史模块128的分类发言者模块126以及配置模块130中的一个或多个。处理器能够访问和/或执行计算机可读媒体。媒体处理器能够从参与者处接收一个或多个音频流并且输出参与者之一是主导发言者的指示。所述媒体处理器被示为一个内聚的单元，尽管它的各部分可不同放置，例如一些模块驻留在网络114中而另一些模块驻留在其他设备之一中。

每个参与者可以提供和接收音频流和在某些场合下的视频流。话音活动模块能够确定所提供的音频是否可能是参与者的言语。因此，如果参与者A咳嗽(这将音频提供给会议)，那么话音活动模块可以确定这个咳嗽不是言语。例如，它可以通过测量流中音频的强度和持续时间来这样做。

优先级模块能够为不同的音频流设置加权因子，例如将一个主持人的音频流设为比某个其他参与者的音频流重要。优先级模块也能够基于将要在下面详细讨论的静态或动态性质来向参与者指派优先级。

分类发言者模块能够分类发言者和/或确定启用网络的会议中某一特定发言者为主导发言者。例如，在某一特定时间点，所述分类发言者模块可以基于含有言语的发言者音频流的移动平均数来确定一个发言的参与者比其他两个发言的参与者更具主导地位。为此，分类发言者模块可以使用历史模块。历史模块能够维护音频流的历史。在一些场合下，历史模块也可以基于移动平均值来向音频分组指派更高的权重或重要性(分组是流的不连续的部分)，例如通过相比其他包，向更新近接收的包指派更高的权重。历史模块也可以动态地改变分类发言者模块每隔多久确定哪个参与者是主导发言者。

配置模块包括设置，例如分类发言者或确定主导发言者的间隔和使用言语历史的时间周期。这些设置可以被默认设置或者在会议前或会议期间被接收。

示例主导发言者确定

下面的讨论描述该工具确定启用因特网的会议中哪个参与者是主导发言者的示例性方式。该讨论使用图1中的操作环境100的元素，尽管其他元素或其他环境也可以被使用。

媒体处理器120在因特网会议呼叫中从参与者处接收音频流并且输出这些发言者中哪个是主导发言者的指示。会议呼叫可以用中央、分布式、或组合中央分布式通信拓扑来启用。示例的中央和分布式拓扑将在下面描述。

图2示出了一个示例性中央通信拓扑200。在这里，媒体流从由A到F的每个参与者传递到音频视频或仅音频MCU(多点控制单元)VoIP(因特网协议上的语音)服务器202。这个服务器将一个或多个媒体流传递到每个参与者。这个服务器可以选择性地仅发送由服务器接收的一个或一些媒体流的组合的单个媒体流。在这个示例性中央通信拓扑中，媒体处理器120由服务器202执行。

图3示出了一个示例性分布式通信拓扑300。在这里，媒体流从由A到D的每个参与者通过因特网或者直接或者通过网络地址翻译(NAT)或媒体中继或其组合传递到每个其他参与者。例如，参与者A到D可能正在线上聊天。例如，参与者B将他或她的媒体流(音频和某些场合下的视频)传递给每个参与者A，C，D。在这个分布式拓扑中，媒体处理器120由参与者的计算设备(例如，参与者的膝上型计算机)执行。

在这些拓扑或者组合拓扑中，媒体处理器120从会议参与者处接收音频流并且指示哪个是主导发言者。在中央通信拓扑中，MCU VoIP服务器202的媒体栈用传播给会议参与者的会议信息文档生成指示参与者的主导发言者状态的一个事件。在分布式通信拓扑中，每个参与者的通信设备(如果能够)生成指示参与者的主导发言者状态的一个事件。为了易于说明，下面的例子含有三个参与者，尽管可处理更多的参与者。

假设有分别使用图1中的设备102、104、106的三个会议参与者A、B、C。媒体处理器接收(以上面的拓扑中的任一个)来自参与者A的音频流“A_A”、来自参与者B的音频流“B_A”以及来自参与者C的音频流“C_A”。这在图4中示出，图4示出了图1的模块122、124和126的流程图。这些模块是媒体处理器120(以虚线示出)的一部分，尽管它们可能是分立的或者仅仅表示执行特定动作的媒体处理器的一部分。

话音活动模块122以分组形式接收音频流；每个分组以特定周期接收，此处为每20毫秒或者在每个分组被接收时。话音活动模块确定来自A和B来的音频流是话音而来自C的音频流不是(例如，它是背景噪声、咳嗽或喷嚏)。话音活动模块输出两个活动发言者——被确定包含参与者A和B言语的两个媒体流。这些在图4中显示为“A_v”“B_v”，并且也显示为图5中从T＝0s到T＝2s的时间内介于示例性言语/时间图500中T＝0s和T＝2s时的垂直线之间的来自“A”和“B”的水平线。注意到B从T＝0s到T＝1s以及T＝1s与T＝2s之间的大约200毫秒内没有说话。

基本上，A和B在最后两秒钟的至少一部分说话而C却没有。话音活动模块可以传递所有的音频流并且指示哪些表示言语或者仅仅传递它确定是言语的那些音频流。此处我们假设后者(图5中仅显示言语流)。话音活动模块也可以平衡音频流上的强度和增益，例如当一个参与者相比另一个参与者离自己的麦克风较近。

优先级模块124接收活动发言者流(或其指示)并且可以改变它们的相对重要性。在一些场合下，默认或在接收关于一个参与者的信息时，一些参与者被认为比其他参与者重要。例如，如果A的加权因子为2，那么他的言语将是其他参与者言语重要性的两倍。加权可以作为使用应用程序编程接口(API)配置的参数来被接收。此处所述参与者没有加权因子。

优先级模块也可以用来设置参与者的优先级以达到打破平局的目的。

分类发言者模块126接收此时没有加权信息也没有优先级的活动发言者音频流。分类发言者模块基于其活动言语的历史来确定哪个发言者是主导者。这个历史可以是某一段周期，甚至小到一个分组，或大到许多秒。历史被存储在历史模块128中。此处所用的言语周期是两秒。因为仅有A在最近两秒周期内一直说话，分类发言者模块确定A是T＝1s的主导者(此时仅有一秒的历史)。

也以一定时间间隔，此处为每一秒(从T＝1s开始)确定哪个是主导者。选择一秒作为时间间隔是因为人类言语通常持续一秒或更长。通常与会者会插入持续大约一秒或更长的有意义的言语——例如针对另一个参与者的问题回答“是”或“不是”。流中持续少于一秒的音频在会议中通常没有意义。大约两秒或更多秒的历史有助于使主导发言者不要被过于频繁地切换。比两秒钟长得多的历史(例如，30秒)将导致所述切换过于稀少以至于对参与者无益。如果主导发言者切换过于频繁，例如大约半秒钟或更少，则会议参与者可能难以跟踪哪个参与者正在发言或者难以使该背景与听到的言语相关。在一些场合下主导地位是哪个发言者在某一时期更加活跃的量度。在其他一些场合下主导地位基于这个或其他因素，例如发言者的重要性。

基于参与者A在最近两秒内发言多于参与者B，分类发言者模块在T＝2s确定参与者A是主导发言者。然而，如果B有一个为2的加权因子，则A的发言需要至少是B的两倍。该模块表明A是主导发言者，在图4中示为“A_D”，图5中在T＝2s(两秒)上方一条垂直线上显示“A”。

注意到在3秒时，参与者B在前2秒将比参与者A发言更多并且将被指示为主导发言者，且在4秒时也被指示为主导发言者。在T＝3s，B将在几乎全部最后两秒内发言。在T＝4s，B的发音将会比参与者C的发言多。在T＝5s，C的发音将会比B的发言多得多。注意到C在T＝5s将成为主导发言者，尽管C当前不在发言。在一些场合下，主导发言者在确定主导发言者的时间间隔处不在发言。即使其他参与者在所述时间间隔正在发言这样，也可以是这样。在T＝6s，分类发言者模块可指示没有发言者是主导者，因为没有人在最近一秒发言。分类发言模块也可不作出指示，因此允许C在T＝6s仍然为主导发言者。

为了帮助读者理解该工具可以确定一个发言者为主导者的许多方式中的一些，以下给出示出不同发言者场景的其他例子。

例如，图6阐明另一个示例性言语/时间图600。此处假定没有给出加权因子并且当对尚未被指示为主导发言者的参与者有平局时给出优先级。

在T＝0s到1s，话音活动模块每20毫秒(从T＝0到T＝1间50次)确定参与者A正在发言。这用从参与者A直到T＝1s的实线示出。此时，优先级模块没有指示优先级。分类发言者模块在它的历史模块中保留这个历史，确定仅有A发言(用T＝1s上方垂直线上方的“A”示出)，并且指示A是主导发言者。

从T＝1s到T＝2s，话音活动模块确定所有三个参与者都在发言。这用介于T＝1s和T＝2s之间的来自A、B、C的三根实线示出。分类发言者模块确定A仍是主导发言者(如果先前指示的接收者仍是前面的主导发言者就不需要由分类发言者模块积极地指示)。

从T＝2s到T＝3s，话音活动模块确定所有三个参与者都在发言。这用介于T＝2s和T＝3s之间的三根来自A、B、C的三根实线示出。分类发言者模块确定所有三个参与者在同样的时间量内例如，全部最近两秒都积极地发言。在这个平局下，分类发言者模块可以任意选择一个主导发言者，基于哪个发言者首先加入会议来选择，或基于哪个发言者在平局存在前发言来选择。此处分类发言者模块基于哪个发言者在平局存在前发言来选择，因此选择A作为主导发言者。分类发言者模块向优先级模块指示A已经被选择。因此，分类发言者模块可首先基于某人是否为前一主导发言者在平局发言者之间选择。如果发言者中没有前一主导发言者并且之前都不曾是主导发言者，那么分类发言者模块可以选择第一个加入会议的人。之后，它可以清除主导发言者标志并再次经历上述步骤。

从T＝3s到T＝4s，话音活动模块确定参与者B和C在最近一秒钟内一直发言。基于此以及B和C在T＝2s和T＝3s发言的历史，分类发言者模块确定这是个平局并且基于B在C之前加入会议而选择B，并向优先级模块指示这个对B的选择。分类发言者模块指示B是主导发言者。

从T＝4s到T＝5s，话音活动模块确定参与者A和C在最近一秒内一直发言。基于此以及C在T＝3s到T＝4s发言而A没有发言的历史，分类发言者模块确定并且指示C是主导发言者。

从T＝5s到T＝6s，话音活动模块确定参与者A和C在最近一秒内一直发言。基于此以及A与C在T＝4s到T＝5s发言的历史，分类发言者模块确定这是一个平局。分类发言者模块确定C是主导发言者因为C在T＝4s时是主导者。

在每个这些情况中，媒体处理器可以使用API用事件输出哪个参与者是主导发言者的指示。这个指示可以被参与者使用的设备接收。基于这个指示，设备可以提供有关主导发言者的背景，例如该参与者提供的实况视频，设备可以对其突出显示、扩展或示为主导者，或者可对主导发言者的图片、头衔以及位置突出显示、扩展或示为主导者。

分类进程

下面的讨论描述在启用网络的会议中工具分类发言参与者的不同方式。

图7是一个如此的示例性进程700。它被示出为一系列表示由例如媒体处理器120和分类发言者模块126的图1的操作环境100的元素执行的各个操作或动作的框。此处公开的这个和其他进程可以用任何合适的硬件、软件、固件或其组合来实现；在软件和固件的情况下，这些进程表示了实现为存储于计算机可读媒体中并且可由一个或多个处理器执行的计算机可执行指令的一组操作。

框702接收来自启用网络的会议中的三个或更多个参与者的音频流或者有关这些音频流的信息。这些音频流可以包括实时接收的分组，例如一个具有十个分组的两秒钟的音频流，每个分组表示从一个会议参与者处接收的20毫秒的音频。关于音频流的信息可以同样或者代替被接收，例如用或包括CSRC(贡献源)或带外信令机制。这些音频流或信息可由集中式通信拓扑中的中央服务器或分布式通信拓扑中的参与者通信设备执行的媒体处理器120接收。这些场景的例子在上面被描述。

框704或者通过分析音频流本身或通过分析关于音频流的信息来确定哪些音频流包含言语。在上面的一个例子中，话音活动模框122确定哪些音频流或其中的部分是言语以及哪些不是。话音活动模框可以确定参与者的音频流的某一部分不是言语而其他部分是。这可以有效地排除将一个参与者的音频流的一些分组确定为言语，因此减少了那个参与者将是最高类(即，主导)发言者的可能性。

框706可以将加权因子构建到确定包含言语的音频流或有关它们的信息中。这个加权因子可以表示由一个或多个参与者或默认设置作出的选择，例如使得对作为会议主持人或第一加入者的参与者赋予比另一参与者更大的权重。框706可以在框702和/或框704之前、之后或同时活动。在上面描述的例子中，优先级模块124含有或者接收加权因子并且应用这些到确定包含言语的音频流。

框708可以向音频流或者与那些音频流相关联的参与者添加优先级，优先级可用于在否则将平局的参与者之间针对主导发言者或在分类列表中较后位置作出决定。正如上面例子所阐明的，优先级模块124可以基于不同的因素打破参与者之间的平局。

框710保留音频流的历史。这个历史可以如上面所阐明地被保留在历史模块128中，并且可以基于接收音频流中的一个或多个言语分组(例如，两秒钟内接收100个分组)或者有关音频流的信息。此外，历史模块可以包含足够的关于音频流(例如，音频流被确定为包含某个数量的言语)和与他们相关联的参与者的历史，以使分类发言者模块126能够动态改变如何分类和确定主导地位。

框712基于已经被确定包含言语的音频流或有关音频流的信息的历史来分类音频流。框712也可以基于刚接收到的信息或针对每个音频流的单个分组来这样做。框712也可以确定哪个音频流和/或与它相关联的参与者是主导者。框712可以按特定时间间隔并基于来自配置模块130的历史的特定周期分类，尽管这些时间间隔和周期可能随时间改变。

例如，分类发言者模块126可以基于在先前两秒(即，以两秒为周期)的发言活动按一秒的时间间隔分类发言的参与者，正如上面在描述确定主导发言者的例子中所述。这些时间间隔和周期可能接收自配置模块130并且可以由默认或以其他方式设置。分类发言者模块可以接收其他时间间隔和周期，包括那些基于较长的、正在进行的言语历史。例如，如果一个参与者不间断发言超过指定或预先确定的周期(例如，八分钟)，那么配置模块可以将时间间隔增加到三秒钟。或者媒体处理器可基于它的性能或媒体处理器或分类发言者模块执行于上的计算机设备的性能，来确定减少或增加时间间隔并因此改变配置模块中的设置。例如，媒体处理器可以将具有有限计算资源的蜂窝电话上的时间间隔增至四秒钟并将周期增至四秒、六秒或八秒。

在一个场合中，框712执行一个算法来分类有效发言参与者以确定主导地位。这个在稍后描述并在图8示出。

框714将发言参与者的分类列表提供给一个或多个启用网络的会议的参与者。这个分类列表可随事件并使用API提供。在分布式通信拓扑中，可本地使用事件来指示背景。在中央通信拓扑中，服务器可以将事件的通知分发给远程参与者而不必依赖于CSRC。例如，MCU VoIP服务器202可以将分类列表提供给电话108(电话可能不能接收CSRC)。然后电话可以向参与者D指示在这个分类列表中有什么(例如，哪个参与者是主导者)。

响应于这个指示，参与者的通信设备可能按上述不同的方式显示发言者状态(例如，主导者、第二人、第三人)。提供给参与者的背景可以帮助参与者更好地理解启用网络的会议中的讨论。

示例性算法

图8是用于确定启用网络的会议中的主导发言者的一个示例性算法800。它被示出为表示由例如话音模块122、分类发言者模块126、和历史模块128的图1的操作环境100中的元素执行的单个操作或动作的一系列框。这个进程可以与此处描述的其他进程一起或者分开进行。

按一个特定的时间间隔，框802确定会议中哪些参与者的音频流包含言语。框804基于随时间每一音频流包含言语的量为会议中每个参与者更新发言活动的移动平均数。

框806确定哪个音频流有最高的言语移动平均数。移动平均数可以基于一个特定周期内参与者的言语历史以及赋予那个言语的权重。例如，参与者的移动平均数可以用(例如，包含言语的分组的)运行的总和(runing sum)、一段时期内的平均数或其他可用来计算言语量的值的其他统计加权来计算。如果单个流有最高移动平均数，则框808将这个流标记为主导发言者。如果两个或多个流具有相同的言语最高移动平均数，则框810维持当前主导发言者。

如果两个或多个发言者平局并且没有一个是当前主导发言者，则框812将最不新近标记的流和/或更加新近包含言语的流标记为主导发言者。在第一种情况下，如果两个或多个流都不曾被标记为主导发言者，则框812将先加入会议的流标记为主导者。在第二种情况下，如果言语流中的两个具有相同的最高移动平均数并且其中仅有一个言语流在该时间间隔当前包含言语，则框812将当前包含言语的言语流标记为主导发言者。

在任何这些情况下，算法保留哪个流被指示为主导发言者以及可任选地它何时被选择的历史。这允许基于上面的算法处理将来的流间平局。

结论

上述系统、方法、和/或技术允许在启用网络的会议中分类发言者，包括哪个发言者是主导者。用这个分类列表，参与者的通信设备可以提供关于发言者的背景。这个背景可以帮助参与者更好地理解启用网络的会议中的讨论。尽管这些系统、方法、和技术用结构化特征和/或方法活动专用的语言被描述，但可以理解，所附权利要求书中定义的这些并不必限于所描述的具体特征或动作。相反，具体特征和动作作为实现所要求保护的系统、方法、和技术的示例性形式被公开。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 在启用网络的会议中对发言者分类 [P] . 中国专利： CN101371244B . 2012.06.13
2. 在启用网络的会议中对发言者分类 [P] . 中国专利： CN101371244A . 2009-02-18
3. Sorting speakers in a network-enabled conference [P] . 美国专利： US7664246B2 . 2010-02-16

机译：在启用网络的会议中对演讲者进行排序
4. SORTING SPEAKERS IN A NETWORK-ENABLED CONFERENCE [P] . IN2008CN02673A . 2009-03-06

机译：在网络启用的会议中对演讲者进行排序
5. SORTING SPEAKERS IN A NETWORK-ENABLED CONFERENCE [P] . 欧洲知识产权局专利： EP1974283A1 . 2008-10-01

机译：在网络启用的会议中对演讲者进行排序