首页> 中国专利> 基于听者和说者的讲话风格比较估计听者理解说者的能力

基于听者和说者的讲话风格比较估计听者理解说者的能力

摘要

本发明涉及基于听者和说者的讲话风格比较估计听者理解说者的能力。描述了一种自动通讯系统附件,该附件“聆听”一个或多个参与者的说话风格,标识表示他们的风格的差异的具体特性,特别是口音,但也包括发音准确性,语速,语调,节奏,声调,协同发音,音节重读和音节持续时间中的一者或多者,并且例如利用对可能影响特定听者的可理解性的独立可测量讲话分量进行适当加权并且然后组合成指示所估计出的听者可理解所说内容的容易度的单个整体评分的数学模型,并且基于该评分向讲话者呈现实时反馈。此外,该系统可以为讲话者提供关于如何提高可理解性的建议。

著录项

  • 公开/公告号CN102254556A

    专利类型发明专利

  • 公开/公告日2011-11-23

    原文格式PDF

  • 申请/专利权人 阿瓦雅公司;

    申请/专利号CN201110184213.0

  • 发明设计人 保罗·若勒·麦克里斯;

    申请日2011-05-17

  • 分类号G10L15/14;G10L15/06;G06F17/30;H04M3/56;

  • 代理机构北京东方亿思知识产权代理有限责任公司;

  • 代理人宋鹤

  • 地址 美国新泽西州

  • 入库时间 2023-12-18 03:43:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-04-10

    授权

    授权

  • 2012-01-04

    实质审查的生效 IPC(主分类):G10L15/14 申请日:20110517

    实质审查的生效

  • 2011-11-23

    公开

    公开

说明书

技术领域

一个示例性方面涉及对通信的改进。更具体地,一个示例性方面涉及 辅助在诸如会议电话之类的通信环境中的各方之间的可理解性 (understandability)。

背景技术

即使两个人使用相同的语言讲话,并且精通该语言的词汇和语法,然 而他们说话方式之间的差异,例如,口音、发音准确度、韵律、语音、语 调、节奏、声调,协同发音、音节重读,音节持续时间等等的差异,可以 影响他们理解对方讲话的容易度。虽然这些差异可发生在作为使用同一语 言的母语讲话者的人们当中,但是,当由于一个谈话者习惯的是听者所习 惯的语言以外的语言而使得该谈话者的讲话模式受到了影响时,这种问题 可能尤其明显。

发明内容

发生该情况的一个很有意思的场景是在离岸联络中心(off-shore  contact center)。

当具有不同说话方式的人们之间面对面地进行交谈时,讲话者可以观 察听者并且接收到非口头的关于他们是否被理解的反馈。察觉到听者有困 难时讲话者可以调整他或她的说话方式,并且然后从接下来的非口头反馈 中感觉这(一种或多种)调整是否有帮助。重点在于,在面对面的交谈 中,有一个持续的反馈和调整循环。

如同各种各样的其它领域中的系统一样,可以预期到持续的反馈和调 整循环的缺少会引起“漂移(drift)”—在这种情况下,讲话者越来越远 地偏离了听者最容易懂的讲话风格。被认为可能导致这种漂移的因素包括 讲话者的情感状态,对迅速表达观点的期望,以及讲话者是否做出了刻意 努力去以听者-友好的方式说话。这里讨论的实施例所解决的一个问题是存 在于仅语音的电话交谈中的唯一反馈机制是来自听者的口头反馈—由于 它打断了交谈的流畅并被一些人认为是粗鲁的,因此这个选择很少被使 用。

可用技术涉及基于计算机的系统,其中该系统“聆听”正在学习说外 语的人并且向他们提供关于该学生发音错误的反馈。类似的系统被丧失听 力的人所使用,给予他们关于如何提高他们的讲话的可理解性的指导。

在这里讨论的实施例和帮助学生的自动化技术之间的根本区别是,用 于学生的帮助软件将学生的讲话与描述了完美发音的模板做比较。通过比 较,实施例分析电话中的一个或多个通话方的说话风格,并且基于他或她 的说话风格与听者的说话风格的不同程度来提供反馈给讲话者。例如,对 于一个从书本上学习法语的美国人来说去理解一个说着完美法语的人是很 困难的,但是去理解一个以类似于听者说法语的速度(即,非常慢),带 有和所述听者相似的夸张美国人风格的口音说出来的法语是相对简单的。

另一有意思的场景是在空中交通控制领域。更具体地,世界上所有控 制员都被要求说英语。这明显呈现出一种潜在的危险情况并且提供了另一 种环境,在这种环境中,这里所讨论的技术可能是有用的。在这个场景 中,中国人向德国人讲英语的想法并不那么牵强。

因此,一个示例性方面涉及一种自动通讯系统附件,该附件“聆听” 一个或多个参与者的说话风格,标识表示他们的风格的差异的具体特性, 特别是口音,但也包括发音准确性,语速,语调,节奏,声调,协同发 音,音节重读,音节持续时间,语法,词汇(或者有限的词汇的识别)以 及习语(idiom)中的一者或多者,并且例如利用对可能影响特定听者的可 理解性的独立可测量讲话分量进行适当加权并且然后组合成指示所估计出 的听者可理解所说内容的容易度的单个整体评分的数学模型,并且基于该 评分向讲话者呈现实时反馈。此外,该系统可以为讲话者提供关于如何提 高可理解性的建议。

根据另一个示例性实施例,一种分析可以被执行来判断信号的减弱是 否也可能导致可懂性问题,例如分组丢失,延迟时间,噪声,等等。此 外,交谈动态也可被分析,例如听者是否正说“你可以再说一遍么”或 者,相反,表现出完全沉浸在交谈中,这两者都给出了听者理解讲话者的 能力的暗示。

在语音识别技术中,隐式马可夫模型(HMM)被用来分析样本,并 且在这之后执行统计分析。此外,该模型被用作与模板进行比较的一种匹 配处理。通常地,隐式马可夫模型是输出符号或数量序列的统计模型。通 过HMM建模的讲话信号可以被看作是分段平稳(stationary)信号或短期 平稳信号。这就是说,可以假设在例如10毫秒范围的短时间内,语音可 以被近似成平稳过程。因此对于许多随机过程,语音可被认为是马可夫模 型。

HMM的另一个优点是它们可以自动被训练并且使用时是简单的并在 计算上是可行的。在语音识别时,HMM可以输出一N维实数值向量序 列,每x毫秒输出其中一个。这些向量可以由倒谱系数(cepstral  coefficient)组成,这些倒谱系数是通过对语音进行短时窗的傅里叶变换并 且使用余弦变换对频谱进行去相关,然后挑选第一(最重要的)系数而得 到的。(美尔频率倒谱(MFC)是声音的短期功率谱的表示,其是基于非 线性美尔频率范围上的对数功率谱的线性余弦变换的—美尔频率倒谱系数 (MFCC)是总体地构成MFC的系数。MFCC通常被用作语音识别系统, 例如可以自动识别对电话讲出的数字的系统中的特征。在任务是从声音来 识别人的讲话者识别中它们也是普遍的。)

HMM将趋向于在每个状态中具有一个统计分布,其中该统计分布是 将对每一个所观察向量给出似然性的对角协变高斯分布(diagonal  covariant gaussians)的混合。每个词,或者对更通用的语音识别系统而 言,每个音节,都将具有不同的输出分布;用于词或音节序列的隐式马可 夫模型是通过连接用于分离的词或音节的各个已训练的隐式马可夫模型而 得到的。

在这里描述的方面的一个潜在假设是,如果口音被确定是相同的或非 常相似的,那么两个说着口音很重的英语的人理解对方是没有问题的。另 一方面,如果系统确定说话风格显著不同,例如,如果一个人说着带有印 度口音的英语而另一个人说着带有西班牙口音的英语,则系统将向讲话者 提供关于所估计出的听者对他或她的语音的“可理解性”的实时反馈。

一个重要方面是提供实时反馈和使得该反馈实质上持续的能力。重申 上面讨论的任何问题,可以预期到持续的反馈和调整循环的缺失会导致讲 话者越来越远地偏离了听者最容易懂的讲话风格。

在简单的实现方式中,给讲话者的反馈可以是持续被更新的“可理解 性”评分,其可以表现为例如电话的字母数字显示装置上的数字或滑块 (sliding bar)或可理解度的其它标记。在更复杂的实现方式中,利用标准 的字母数字显示装置和/或图形用户界面,系统将会提出讲话者可以执行的 具体动作,例如“减慢速度”或者“强调以h开头的单词中的“h””。

一种替代实现方式可以提供非视觉形式的反馈,例如通过只能被正在 说话的人听到的“耳语”机构。如果与用户的电话端点相关联的显示器可 以呈现可频繁刷新的复杂图像,那么更加复杂的反馈机制就变得切实可 行。例如,不是将反馈限制在信号的一维可理解性评分,这类显示器可以 通过多维视图来补充可理解性评分,其中组成整体可理解性的独立可测量 分量被单独地显示出来。例如,反馈可以通过柱状图被提供,其中与独立 因素有关的评分在伸长和缩短的分离的条柱中被指示出。讲话者可以观察 这些单独的条柱,尝试对他们的讲话做出特定于因素的调整,并且接着观 察这些调整是否是有益的。记住,一些因素比其它因素对讲话的可理解性 具有更大的影响,并且还注意,可以期望因素的重要性取决于讲话者/收听 者失配的性质进行改变,这种显示器的一个示例性实施例将指示出哪些因 素应该被讲话者优先地或较优先地考虑。

另一示例性实施例包括特定于人口的模板,当收听者的说话风格不能 被取样时,该模板能够用作用于讲话者/收听者比较的基础。可使用该方法 的一个例子是,通用的“德国收听者”模板可被用作针对正用英语向德国 听众发言的中国讲话者的一种辅助。类似地,比较不必必须实时地执行, 而是可以基于与讲话者有关的简档,该简档是从该讲话者已经进行的一个 或多个先前谈话得出的。

根据另一个示例性实施例,并且在上述的识别出说话风格可基于讲话 者的活跃度、讲话者所说的内容等等而变化的实现方式上进行扩展,多个 简档可被与用户相关联,其中每个简档被联系到一种具体风格。例如,如 果讲话者正对朋友说话,则开始点可以是基于听者、上下文以及谈话内容 中的一者或多者的简档,其中该朋友可以通过联系方式或呼叫方ID信息 来被确定。例如,如果参与者A正在呼叫参与者B,并且正在讨论喜欢的 爱好,则与参与者A和B都有关的简档可以被检索到,其中这些简档是特 定于正讨论的爱好的。历史简档信息可以被作为用于基于一个或多个先前 谈话来提供反馈的基准。以类似的方式,如果参与者A正与参与者B和C 讨论与工作有关的具体涉及到特定项目的项,则在通话开始时,讲话者可 以被提醒关于哪些可理解性问题已在一次或多次先前谈话中存在,从而给 另两个参与者提供更即时的理解方面的帮助。

因此,一个示例性方面涉及分析例如电话通话中的一方或多方的讲话 风格,并且向所有讲话者提供基于他们的讲话与收听者的讲话的不同程度 的、可执行的持续的实时反馈。

其它方面涉及利用谈话动态来辅助向讲话者提供关于他们的讲话的可 理解性的反馈。

另外的方面涉及利用信道特性作为输入并且分析讲话者的可理解性。

其它方面涉及以视觉的、非视觉的和/或口头形式中的一者或多者向讲 话者提供有关他们的讲话的可理解性的实时反馈。

其它方面涉及当不能直接对听者的讲话风格进行取样时,利用特定于 人口的模板来作为讲话者/听者比较的基础。

其它方面涉及利用特定于人口的模板来在一个国籍的讲话者正向另一 国籍的听者发言的场合中提供帮助。

其它方面涉及检测讲话风格的差别,例如口音、发音准确度、语速、 语调、节奏、声调、协同发音、音节重读以及音节持续时间,并且提供对 参与谈话的一方或多方的相互可理解性的指示。

将从这里包含的内容中清楚这些和其它的优点。上述的实施例和配置 既不是全部的也不是详尽的。如将会理解的,本发明的其它实施例可以单 独地或联合地利用上述的或接下来将要详述的特征中的一个或多个。

正如这里所使用的,“至少一个”、“一个或多个”以及“和/或” 是在运用时既连接又分离的开放式表达。例如,如下表达“A、B和C中 的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或 多个”、“A、B或C中的一个或多个”以及“A、B和/或C”中的每一 种的意思是A单独的、B单独的、C单独的、A和B一起、A和C一起、 B和C一起或者A、B和C一起。

附图说明

本发明的示例实施方式将参考以下附图进行详细描述,其中:

图1图示出了示例性通信环境;

图2是图示出用来增强两个参与者之间的可理解性的示例性方法的流 程图;以及

图3是图示出用来增强若干个参与者之间的可理解性的示例性方法的 流程图。

具体实施方式

下面将结合示例性通信系统来图示说明一些实施例。虽然在具有诸如 (一个或多个)交换机、(一个或多个)服务器和/或(一个或多个)数据 库的系统中使用是很合适的,但是实施例并不局限于用于任何特殊类型的 通信系统或系统部件的配置。本领域的技术人员将会认识到,所公开的技 术可以用在希望提供增强的另一方对一方的可理解性的任何通信应用中。

首先参考图1,将根据至少一些实施例来描述示例性通信环境1。该 通信系统包括一通信网络,该通信网络可选地将多个通信设备例如连接到 会议桥接器。

在一个实施例中,通信系统可以包括交换机,该交换机可以包括专用 小交换机(PBX)系统或者能够提供电话服务给与该交换机相关联的一个 或多个诸如企业之类的实体的任何类似类型的交换系统。交换机可以是多 个已知交换系统中的一个,其中多个已知交换系统包括但并不局限于专用 自动小交换机(PABX)、计算机化小交换机(CBX)、数字小交换机 (DBX),或者集成小交换机(IBX)。交换机也可以包括交换结构,该交 换结构提供诸如与会议桥接器相关联的通信设备之类的多个端点、服务器 和数据库的连接。该交换结构可以提供将来电和/或去电引导至各个端点的 功能并且还提供端点之间的会议功能。

在另一实施例中,例如上述的空中交通场景中,端点可能是无线电或 类似的通信设备并且通信网是无线/有线网络。在该场景中,这里公开的技 术可在机场信号楼等地方实现。通常,这里公开的技术可以位于用于服务 一个或多个端点的任何合适的地方。

与参与者相关联的通信设备可以是分组交换式的或电路交换式的,并 且可以包括,例如,如Avaya公司的4600系列IP电话TM之类的IP硬电 话,如Avaya公司的IP软电话TM之类的IP软电话,个人数字助理或 PDA,个人电脑或者PC,笔记本电脑,基于分组的H.320视频电话以及会 议单元,基于分组的语音消息传输和响应单元,基于分组的传统计算机电 话附属物,和传统的有线或无线电话。

图1图示出了示例性通信环境。该通信环境1包括可理解性增强系统 100,具有可选的反馈设备210的端点A 200和具有可选的反馈设备310的 端点B 300,它们通过一个或多个网络10和链路5相互连接。可理解性增 强系统100包括分析模块110、简档模块120、控制器130、存储器140、 存储装置150、建模模块160、反馈模块170、关键词模块180、参与度 (engagement)模块190,以及信号质量模块195。可理解性增强系统100 还包括建议数据库或贮藏库105。

如所讨论的,示例性实施例贯涉及增强各方之间的通信可理解性。为 了促进该好处,一个示例性实施例利用与端点相关联的一个或多个反馈设 备来向与端点相关联的人提供一个或多个可听见的,视频的,或多媒体的 反馈,如后面将讨论的。

具体地,并且在操作中,诸如与端点A 200相关联的参与者A以及与 端点B 300相关联的参与者B之类的人建立起通信会话。这些端点可以是 任何类型的通信设备,例如电话,智能电话、具有多媒体能力的端点、扬 声器电话、蜂窝电话,或者一般地,允许通过一个或多个网络10和链路5 通信的任何类型的通信设备。例如,可以通过公共交换电话网络、分组交 换电话网络、通过VOIP,利用SIP来进行通信,或者通常地通过任何类 型的通信协议或形态来进行通信。

为了有助于增强可理解性,并且在通信会话开始之后或者与之相当 时,与简档模块120协作的分析模块110开始监听参与者A的讲话。此 外,分析模块110开始监听参与者B的讲话。如将会理解的,在通信会话 开始时,几乎没有数据可用来帮助提供关于其它方对讲话者的可理解性的 反馈。

因此,根据一个示例性实施例,并且与简档模型120,控制器130, 存储器140,以及存储装置150进行协作,可以检索到个人简档和模板中 的一个或多个,其具有例如关于讲话者的讲话特性的历史信息。这些历史 示例可以基于例如一个或多个先前的谈话,可以包括该特定讲话者的讲话 特性的总结,并且可选地可以是更具体的,例如基于情景和/或交谈的。例 如,分析模块110可以识别出通信会话是在已经有过先前的(一次或多 次)交谈的两方之间。在这一次或多次先前的交谈期间,可理解性信息在 简档模型120的帮助下可以被遵从(comply)并被存储。因此,当两方再 次开始通信会话时,该先前的历史信息可以被检索回并被利用来,正如以 下所讨论的,为多方中的一者或多者提供反馈。

根据一个示例性实施例,并且在通信会话开始时,参与者可以被提供 具有提高了该听者的可理解性的、与先前讲话特性的改变有关的方向的历 史信息的大纲。这种类型的历史信息在通信会话开始时减少用于提高可理 解性所花费的时间可以是非常有用的。

替代地,或者另外地,特定于人口(population-specific)的模板可以 被引入用于参与者的一个或多个。例如,当不能够对听者的讲话风格进行 取样时,该特定于人口的模板可以被用作用于讲话者/听者比照的初始基 础。作为可以采用这样的方法的一个示例,一般性的“德国听者”模板可 被用来帮助正用英语向德国听众发言的中国讲话者。

以类似方式,这些特定于人口的模板可被用来通过提供关于哪些类型 的讲话特性通常会提高两个国籍的人之间的可理解性的初始指南,来进一 步增强初始可理解性。例如,如果一个具有纽约口音的以英语为母语的讲 话者正在对一个以日语为母语的听者说话,对该纽约讲话者的初始指导可 以是放慢速度,使用更短的句子,以及减少使用地道的英语。通常,模板 可以是基于讲话者/听者比照的任意组合而产生的,并且这被利用来可选地 补充由分析模块110所获得的实际样本。

对一个或多个参与者的讲话的持续监听,以及可选择地对每一个参与 者,分析模块110与控制器130、存储器140和存储装置150协作来标识 表示风格的差异的一个或多个特性,风格例如是口音、发音准确度、语 速、语调、节奏、声调、协同发音、音节重读、音节持续时间、母语信 息,等等。可以针对通信会话的任何部分或者全部来实时地监听这些特 性,并且可以进一步地被用来更新与一个参与者或者参与者的组合有关的 简档,如上面在模板被存储用于各方之间的通信会话时所提及的。

建模模块160然后通过对可以影响可理解性的一个或多个独立可测量 的讲话分量进行加权并将它们组合成单个整体评分来利用这些分量,该单 个整体评分指示出所估计出的其它参与者可理解所说内容的容易度。该评 分可以被用作反馈模块170确定并向讲话者呈现反馈的基础,该反馈具有 关于如何提高听者的可理解性的一个或多个建议。更具体地,反馈模块 170然后解释该可理解性评分,如所讨论的,该可理解性评分着眼于人之 间的差异,当与建议数据库105核对时可关联到应当增强可理解性的建 议。在反馈模块170的协作下,该建议可被提供给诸如反馈设备210或反 馈设备310之类的反馈设备。

根据第二示例性实施例,可理解性增强系统100被扩展为包括具有多 个参与者的情形,并且进一步包括对信号衰减(degradation)、交谈参与 度因素中的一个或多个的动态监听和评估,以及对通信会话的动态更新。

更具体地,并且类似于上面讨论的实施例,每个参与者的讲话都被监 听以标识一个或多个讲话特性。替代地或者另外地,可以检索该参与者的 简档。此外,替代地或者另外地,可以检索参与者的特定组合的简档。如 将理解地,如果有多个参与者,则当基于多个不同收听者的建议彼此矛盾 时,可能难以者向讲话者提供建议。

因此,根据一个示例性实施例,例如可以基于针对多个收听者的建议 的加权平均来修改给讲话者的反馈。根据另一个实施例,反馈设备也可用 于收集关于(一个或多个)参与者的信息。例如,如果讲话者正对一端点 处的听众讲话,则该端点处的听众可以使用反馈设备来向可理解性增强系 统100提供诸如“我们是母语为汉语的讲话者,想要听英语。”之类的信 息。以类似的方式,对于通过监听参与者讲话得到的信息以及讲话特性, 该信息还可以被用于与可理解性评分相组合来辅助反馈模块170以及向讲 话者给出一个或多个建议。

对每一个参与者,该分析模块110然后标识表示风格上的差异的一个 或多个特性,风格例如是口音,发音准确度,语速,语调,节奏,声调, 协同发音,音节重读,音节持续时间,母语信息,等等。此外,并且在信 号质量模块195的协作下,进行关于信号衰减是否存在于通信体系结构的 任何一个或多个分支中的评估。另外,关键词模块180监视各方之间缺乏 理解的指示符。例如,关键词模块180被编程来寻找这样的指示符,例如 “对不起,你可以再说一遍么”,“什么?”,“请重复你刚才所说 的”,“你可以说得大声点么”,等等。一般地,关键词模块180可以通 过任何数量的关键词被编程,这些关键词通常指示收听方的理解的缺乏。 作为另一个例子,关键词模块180可以监视诸如“嗯哼?”之类的发声或 类似发声的发生,这些发声通常也趋向于指示缺乏理解或者收听者没有听 见讲话者的能力。

上述指示符的一个或多个接着被建模模块160用来确定指示所评估出 的一个或多个其它参与者可以理解所说内容的容易度的评分。该评分然后 被反馈模块170用来与建议模块105协作地确定可选地具有关于如何提高 可理解性的建议的反馈并呈现给正讲话的参与者。这些建议可以经由反馈 设备以听觉方式、图形方式、作为评分、以多媒体方式,或者一般地利用 任意的(一种或多种)通信类型而被提供。此外,反馈可以通过图形用户 界面,耳语通道,显示器(未示出)等而被提供。例如,并且取决于反馈 设备的类型,反馈建议的复杂度可以是不同的。

例如,在简单的基于文本的反馈设备中,诸如放慢速度、更大声地说 等的指示可被用来辅助收听方的可理解性。一个特定于语言的示例可以 是,如果讲完美法语的某人在对从书本上学习法语的以英语为母语的人说 话时被系统指示“对无声字母发音”。”在更复杂的图形用户界面类型的 环境中,除了建议以外,额外信息可以可选地被提供给各个端点中一个或 多个端点处的(一个或多个)参与者,其中该信息不仅包括建议,还包括 关于端点的一般信息。例如,如参与者是如何参与交谈的,参与者是否输 入了诸如母语之类的任何信息,等等的信息可以被显示出来。此外,系统 可以被扩展为使得关键词模块180不仅聆听可以指示理解的缺乏的关键词 或发声,而且在与反馈设备的协作下,该关键词模块180可以监视参与者 是否输入了指示缺乏可理解性的信息。例如,当反馈设备(210,310)被 扩展为包括输入能力时,其可被编程以使得当选择特定输入时,诸如说大 声点、放慢速度、我听不见你等的输入可类似地被用来辅助建模模块160 并且与反馈模块170协作地确定向讲话者提供何种反馈。

图2图示出了可理解性增强系统的操作的示例性方法。具体地,控制 开始于步骤S200并且继续到步骤S210。在步骤S210处,参与者A的讲 话被监听和/或检索。正如所讨论的,例如,当所监听的讲话数据不足以提 供建议时,参与者A的讲话简档可以从存储位置被检索回并且将该简档利 用来例如辅助提供更多的即时建议。接下来,在步骤S220处,并且以类 似的方式,参与者B的讲话被监听和/或检索。然后,在步骤S230处,特 定于人口的模版可以可选地被输入。接着,控制继续到步骤S240。

在步骤240处,并且对于每个参与者,表示风格上的差异的一个或多 个特征被标识出,风格例如是口音,发音准确度,语速,语调,节奏,声 调,协同发音,音节重读,音节持续时间,母语信息,语法,词汇,习 语,等等。然后在步骤S250处,一个或多个独立可测量的讲话分量通过 被加权并被组合成单个整体评分而被利用,该单个整体评分指示出所估计 出的其它参与者可理解所说内容的容易度。控制接着继续到步骤S260。

在步骤S260处,具有关于如何提高可理解性的一个或多个建议的反 馈被确定并被呈现给正在讲话的参与者。控制接着继续到步骤S270,在其 中此控制序列结束。

图3概述了可理解性增强系统的操作的另一示例性实施例。具体地, 控制开始于步骤S300并且继续到步骤S305。在步骤S305处,参与者A 的讲话被监听和/或例如从简档检索回。接着,在步骤S310处,参与者B 的讲话被监听和/或/或从简档中检索回。接着,在步骤S315处,一个或多 个另外的参与者的讲话可以类似方式被监听和/或检索。对于每一个另外的 参与者的讲话,监听和/或检索可以基于个人来进行,或者,例如,可以基 于一定数目的参与者而被组合以形成加权平均。控制接着继续到步骤 S320。

在步骤S320处,并且对于每一个参与者,或者例如,对于这些参与 者的加权平均,如上面所讨论的表示风格上的差异的一个或多个特性被标 识。接着,在步骤S325处,进行关于在通信体系结构的任何一个或多个 分支上是否存在信号衰减的评估。该信号衰减信息还可以通过建模技术被 利用来将如下情形考虑在内:可理解性不是基于讲话者的讲话特性,而是 由于差的通信链路引起的。这在如下情形下可以是尤其重要的:其中,通 信信道状况在通信会话的进行期间随着噪声水平逐渐变高并且随后下降而 变化。明显地,在这种情形下,建议讲话者改变他们的讲话模式或者特性 对收听者理解他们的能力几乎没有什么作用。作为可选的另外一个实施 例,该信息可以被用来例如告诉讲话者中断他们的讲话直到噪声降低到可 接受的水平。控制接着继续到步骤S330。

在步骤S330中,在整个通信会话期间,缺乏理解的指示符可以可选 择地额外地被监听。例如,指示符可以是关键词、发声,或者一般地指示 (一个或多个)收听者对讲话者所说内容的理解有困难的任何指示符。此 外,在步骤S335中,额外的因素可以被进一步地考虑,例如谈话中的收 听者的参与程度。例如,该系统可以被编程来识别是否存在活跃的谈话, 在该谈话中多个参与者正快速地交换观点,可能在参与者之间具有高的互 相理解程度。替代地,如果讲话者没有从一个或多个收听者那里获得任何 反馈,则这种参与度的缺乏也可以用作指示符,该指示符指示了可能由于 讲话者的讲话特性、通信信道衰落问题、基于音量问题导致的不能听见讲 话者等等而使得收听者缺乏理解。控制接着继续到步骤S340。

在步骤S340处,并且除了上述的被监听特性以外,影响可理解性的 讲话分量被评估并且指示其他参与者中的一个或多个能够理解所说内容的 所估计出的容易度的评分被确定。接着,在步骤S345中,信号衰减信 息、参与度信息和指示符信息中的一个或多个以及该评分被用来确定可选 地具有关于如何提高可理解性的一个或多个建议的反馈并将反馈呈现给讲 话者。如同先前的实施例,这一个或多个建议可以通过一个或多个反馈设 备,如在图形用户界面,耳语通道等中,以图形方式,听觉方式等来提 供。控制接着继续到步骤S350,在步骤S350中结束该控制流程。

各个实施例包括基本上如这里(包括各个实施例,子组合和它的子 集)所图示并描述的部件、方法、处理、系统和/或装置。本领域的技术人 员在理解本公开后将明白如何作出和使用本发明。在各个实施例中,本发 明包括在缺少未在此处或其各个实施例中示出和/或记载的各项的情况下, 包括缺少可能已在先前的设备或处理中例如用于提高性能、实现容易度和/ 或降低实施成本的各项的情况下,来提供设备和处理。

前面的讨论以说明和描述为目的而被给出。前面并不旨在将本发明局 限于这里所公开的一种或多种形式。在前述的具体实施方式中,例如,为 了精简本公开,本发明的各个特点在一个或多个实施例中被组合在一起。 这种公开方法不应被理解成反映了要求保护的发明需要比明确记载在每个 权利要求中的特征更多的特征的意图。而是,正如下面的权利要求所反映 的,发明点在于少于前面公开的单个实施例中的所有特征。因此,下面的 权利要求由此被并入此具体实施方式中,其中每个权利要求作为分离的优 选实施方式而独立存在。

此外,虽然本发明的描述已经包括了对一个或多个实施例以及某些变 形和修改的描述,但是其它的变形和修改也落在本公开的范围内,例如, 在理解了本公开后,可落入本领域技术人员的技术和知识中。希望在准许 的范围内获得包括要求保护的实施例的替代实施例的权利,替代实施例包 括可替换的、可互换的和/或等同的结构、功能、范围或步骤,而不论这些 可替换的、可互换的和/或等同的结构、功能、范围或步骤是否在本发明中 被公开,并且并不希望向公众贡献任何可专利的主题。

虽然上述的流程图已经结合特定的事件序列进行了讨论,然而应当理 解,可以在本质上不影响本发明的操作的情况下对该序列进行改变。此 外,并不需要出现如示例性实施例中所记载的那样的精确事件序列。这里 所给出的示例性技术并不局限于以特定方式描述的实施例,而是还可以被 用于其它的示例性实施例,并且每个所描述的特征都可以分别地单独要求 保护。

这里描述的系统、方法和协议还可以在除了或者替代所描述的通信设 备以外的如下装置上来实现:专用计算机、编程微处理器或微控制器和 (一个或多个)外围集成电路元件、ASIC或其它集成电路、数字信号处 理器、诸如分立元件电路之类的硬连线电路或逻辑电路、诸如PLD、 PLA、FPGA、PAL之类的可编程逻辑器件、诸如电话机之类的通信设 备、任何类似装置,等等。一般地,能够实现状态机,其进而能够实现这 里所述的方法的任何设备可以用来实现这里公开的各种通信方法、协议和 技术。

此外,可以用利用对象的软件或面向对象的软件开发环境来容易地实 现所公开的方法,这些软件和开发环境提供了可在各种计算机或工作站平 台上使用的可移植源代码。替代地,可以用使用标准逻辑电路或VLSI设 计的硬件来部分地或全部地实现所公开的系统。是用硬件还是软件来实现 根据本发明的系统取决于系统的速度和/或效率要求、具体的功能,以及所 利用的具体软件或硬件系统或微处理器或微计算机系统。可应用领域的技 术人员可以根据这里提供的功能描述并利用计算机和通信领域的一般基本 知识,利用任何已知的或以后开发出的系统或结构、设备和/或软件,来以 硬件和/或软件容易地实现这里说明的通信系统、方法和协议。

此外,可以用被存储在非易失性存储介质中,并且在与控制器和存储 器协同操作的经编程通用计算机、专用计算机、微处理器等上运行的软件 来容易地实现所公开的方法。在这些情况中,本发明的系统和方法可以被 实现为被嵌入在个人计算机上的程序(例如小应用程序(applet)、 JAVA或CGI脚本)、驻留在服务器或计算机工作站上资源、被嵌入在 专用通信系统或系统组件等中的例程等等。还可以通过将系统和/或方法 物理地结合到软件和/或硬件系统(例如通信设备或系统的硬件和软件系 统)中来实现本系统。

因此,根据本发明,显然已提供了用于增强通信可理解性的系统,装 置和方法。虽然已结合多个实施例描述了本发明,但是很明显,许多替换 方式、修改和变形对可应用领域的普通技术人员而言是显而易见的。因 此,希望包括在本公开的精神和范围内的所有这样的替换方式、修改、等 同物和变形。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号