首页> 中国专利> 新增口说语汇的语音识别系统与方法

新增口说语汇的语音识别系统与方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

根据一实施例，在一种新增口说语汇的语音识别系统中，至少一输入设备接收至少包括一段声音信号的多个输入信号；一模式侦测模块侦测此多个输入信号，当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括至少一控制信号时，输出一语音训练模式，当侦测出该段声音信号中不存在该特定声音事件并且是该多个输入信号中不存在该至少一控制信号时，输出一语音识别模式；一语音训练模块接收该语音训练模式，并对该段声音信号进行一训练处理后，输出一训练结果；一语音识别模块接收该语音识别模式，并对该段声音信号进行一语音识别处理后，输出一辨识结果。

著录项

公开/公告号CN104934031A

专利类型发明专利
公开/公告日2015-09-23

原文格式PDF
申请/专利权人财团法人工业技术研究院;
展开▼

申请/专利号CN201410153997.4
发明设计人简世杰;郭志忠;
展开▼

申请日2014-04-17
分类号G10L15/02(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人宋焰琴
地址中国台湾新竹县竹东镇中兴路4段195号
入库时间 2023-12-18 11:00:03

法律信息

法律状态公告日

法律状态信息

法律状态
2019-03-01

授权

授权
2015-10-21

实质审查的生效 IPC(主分类):G10L15/02 申请日:20140417

实质审查的生效
2015-09-23

公开

公开

说明书

技术领域

本发明涉及一种新增口说语汇(spoken vocabulary)的语音识别系统与方法。

背景技术

语音识别模块/系统在运行之前，常需预先设定好辨识的语汇与声学模型，并且为该语汇建构辨识时期所需的搜寻网络，以便在辨识时能引用该搜寻网络与声学模型进行辨识。因此，该语音识别模块/系统在应用之前，需要在脱机阶段做好事前的准备工作。

在实际应用上，当预先设定的语汇并非使用者所习惯的语汇，或是使用者日常所使用的语言/腔调与该语音识别模块/系统的设定不一致时，例如，一个结合居家操控的语音识别器提供台湾腔中文声学模型与一组语汇，如「打开电灯」、「打开冷气」、...等，让使用者对居家电器设备进行语音操控，而用户习惯用台语，或者想用「开灯」来取代原本设定的「打开电灯」语汇，或者使用上辨识效果不佳时，可能会降低使用者的使用意愿。此时，前述的语音识别器，往往需要根据使用者的习惯做客制化设计或调整。

有一技术使用一图形化接口来增加新语汇。新增的语汇透过拼音数据库比对，得到对应的新语汇的拼音，再将此新语汇增加到语音识别字典中。有一新增语汇的技术透过一歧异性侦测器(ambiguity detection engine)来侦测输入的语汇是否与已存在的语汇有歧异性；当没有歧异性时，回馈给使用者并询问是否做一新增语汇的动作。有一技术依据音素结构(phonetic structure)，执行输入的声学数据(acoustic data)的语汇元素特定型态声学音素录制、语汇元素型态的分类、以及语汇元素特定型态音素至字母形式转换(phoneme-to-grapheme conversion)，来产生语汇元素。有一技术先侦测输入的语汇是否与已存在的多个语汇的一语汇实质上匹配，是的话，将该同义词替代该语汇并请求打算使用该语汇的用户的输入语音新增该同义词。有一技术透过麦克风逐字输入欲增加的语汇，并提供一种增加语汇的操作接口。

现有含语音识别功能的产品有地域性的限制。不同地区因口音或语系差异，需要做客制化设计与足够的发展时程。例如，需要收集该地区大量的语音数据来涵盖该地区可能的年龄层与口音，并检验这些语料的质量，以及训练适用于该地区的声学模型等。

在上述及/或现行的语汇产生的的语音识别技术或产品中，有的需要根据不同地区口音，做客制化设计。有的需预先设定好识别的语汇与声学模型，以便在识别时能引用该搜寻网络与声学模型进行识别；在实际应用上，需要根据使用者的习惯做客制化设计或调整。所以，能够提供一个可根据使用者需求来做调整的语音识别模块/系统，以让用户方便的进行操控，并且能够减轻技术提供者的负担，以让技术可被广泛的应用是目前研发的重点。

发明内容

本发明的实施例可提供一种新增口说语汇的语音识别系统与方法。

本发明的一实施例是关于一种新增口说语汇的语音识别系统。此系统可包含至少一输入设备、一模式侦测(mode detection)模块、一语音训练模块、以及一语音识别模块。此输入设备接收多个输入信号，此多个输入信号至少包括一段声音信号(sound signal)。此模式侦测模块侦测此多个输入信号，当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括该段声音信号以外的至少一控制信号时，输出一语音训练模式，当侦测出该段声音信号中不存在该特定声音事件并且该多个输入信号中不存在此段声音信号以外的该至少一控制信号时，输出一语音识别模式。此语音训练模块接收该语音训练模式，并对该段声音信号进行一训练处理后，输出一训练结果。此语音识别模块接收该语音识别模式，并对该段声音信号进行一语音识别处理后，输出一辨识结果。

本发明的另一实施例是关于一种新增口说语汇的语音识别方法。此方法可包含：利用至少一输入设备接收多个输入信号，此多个输入信号至少包括一段声音信号，并利用一模式侦测模块侦测此多个输入信号；当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括该段声音信号以外的至少一控制信号时，输出一语音训练模式，由一语音训练模块对该段声音信号进行一训练处理后，输出一训练结果；以及当侦测出该段声音信号中不存在该特定声音事件并且是该多个输入信号中不存在此段声音信号以外的该至少一控制信号时，输出一语音识别模式，由一语音识别模块对该段声音信号进行一语音识别处理后，输出一辨识结果。

下面将结合下列图示、实施例的详细说明及申请专利范围，将详细描述上述及本发明的其他优点。

附图说明

图1是根据本发明的一实施例，说明一种新增口说语汇的语音识别系统。

图2是根据本发明的一实施例，说明新增口说语汇的语音识别系统的一应用范例。

图3是根据本发明的一实施例，说明新增口说语汇的语音识别系统的另一应用范例。

图4(A)是根据本发明的一实施例，说明声音事件侦测模块进行关键词萃取，取得此特定关键词存在于输入的一段声音信号的分段时间标记的一范例示意图。

图4(B)是根据本发明的一实施例，说明声音事件侦测模块进行静音侦测，取得此特定静音存在于输入的一段声音信号的分段时间标记的一范例示意图。

图4(C)是根据本发明的一实施例，说明声音事件侦测模块进行特殊音侦测，取得此特定特殊音存在于输入的一段声音信号的分段时间标记的一范例示意图。

图5是根据本发明的一实施例，说明控制信号侦测模块侦测默认的控制信号，取得此默认的控制信号存在于输入的一段声音信号的分段时间标记的一范例示意图。

图6是根据本发明的一实施例，说明语音训练模块进行语汇训练的一范例示意图。

图7是根据本发明的一实施例，说明一种新增口说语汇的语音识别方法。

图8是根据本发明的一实施例，说明一语汇模型训练器的元件与处理流程。

图9(A)是根据本发明的一实施例，说明以图4(A)或图4(C) 的范例，经语音切割处理后，得到的语音段落。

图9(B)是根据本发明的一实施例，说明以图4(B)的范例，经语音切割处理后，得到的语音段落。

图10是根据本发明的一实施例，举一范例说明一种可避免无法成功侦测既定语汇的处理流程。

附图标记说明：

100新增口说语汇的语音识别系统

110输入设备 120模式侦测模块

130语音训练模块 140语音识别模块

112输入信号 114一段声音信号

124语音训练模式 126语音识别模式

132训练处理 134训练结果

142语音识别处理 144辨识结果

210输入设备 220声音事件侦测模块

310另一输入设备 320控制信号侦测模块

314非声音信号

两箭头分段时间标记

505使用者 507默认的控制信号

514一段声音信号 520另一输入设备

634数据库

632语汇模型训练器 m11、m12语汇模型

636语汇集合

710利用至少一输入设备接收多个输入信号，此多个输入信号至少包括一段声音信号

720利用一模式侦测模块侦测此多个输入信号

732当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括该段声音信号以外的至少一控制信号时，输出一语音训练模式

742由一语音训练模块对该段声音信号进行一训练处理后，输出一训练结果

734当侦测出该段声音信号中不存在该特定声音事件、并且该多个输入信号中不存在此段声音信号以外的该至少一控制信号时，输出一语音识别模式

744由一语音识别模块对该段声音信号进行一语音识别处理后，输出一辨识结果

800语汇模型训练器 810语音切割器

820语汇侦测器 830模型训练器

840语汇编辑器 832新的语汇模型

812语音段落

1010语音录音 1020用户语音

具体实施方式

以下，参考附图所示，详细说明依据本发明的实施例，以便本领域技术人员易于了解。所述的发明创意可以采用多种变化的实施方式，但不能只限定于这些实施例。本发明省略已熟知部分(well-known part)的描述，并且相同的附图标记于本发明中代表相同的元件。

依据本发明的实施例，提供一种新增口说语汇的语音识别的技术，此技术可藉由预设的特定声音事件或默认的特定控制信号的侦测与否来进行辨识模式或训练模式操作，藉由用户所输入的一既定语汇与至少一个欲增加与该既定语汇同义的语汇所形成的语音信号来训练得到一与该既定语汇同义的语汇模型，并建立与语音识别器的连结，使得根据使用者习惯，自行建立应用语汇。在本发明的实施例中，整合辨识模式(recognition mode) 与训练模式(training mode)于单一系统，提供两种操作模式供用户进行操作。依据本发明的实施例，此技术是一种可与语音识别器结合的口说语汇新增的技术，可让用户或该地区用户能根据需求来增加应用语汇。

在辨识模式中，用户可对着语音处理单元说出既有语汇的语音。在训练模式中，可输入上述带有一个既有语汇、一组预设的特定声音事件、以及欲取代该既有语汇的一个或重复多个新增语汇内容所形成的语音信号；或是可输入上述带有一个既有语汇、欲取代该既有语汇的一个或重复多个新增语汇内容所形成的语音信号，以及用户可藉由外部装置触发默认的一组特定控制信号。

图1是根据本发明的一实施例，说明一种新增口说语汇的语音识别系统。参考图1，新增口说语汇的语音识别系统100可包含至少一输入设备 110、一模式侦测(mode detection)模块120、一语音训练模块130、以及一语音识别模块140。输入设备110用来接收多个输入信号112，此多个输入信号112至少包括一段声音信号114。模式侦测模块120侦测此多个输入信号112。当模式侦测模块120侦测出该段声音信号114中存在一特定声音事件，或是此多个输入信号112还包括该段声音信号114以外的至少一控制信号时，输出一语音训练模式124至语音训练模块130。当模式侦测模块120侦测出此段声音信号114中不存在该特定声音事件，并且此多个输入信号112中不存在此段声音信号114以外的该至少一控制信号时，输出一语音识别模式126至语音识别模块140。语音识别模块140对输入的该段声音信号114进行一语音识别处理142后，输出辨识结果144。语音训练模块130对输入的该段声音信号114进行一训练处理132后，输出训练结果134。

依据本发明的实施例，语音训练模块130例如，但不限定于以存在于该段声音信号114的至少一分段时间标记，对输入的该段声音信号114进行训练处理132。模式侦测模块120可根据该特定声音事件存在于该段声音信号114中的时间段落，或是根据该至少一特定控制信号发生在该段声音信号114中的时间段落，提供此至少一分段时间标记给语音训练模块 130。输入设备110可以使用一第一输入设备，接收输入的该段声音信号 114。输入设备110也可以使用一第二输入设备，接收非声音信号。模式侦测模块120可以使用一声音事件侦测模块，侦测该段声音信号114中是否存在有一预设的特定声音事件，以及该特定声音事件存在于输入声音信号中的时间段落。模式侦测模块120也可以使用一控制信号侦测模块，侦测该非声音信号中是否存在有一特定控制信号，以及该特定控制信号发生在输入声音信号中的时间段落。

依此，图2根据本发明的一实施例，说明新增口说语汇的语音识别系统的一应用范例。在图2的应用范例中，使用一输入设备210，接收输入的该段声音信号114。模式侦测模块120使用一声音事件侦测模块(sound event module)220，侦测该段声音信号114中是否存在有一特定声音事件，以及该特定声音事件是否存在于输入声音信号中的时间段落。当存在该特定声音事件时，声音事件侦测模块220输出语音训练模式、以及存在于该段声音信号114的分段时间标记；而语音训练模块130以声音事件侦测模块 220提供的分段时间标记，对该段声音信号114进行训练处理后，输出训练结果。当不存在该特定声音事件时，声音事件侦测模块220输出语音识别模式；而语音识别模块140对整段输入声音信号进行语音识别处理，并输出辨识结果。

图3是根据本发明的一实施例，说明新增口说语汇的语音识别系统的另一应用范例。在图3的应用范例中，输入设备110使用输入设备210，接收输入的该段声音信号114，并且以另一输入设备310，接收输入的至少一非声音信号314。模式侦测模块120使用一控制信号侦测模块(control signal detection module)320，侦测该至少一非声音信号314中是否存在有至少一特定控制信号。当存在该至少一特定控制信号时，控制信号侦测模块320输出语音训练模式；而语音训练模块130对该段声音信号114进行训练处理后，输出训练结果。当不存在该至少一特定控制信号时，控制信号侦测模块320输出语音识别模式；而语音识别模块140对输入的整段声音信号进行语音识别处理，并输出辨识结果。

对一段声音信号进行训练处理有多种实现方式。例如其中一实现方式为，模式侦测模块120可侦测该至少一特定控制信号存在于输入的该段声音信号中的时间段落；控制信号侦测模块320可输出存在于输入的该段声音信号中的分段时间标记；语音训练模块130可利用该分段时间标记，对该段声音信号进行训练处理。

如上所述，根据本发明的实施例，在语音识别模式下，用户可对着一输入设备说出包含有既定的语汇内容的一段语音信号，透过模式侦测模块 120侦测到系统外部所输入的该段语音信号，并收录得到该语汇语音。由于使用者并未输入其他预设的特定声音事件或模式侦测模块120未接收到特定控制信号，因此，该段语音信号被传送至语音识别模块140中。语音识别模块140例如可参考声学模型与语汇集合(vocabulary set)进行辨识，输出辨识后的辨识结果。

根据本发明的实施例，在训练模式下，模式侦测模块120可侦测默认的特定声音事件、或是默认的特定控制信号，可取得存在于输入的该段声音信号114的分段时间标记。该段声音信号114与该至少一特定控制信号可来自不同的输入设备。根据本发明的又一实施例，该段声音信号114与该至少一特定控制信号也可来自相同的输入设备。特定声音事件可以是声音或语音形式的信号，例如是特定的关键语汇语音、语音停顿、特殊音等。特定控制信号可由一输入元件或装置传入语音识别系统100，此外部的输入元件或装置例如是，但不限定于一控制按钮或是一特定感应装置。本发明中将再以一些应用范例来说明。

如上所述，模式侦测模块120可提供辨识模式与训练模式，给予用户输入或进行操作。其中，辨识模式至少配备一组既定的语汇供使用者进行操作。在此辨识模式下，用户只需对语音识别系统100输入既定的语汇内容，语音识别模块140进行处理后，输出辨识结果。例如，在一个结合语音识别系统100的居家设备及操控系统中，语音识别系统100提供一组操控语汇，如「开灯」、「开冷气」...等，让使用者对此居家设备进行语音操控，用户对着操控系统说「开灯」，透过语音识别模块140处理得到「开灯」的辨识结果后，传递开启电灯相关的控制信号给系统进行开灯的动作。

当用户对语音识别系统100所配备的既定的语汇不习惯，或者想用其他语汇来进行操控，例如，以「点电火」语汇(台语)来取代既定的「开灯」语汇，用户可使用语音训练模式来对语音识别系统100所配备的该组既定的语汇进行语汇的新增。在该语音训练模式下，用户的输入可以是下列两种情况之一。第一种使用者的输入情况是，一带有一既定语汇、一预设的特定声音事件、以及欲取代该既定语汇的一个或重复多个新增语汇内容所形成的语音信号；第二种使用者的输入情况是，一带有一个既定语汇、欲取代该既定语汇的一个或重复多个新增语汇内容所形成的语音信号、以及可通过一装置触发默认的一特定控制信号。

上述第一种情况所指的预设的特定声音事件例如是，但不限定于一特定的关键语汇语音(例如：「就是」)、一语音停顿(例如：介于0.5秒～1秒的间静音)、一特有的语音信号(例如：弹指音、口哨声或一小段特定音乐)。声音事件侦测模块220可取得这些特定声音事件存在于该段声音信号114 的分段时间标记。例如以「就是」为关键语汇语音来做为该特定声音事件时，使用者可输入「开灯就是点电火点电火点电火」语音信号来新增与「开灯」同义的「点电火」语汇；例如以介于0.5秒～1秒的间静音的语音停顿来做为该特定声音事件时，使用者可输入「开灯...点电火点电火点电火」语音信号来新增与「开灯」同义的「点电火」语汇，其中语音停顿「...」表示一段介于0.5秒～1秒的间的静音；例如以弹指音来做为该特定声音事件时，使用者可输入「开灯Δ点电火点电火点电火」语音信号来新增与「开灯」同义的「点电火」语汇，其中「Δ」表示弹指音。

图4(A)至图4(C)分别是声音事件侦测模块220进行关键词萃取、静音侦测、以及特殊音侦测，取得这些特定声音事件存在于输入的一段声音信号的分段时间标记的范例示意图。在各图中，分段时间标记以两箭头所指来表示。在图4(A)的范例中，被萃取出的关键词是介于「开灯」语汇与「点电火」语汇之间的「就是」语汇。在图4(B)的范例中，被侦测出的静音介于「开灯」语汇与「点电火」语汇之间的时间段落。在图 4(C)的范例中，被侦测出的特殊音是介于「开灯」语汇与「点电火」语汇之间的弹指音。

上述第二种情况所指的用户通过一装置触发默认的一特定控制信号例如是，但不限定于按压一特定按钮或一个特定感应装置(例如：可感应特定手势传感器)所传入的控制信号等，此控制信号表示要进行训练模式操作的默认的一特定控制信号。例如以按压一个特定按钮来触发该特定控制信号时，用户可于输入「开灯点电火点电火点电火」语音信号期间或前后一段预设时间里按压该特定按钮来触发该特定控制信号，以新增与「开灯」同义的「点电火」语汇。图5是根据本发明的一实施例，说明控制信号侦测模块320侦测默认的控制信号，取得此默认的控制信号存在于输入的一段声音信号514的分段时间标记的一范例示意图。

图5的范例中，用户505可输入一段声音信号于输入设备210，默认的控制信号507例如可通过一控制按钮510或是一特定感应装置(未示于图式中)传入于另一输入设备520，并传送至控制信号侦测模块320。控制信号侦测模块320侦测默认的控制信号507，取得此默认的控制信号507存在于此段声音信号的分段时间标记。

上述关于用户欲进行训练模式操作的范例是以一带有一既定语汇、一预设的特定事件(声音事件或特定控制信号)以及欲训练的一个或重复多个语汇内容的顺序来描述，但实际应用上可不限于此。例如在上述训练模式以「Δ」弹指音做为特定事件的例子中，使用者也可以输入「Δ点电火开灯」语音信号来新增与「开灯」语汇同义的语汇模型「点电火」。也就是说，该特定事件不一定需要置于语音信号中的某一特定顺序或位置，欲训练的语汇内容也不一定需要限定个数(此语汇内容带有至少一语汇即可)。

换句话说，根据本发明的实施例，可藉由模式侦测模块120与语音训练模块130，将用户所输入的至少一既定语汇与至少一个欲增加与该至少一既定语汇同义的语汇所形成的至少一语音信号来训练，得到与该至少一既定语汇同义的至少一语汇模型，并建立与语音识别模块140的连结，使得可根据使用者习惯，自行建立应用语汇。如之前所载，语音识别模块140 例如可参考由多个声学模型形成的一数据库与一语汇集合进行辨识，输出辨识后的辨识结果。所以，从语音训练模块130训练而得到的至少一语汇模型可加入至该多个声学模型形成的组合，并建立该既定语汇与该语汇模型的连结，以提供语音识别模块140进行辨识时使用。

图6是根据本发明的一实施例，说明语音训练模块130进行语汇训练的一范例示意图。参考图6，用户所输入的语音或声音信号被传送至语音训练模块130中的一语汇模型训练器632，语音训练模块130可利用此语汇模型训练器632，解析用户所输入的语音或声音信号，得到含有至少一既定语汇(例如语汇-1)与至少一个未知语汇(unknown word，例如未知语汇 1与未知语汇2)的语音音段，将此至少一个未知语汇(例如未知语汇1与未知语汇2)的语音音段进行训练，从而得到一语汇模型(例如语汇模型m12)，并将此语汇模型加入至前述多个声学模型形成的一数据库634中，并建立该至少一既定语汇(例如语汇-1)与该语汇模型(例如语汇模型m12)的连结，例如在一语汇集合(vocabulary set)636中，可将语音训练而得到的该语汇模型(例如语汇模型m12)串接在该至少一既定语汇(例如语汇-1)原先对应的语汇模型(例如语汇模型m11)的后，以提供语音识别模块140进行辨识时使用。

如上所述，图7是根据本发明的一实施例，说明一种新增口说语汇的语音识别方法。参考图7，此方法可利用至少一输入设备接收多个输入信号，此多个输入信号至少包括一段声音信号(步骤710)，并利用一模式侦测模块侦测此多个输入信号(步骤720)。侦测后，有两种情况的其中一种情况，一情况为，当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括该段声音信号以外的至少一控制信号时，输出一语音训练模式(步骤732)；继步骤732之后，由一语音训练模块对该段声音信号进行一训练处理后，输出一训练结果(步骤742)。在步骤742中，例如，但不限定于以存在于该段声音信号的至少一分段时间标记，对输入的该段声音信号进行训练处理。

另一情况为，当侦测出该段声音信号中不存在该特定声音事件、并且该多个输入信号中不存在此段声音信号以外的该至少一控制信号时，输出一语音识别模式(步骤734)；继步骤734之后，由一语音识别模块对该段声音信号进行一语音识别处理后，输出一辨识结果(步骤744)。

关于语音识别、声学模型、以及语汇集合等可使用一般常见语音识别所需的知识与技术进行实施，此处不说明其实施细节。对于模式侦测模块与语汇模型训练器的实施，以下补充说明一实施例。

针对各种可能预设的特定声音事件或默认的特定控制信号，模式侦测模块对于不同的声音或语音形式的信号的实施方式会有所不同。针对各种可能预设的特定声音事件，以前述图4(A)至图4(C)为范例来说明。以图4(A)为例，当声音事件侦测模块220进行关键词萃取时，由先前得到的该段声音信号中，侦测是否含有默认的关键语汇语音(例如：「就是」)，并标示出该关键语汇语音(例如：「就是」)所在的左边界与右边界。以图4(B)为例，当声音事件侦测模块220进行静音侦测时，由先前得到的该段声音信号中，侦测该段声音信号的语音起点与语音终点之间是否含有一预设长度的静音存在。以图4(C)为例，当声音事件侦测模块220 进行特殊音侦测时，由先前得到的该段声音信号中，侦测该段声音信号是否含有一默认的特定声音(例如：弹指音)，并标示出该特定声音所在的左边界与右边界。

针对各种可能默认的特定控制信号，以前述图5为范例来说明。此时特定控制信号可以是设置于系统外部的一控制按钮或是一特定感应装置 (例如：可感应特定手势传感器)所传入的控制信号。当使用者于输入前述一带有一个既定语汇及欲取代该既定语汇的一个或重复多个新增语汇内容语音信号期间或前后一段预设时间里(如用户输入语音信号前或后1秒内)触发(例如可使用一触发信号)该特定按钮或感应装置。该特定按钮或感应装置有一连结接口与控制信号侦测模块320相接，使控制信号侦测模块 320接收到该触发信号。

当所输入的是一带有一个既定语汇、一预设的特定事件(声音事件或特定控制信号)、以及欲取代该既定语汇的一个或重复多个新增语汇语音信号时，模式侦测模块120侦测到输入的语音信号，并取得输入的语音信号。也就是当使用者输入预设的特定事件(声音事件或特定控制信号)，透过前述的声音事件侦测模块220或控制信号侦测模块320，可判别当次的操作是否为语音训练模式，以进行后续的语汇模型训练。

图8是根据本发明的一实施例，说明语汇模型训练器的元件与处理流程。语汇模型训练器632可参考图8，包含一语音切割器(speech segmentor)810、一语汇侦测器(vocabulary detector)820、一模型训练器 (model trainer)830、一语汇编辑器(vocabulary editor)840。语汇模型训练器 800可引用前述多个声学模型形成的一数据库634和语汇集合636一起执行语音训练(speech training)。语音切割器810取得所输入的既定语汇与欲取代该既定语汇的一个或重复多个新增语汇的语音段落812。取得语音段落之后，将这些语音段落分别使用语汇侦测器820进行是否为既定语汇的侦测，并为这些语音段落进行是否为既定语汇的标示，从而得到至少一个标示为未知语汇的语音段落以及一个标示含有至少一既定语汇的既定语汇内容。

通过模型训练器830将此至少一个未知语汇的语音段落进行模型训练后，可得至少一新的语汇模型832。之后，通过语汇模型编辑器840将此至少一新的语汇模型加入于前述多个声学模型形成的数据库634。并且于该语汇集合636中，依照前述所得的既定语汇内容所含的至少一既定语汇，建立一新语汇(new word)的连结，使该新语汇于语音识别时可被引用。将未知语汇的语音段落进行模型训练的实施方式有多种，其中一种模型训练器的实施方式为，将这些未知语汇的语音段落经由特征提取(feature extraction)、音节决定(syllable decision)、特征收集(feature collection)、以及模型参数调整(model parameter adjustment)，从而产生一语汇模型。

根据本发明的实施例，根据前述各种可能预设的特定声音事件，语音切割器810的做法有些调整。例如，根据图4(A)或图4(C)的范例，该关键语汇或特定声音已于声音事件侦测模块220中标示出边界，包含左边界与右边界。语音切割器810可分别于该左边界的左方与该右边界的右方进行语音段落的切割，得到如图9(A)所示的语音段落。例如，根据图4(B)或图5的范例，此时收到的语音信号除了静音信号之外，剩余的是一带有一既定语汇、以及欲取代该既定语汇的一或重复多个新增语汇内容。语音切割器810可直接就该收到的语音信号进行语音段落的切割，得到如图9(B)所示的语音段落。然后将这些语音段落分别进行是否为既定语汇的侦测。侦测既定语汇的范例说明如下。

根据一实施范例，语汇侦测器820可用关键词萃取来实施。可将每一既定语汇视为关键词，再针对前述语音段落一一进行检测是否为关键语汇，并为这些语音段落进行是否为既定语汇的标示。语音段落经关键语汇侦测后，如图4(A)的范例所示，可得到语段落为既定语汇或未知语汇的标示，此标示可利用如一语音音段收集器予以纪录。有了语音段落的标示后，可依照分派规则来进行语音段落的输入格式合法性与分派目标的判别与输出。分派规则的范例说明如下。当语音段落中，不含任何标示为既定语汇的段落、或是含有一个以上标示为既定语汇的段落，这样的语音段落都被视为不合法的输入格式，并且输出不合法输入的讯息；当语音段落中，符合仅有一个标示为既定语汇的段落以及至少一个标示为未知语汇的段落者，被视为具有合法的输入格式。之后可利用一语音段落分派器将每一标示为未知语汇的语音段落与该既定语汇内容分派给一模型训练器进行新的语汇模型训练。

语汇侦测的另一实施范例是，语音段落先通过一语音识别器辨识出可能的既定语汇后，再利用一词语验证器来对该可能的既定语汇进行词语验证，从而得到一验证分数(verification score)。当此验证分数大于一默认的门坎值时，将该语音段落标示为既定语汇，否则标示为未知语汇。可利用一语音音段收集器纪录并标示这些语音段落。之后可利用一语音段落分派器，依照上述的分派规则来进行语音段落的输入格式合法性与分派目标的判别与输出。

如之前所述，模式侦测模块120可提供辨识模式与训练模式，给予用户进行操作。其中在训练模式下，用户输入一既定语汇、以及欲取代该既定语汇的一或重复多个新增语汇语音信号，以进行操作。在实际操作上，有可能因为使用者的口音关系，使得使用者的口音所说出的既定语汇无法成功地被辨识，换句话说，在语汇侦测时，无法成功地侦测出既定语汇。第十图是根据本发明的一实施例，举一范例说明一种可避免无法成功侦测既定语汇的处理流程。在图10的范例中，准备一个已录制好可成功侦测既定语汇的语音录音1010，称为黄金语音(golden speech)。在进行训练模式的操作时，先播放该既定语汇(本例为「开灯」)的语音录音，之后，用户再说出欲新增语汇(本例为「点灯火」)，即用户语音1020，并输入此欲新增语汇至本发明的新增口说语汇的语音识别系统100中。此处理流程可以在新增语汇(训练模式)时，让既定语汇的语音可成功地被侦测，从而让使用者所输入欲取代该既定语汇的一或重复多个新增语汇的语音段落能够成功地训练出新的语汇模型。

依据本发明的一实施例，可通过拍击一语音输入设备(例如麦克风)与否，判别是辨识模式或训练模式操作。以侦测预设特殊音为例说明如下。当无拍击麦克风，并输入既有语汇的语音音段时，模式侦测模块输出辨识模式；当有拍击麦克风时，模式侦测模块输出训练模式。当有拍击麦克风时，有多种实现方式；其中一方式如，输入既有语汇的语音音段后，拍击麦克风，再输入新增语汇的语音音段；其中另一方式如，拍击麦克风，输入既有语汇的语音音段后，再拍击麦克风，输入新增语汇的语音音段；其中又一方式如，拍击麦克风，输入既有语汇的语音音段后，再输入新增语汇的语音音段。

依据本发明的又一实施例，可藉由一装置(例如按钮)的触发次数或触发方式，侦测默认的特定控制信号。以一触发次数的范例说明如下。当按一次按键，且输入语音时，模式侦测模块输出辨识模式；当按一次按键，输入一段语音，再按一次按键，再输入另一段语音时，模式侦测模块输出训练模式，其中两段语音分别代表新增口说语汇与既有语汇。以一触发方式的范例说明如下。当按一次按键后，输入语音时，模式侦测模块输出辨识模式；当按住按键，同时输入语音时，模式侦测模块输出训练模式。其中，按住按键，并同时输入语音也有多种实现方式。例如方式一为，按住按键时输入一段语音，放开按键后输入另一段语音，其中两段语音分别代表新增口说语汇与既有语汇。例如方式二为，分两次按住按键并同时输入语音，其中两次输入语音分别代表新增口说语汇与既有语汇。

综上所述，依据本发明的实施例提供一种新增口说语汇的语音识别系统与方法。其技术包含一模式侦测模块，以提供用户两种操作模式。在辨识模式的操作下，用户可对着语音处理单元说出既有语汇的语音。在训练模式的操作下，可输入上述带有一个既有语汇、一组预设的特定声音事件、以及欲取代该既有语汇的一个或重复多个新增语汇内容所形成的语音信号；或是可输入上述带有一个既有语汇、欲取代该既有语汇的一个或重复多个新增语汇内容所形成的语音信号，以及用户可藉由外部装置触发默认的一组特定控制信号。此技术提供可与语音识别器结合的口说语汇新增系统与方法，从而让用户或地区用户能根据需求来增加应用语汇。

前述新增口说语汇的语音识别方法可由一计算机可读取媒体的指令来实现。当计算机读取计算机可读取媒体的指令时，能执行前述新增口说语汇的语音识别方法。计算机可读取媒体例如为软盘、硬盘、光盘(CD)、光盘-只读存储器(CD-ROM)、光盘可覆写式(CD-RW)、只读存储器(ROM)、随机存取内存(RAM)、可抹除可规划只读存储器(EPROM)、可电气抹除可规划只读存储器(EEPROM)或闪存等。计算机可包括任何合宜的处理平台、装置或系统、运算平台、装置或系统。

以上所述者仅为依据本发明的实施范例，当不能依此限定本发明实施的范围。即大凡发明申请专利范围所作的均等变化与修饰，皆应仍属本发明专利涵盖的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 新增口说语汇的语音识别系统与方法 [P] . 中国专利： CN104934031B . 2019.03.01
2. 新增口说语汇的语音识别系统与方法 [P] . 中国专利： CN104934031A . 2015-09-23
3. Similar Term Aggregation Method and Apparatus [P] . 美国专利： US2018293294A1 . 2018-10-11

机译：相似术语汇总方法和装置
4. DEVICE AND METHOD OF INCREASING CONVERGENCE OF SPEECH FOR RESPIRATORY MASK [P] . 俄罗斯专利： RU2625929C2 . 2017-07-19

机译：增加呼吸面具言语汇聚的装置和方法
5. METHOD AND APPARATUS FOR LARGE POPULATION SPEAKER IDENTIFICATION IN TELEPHONE INTERACTIONS [P] . 世界知识产权组织专利： WO2008047339A3 . 2011-05-19

机译：电话交互中的大型人口说话人识别方法和装置