首页> 中国专利> 一种将语音文件转换成文本文件的方法

一种将语音文件转换成文本文件的方法

摘要

一种将语音文件转换成文本文件的方法,包括如下步骤:(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度至少包含50个字;(2)由使用者识别,输入相应的文字,获得用于训练的语音文件和对应的文本文件;(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;(4)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。

著录项

  • 公开/公告号CN1371090A

    专利类型发明专利

  • 公开/公告日2002-09-25

    原文格式PDF

  • 申请/专利权人 苏州孔雀电器集团有限责任公司;

    申请/专利号CN02112819.7

  • 发明设计人 倪苏平;丁祁正;

    申请日2002-03-25

  • 分类号G10L15/00;

  • 代理机构苏州创元专利事务所有限公司;

  • 代理人陶海锋

  • 地址 215001 江苏省苏州市齐门路平家巷20号

  • 入库时间 2023-12-17 14:23:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2008-05-21

    专利权的终止(未缴年费专利权终止)

    专利权的终止(未缴年费专利权终止)

  • 2004-08-18

    授权

    授权

  • 2002-12-25

    实质审查的生效

    实质审查的生效

  • 2002-09-25

    公开

    公开

  • 2002-06-26

    实质审查的生效

    实质审查的生效

说明书

                        技术领域

本发明涉及一种语音识别方法,特别是一种自适应的语音识别方法,可以直接处理识别语音文件,并将其转换成文本文件。

                        背景技术

计算机的广泛应用,推动了语音识别研究的进展,特别是近二十多年来,随着隐马尔可夫模型(HMM)理论的提出及逐步工程化,研究者们利用隐马尔可夫模型建立的语音识别系统,已有部分进入商业应用。作为商业应用的语音识别系统,通常包括与讲话人无关的基本的语音识别器,由于不同的使用者的发音有较大的差别,必须对该基本的语音识别器进行训练,利用语音自适应技术对特定用户的语言参数重新估计,以获得讲话者相关的语音识别器,这里的自适应技术可以是最大后验自适应(MAP)或最大似然线性回归自适应(MLLR),这类技术已在商业化的语音识别器中应用。

目前对语音识别器进行训练的方法一般是,由识别器附带若干精选的标准文本,使用者朗读标准文本,识别器经过对使用者语音的实时采集和分析,重新估算与使用者相关的声学模型参数,生成与使用者相关的语音识别器(例如IBM Via Voice,Dragon Naturally Speaking,Kurzwill)。这种方法,由于使用者的语音与标准语音差别较大,同时,声学特性矢量在不同的语音前后关系中表现出明显变化,因而如果使用者的语音带有方言口音,或者语言涉及比较专业的领域时,要提高识别率,训练量是很大的。为减小训练量,中国发明专利申请CN1298533A公开了一种用于特殊领域或方言的语音识别器,该识别器在提交用户使用之前,首先采集方言或特殊领域的语言数据,采用讲话人自适应技术对基本语音识别器进行处理,重新估计HMM参数,以获得与讲话人无关的方言或特殊领域的语音识别器,作为商业销售的产品,这种产品由于针对某种方言或特殊领域(如化工技术)进行了参数调整,当提供给该方言或特殊领域的使用者使用时,由于与使用者的语音差别相对较小,可以减少所需的训练量。

不管如何,为达到一定的识别率要求,特定的语音识别使用者必须对商业化的语音识别器进行训练。上节中提供的两类系统,在提交用户使用后的训练阶段都是一样的,即由识别器提供预先准备好的标准文本,用户根据识别器的指示朗读注册文本,通过语音自适应技术重新估计语音参数,生成与该用户相关的语音识别器。这种方法,通常用于语音输入领域,作为一种输入方法使用时,用户可以预先对语音识别器进行训练,但是,当用于识别预先存储好的语音文件(如演讲、讲课、采访的录音等)时,请讲话者来对语音识别器进行训练是不现实的,而且,由于汉语的方言众多,即使讲话者是用普通话讲的,常常也带有较重的地方口音,这使得未经训练的标准语音识别器难以准确识别;同时,即使是采用某种方言的语音识别器,由于汉语方言的地域区别很大(如以苏南地区为例,不但相邻的苏州和无锡两市的口音不同,苏州市和下属县级市的口音也不同,甚至如苏州的吴中区内也有多种方言),未经训练的方言语音识别器也无法准确识别邻近地域的方言。

因此,用现有的语音识别器训练方法,无法实现对语音文件的识别转换,即使勉强使用自带的标准识别器,识别率也很低,不能达到实用的要求。一旦能解决这个问题,语音识别技术将不再只是一种代替键盘的即时输入技术,而能方便地将演讲、讲课、采访的录音等转换成文字,因而有着巨大的应用前景。

                        发明内容

本发明目的是提供一种将语音文件转换成文本文件的方法,能够利用语音文件对语音识别器进行训练,使语音识别器对语音文件有较高的识别率。

为达到上述目的,本发明采用的技术方案是:一种将语音文件转换成文本文件的方法,包括如下步骤:

(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度至少包含50个字;

(2)由使用者识别,输入相应的文字,获得用于训练的语音文件和对应的文本文件;

(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;

(4)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。

上述技术方案中,所述的“语音播放器”用于将语音文件转换成声音播放,供使用者识别输入,语音播放器既可以是带有声卡和喇叭(或耳机)的计算机,也可以采用数码录、放音装置如数码录音机等;所述的“带有语音识别器库的基本的语音识别器”是指可销售的语音识别器,这类识别器一般已由厂家进行了标准的训练,可以识别至少一种标准语音,如标准普通话或某种方言;所述的“语音自适应技术”是现有技术,可以采用隐马尔可夫模型(HMM),用最大归纳自适应技术(MAP)或最大似然线性回归自适应技术(MLLR)进行语音自适应参数调整,并且可以选择性地执行贝叶斯平滑。

上述技术方案中,可以包括下述可选步骤,即在所述第3步骤后,用调整参数后的语音识别器判断识别文件,如识别率未达到规定要求,则重复步骤1到3,进行再次的改进训练直至识别率达到规定要求。这里的识别率规定要求,一般是指识别率的基本要求,可以由用户设定,通常选择在70%-90%,达到该识别率要求时,系统将自动进入识别阶段,如果达不到该设定要求,系统会提示进行再次训练;当然,在达到设定要求的情况下,系统仍可以应用户的要求进行再次的训练。

上述技术方案中,所述步骤1中播放语音文件的长度为播放50至250个字;所播放的该部分语音文件,可以位于待转换文件的起始,也可以位于待转换文件的中间,还可以位于待转换文件的结尾处。为便于使用者识别输入,在所述步骤1中可以采用调速播放软件播放所述语音文件,使播放速度与使用者录入对应文字的速度相一致。

上述技术方案中,在步骤2中所述的文字输入,可以采用键盘输入,也可以采用手写板输入。输入只是为了获得对照用的文本文件,输入方式可以采用现有的任一种输入法,甚至,如果使用者的语音输入识别率很高的话,也可以采用语音输入方法。

上述技术方案中,所述步骤3中的语音识别器库可以是标准普通话库,也可以是方言库,还可以是用于特定行业领域的语音库。

为进一步提高识别率及扩展适用的范围,可以采用的另一种技术方案是,所述步骤3中的基本的语音识别器可以带有至少2个语音识别器库,所述步骤3可以分解为,首先根据训练文件判断选择较接近的语音识别器库,再对该语音识别器库采用语音自适应技术重新估计语音参数。

上述技术方案中,所述的“选择较接近的语音识别器库”,可以由系统自动选择,也可以由用户根据情况指定,这里的语音识别器库,可以包括应用于一般领域的标准普通话库、一些常用的方言库、某些特殊领域的普通话库,以及特殊领域的方言库。

上述技术方案中,在经过3次训练未能达到基本识别率时,判定为语音识别器库选择错误,重新选择语音识别器库并利用存储的3次训练文件对该语音识别器库进行训练识别。在无法达到基本识别率时,可以给用户发出提示,由用户选择是否接受较低识别率的识别。

上述技术方案中,所述的语音识别器库可以包括标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库。

本发明工作原理是:在汉语言的识别过程中,会遇到非常多的方言,还有不标准的方言,以及方言与普通话的某种混合体,因而大大提高了识别的难度,对于预先录制的语音文件,如果不经训练直接识别,识别率会非常低(除非讲话者的口音较标准,这种情况是很少见的),而如现有技术般请讲话者来对语音识别器进行训练是不可行的。本发明为此进行了反向思维,将录音的一小部分内容通过人的识别输入到计算机中,代替原来使用的标准文本,用于对语音识别器进行训练,从而达到了训练的目的,可以大大提高对语音文件的识别率,使其进入实用阶段。另一方面,汉语言虽然方言繁多,但从语音分类上来讲,大体可以分为官话区、吴语区(有时也细分为吴语区和越语区)、川语区、粤语区和闽南语区,各个方言区内的方言虽然仍存在发音的不同,但通常其发音较为类似,语法结构相同,因此,可以用某一语区中较有代表性的方言制成该语区的语音库,对于识别该语区的方言来说,采用该语音库,其识别率和学习的难度将大大低于采用标准普通话库。这样,本发明提供了进一步的技术方案,即基本的语音识别器可以带有多个语音识别器库,一个通用的系统中可以带有标准普通话库及上述各种方言库,在识别时,首先用自动或人工的方式选择一种比较接近的语音识别器库,以获得较高的识别率及较低的训练强度。

由于上述技术方案运用,本发明与现有技术相比具有下列优点:

1、由于本发明利用录制好的语音文件进行反向训练,不需要讲话者到场对识别器进行训练,因而利用本发明方法制成的系统,其使用者不必是讲话者,特别适用于对录制的演讲、讲课、采访等内容识别成文本文件进行整理;

2、由于本发明语音至文本的转换是非实时的,对计算机硬件配置、运算速度等要求不高;另一方面,如果计算机配置较好,可以对语音文件快速处理,不必象现有技术那样使用与讲话基本相同的时间进行转换,提高了使用效率。

                         附图说明

附图1为本发明实施例一的方法流程图;

附图2为实施例一中语音识别器的工作原理图。

                      具体实施方式

下面结合附图及实施例对本发明作进一步描述:

实施例一:参见附图1和图2所示,一种将语音文件转换成文本文件的方法,包括如下步骤:

(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度包含50至250个字,播放位置由用户指定,所述语音播放器采用调速播放软件,播放速度由用户调节至与使用者录入对应文字的速度相一致;

(2)由使用者识别,输入相应的文字,获得用于训练的语音文件和对应的文本文件,使用者可以采用键盘输入方法,也可以采用手写板输入;

(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;

(4)用调整参数后的语音识别器判断识别文件,如识别率未达到规定要求,则重复步骤1到3,进行再次的改进训练直至识别率达到规定要求。

(5)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。

实施例二:一种将语音文件转换成文本文件的方法,包括如下步骤:

(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度至少包含50个字;

(2)由使用者识别,输入相应的文字,获得用于训练的语音文件和对应的文本文件;

(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;所述基本的语音识别器带有6个语音识别器库,分别为标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库,首先根据训练文件判断选择较接近的语音识别器库,再对该语音识别器库采用语音自适应技术重新估计语音参数。

(4)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号