首页> 中国专利> 一种提供自动语音识别统一开发平台的系统和方法

一种提供自动语音识别统一开发平台的系统和方法

摘要

本发明公开了一种提供自动语音识别统一开发平台的系统和方法,所述方法包括以下步骤:A1.用户调用客户端的自动语音识别接口;A2.所述客户端发送自动语音识别的语法信息到服务器端;A3.所述服务器端解析所述语法信息,判断所述语法信息正确,执行步骤A4,否则不再执行后续步骤;A4.所述服务器端向所述客户端返回开始识别语音数据的请求;A5.所述客户端连接到所述服务器端,并发送用户的语音数据;A6.所述服务器端进行自动语音识别,将识别结果返回到所述客户端;A7.所述客户端向用户返回所述识别结果。从而为各运营商统一建立一套ASR资源平台,各SP可以按需使用,SP在此基础上可以很方便的在业务中集成ASR功能。

著录项

  • 公开/公告号CN101079885A

    专利类型发明专利

  • 公开/公告日2007-11-28

    原文格式PDF

  • 申请/专利权人 中兴通讯股份有限公司;

    申请/专利号CN200710076136.0

  • 发明设计人 王景平;刘斌;何悦;唐必胜;

    申请日2007-06-26

  • 分类号H04L29/06;G10L15/22;

  • 代理机构深圳市君胜知识产权代理事务所;

  • 代理人王永文

  • 地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦法务部

  • 入库时间 2023-12-17 19:24:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-09-01

    授权

    授权

  • 2008-01-23

    实质审查的生效

    实质审查的生效

  • 2007-11-28

    公开

    公开

说明书

技术领域

本发明涉及电信增值业务的自动语音识别应用,尤其涉及的是,一种提供自动语音识别统一开发平台的系统和方法。

背景技术

ASR(Auto Speech Recognize,自动语音识别)为根据事先定义的语法规则,对用户说话的内容进行识别,并输出识别结果,免去按键的烦恼;即使用语法信息的形式来识别用户的回答。系统可以根据识别的结果再结合ASR应用与用户进行交互完成比较复杂的业务。如语音电话本、自动声讯台等应用都有ASR的应用案例。

随着电信、联通、移动和网通等各大运营商增值业务的发展,大多数的业务都由SP(Service Provider,业务提供商)来完成,在SP提供的业务中,ASR资源的使用越来越广泛。目前大多的SP业务开发能力很强,但对于ASR资源的集成则比较困难,且识别服务器品牌也比较多。目前,各厂商的ASR主要由客户端和服务器两个模块组成。不同的厂商使用自定义接口,所以,对于SP来说必须针对不同厂商进行不同的开发,对于SP来说开发难度较大。如果各个SP都建设自己的ASR资源平台,还存在资源的浪费、使用不均衡问题,同时,SP各建一套对于运营商在管理上也会带来问题,无法对SP有效的监管。

因此,现有技术存在缺陷,需要改进。

发明内容

本发明的目的在于提供一种提供自动语音识别统一开发平台的系统和方法,用户可以统一使用ASR资源平台。

本发明的技术方案如下:

一种提供自动语音识别统一开发平台的方法,包括以下步骤:A1、用户调用客户端的自动语音识别接口;A2、所述客户端发送自动语音识别的语法信息到服务器端;A3、所述服务器端解析所述语法信息,判断所述语法信息正确,执行步骤A4,否则不再执行后续步骤;A4、所述服务器端向所述客户端返回开始识别语音数据的请求;A5、所述客户端连接到所述服务器端,并发送用户的语音数据;A6、所述服务器端进行自动语音识别,将识别结果返回到所述客户端;A7、所述客户端向用户返回所述识别结果。

所述的方法,其中,所述步骤A2具体包括:B1、所述客户端连接到代理服务器端、初始化用户参数;B2、所述客户端通过所述代理服务器端,发送自动语音识别的语法信息到服务器端;并且,所述步骤A4具体包括:所述服务器端通过所述代理服务器端,向所述客户端返回开始识别语音数据的请求。

所述的方法,其中,所述步骤B2之前还包括步骤:所述客户端向所述代理服务器端发送鉴权请求,鉴权成功则继续执行步骤B2,否则不再执行后续步骤。

所述的方法,其中,所述步骤A6具体包括:所述服务器端进行自动语音识别后,将识别结果通过所述代理服务器端,返回到所述客户端。

所述的方法,其中,所述步骤A6还包括:所述代理服务器端根据所述识别结果进行计费。

一种提供自动语音识别统一开发平台的系统,其中,包括客户端模块和服务器端模块;所述客户端模块包括数据发送单元和识别单元;其中,所述数据发送单元用于接受所述识别单元的控制、向所述服务器端模块发送语音数据,所述识别单元还用于为用户提供自动语音识别转换接口;所述服务器端模块用于实现用户的自动语音识别功能。

所述的系统,其中,其还包括代理服务器模块;同时,所述客户端模块还包括初始化单元,用于初始化用户参数、建立与所述代理服务器模块的连接,所述识别单元还用于向所述代理服务器模块发起自动语音识别请求和交互;所述代理服务器模块包括主控单元和协议处理单元,所述主控单元用于实现所述协议处理单元、所述客户端模块和所述服务器端模块之间的信息转发,所述协议处理单元用于处理所述自动语音识别请求、并与所述服务器端模块交互自动语音识别信息;

并且,所述识别单元还用于根据确定的所述自动语音识别信息,控制所述数据发送单元向所述服务器端模块发送语音数据。

所述的系统,其中,所述代理服务器模块还包括与所述主控单元相交互的鉴权单元,用于认证用户是否具备自动语音识别服务权限;所述识别单元还用于携带用户的鉴权请求;所述主控单元还用于将所述鉴权请求信息发送给所述鉴权单元,得到鉴权结果,并返回给所述识别单元。

所述的系统,其中,所述代理服务器模块还包括与所述主控单元相连接的计费单元,用于对自动语音识别过程进行计费。

所述的系统,其中,所述代理服务器模块分别和所述客户端模块、所述服务器模块通过TCP/IP协议连接,所述客户端模块和所述服务器模块通过TCP/IP协议通讯。

采用上述方案,本发明为各运营商统一建立一套ASR资源平台,各SP可以按需使用,SP在此基础上可以很方便的在业务中集成ASR功能,同时ASR资源统一调配使用,大大提高资源的利用率,运营商可以对SP使用ASR资源计费,这种资源平台建设模式既减少了总体投入成本,又促进了增值业务发展,可以真正实现了SP和运营商的双赢。可广泛应用于电信、移动、联通的基于语音的业务范畴,完成各种语音识别的相关业务,如语音电话本、自动声讯台等,可以提高运营商资源的利用率和系统安全性。本发明采用了分层架构,整个系统可扩展性强,ASR客户端模块、代理服务器模块和ASR服务器模块均可根据容量进行扩容,同时还具备了容量大的特点。

附图说明

图1为本发明系统的ASR统一开发平台原理示意图;

图2为本发明系统的ASR统一开发平台结构示意图;

图3为本发明方法的ASR统一开发平台系统ASR识别处理流程图;

图4为本发明系统的ASR统一开发平台具体实施示意图;

图5为本发明方法的流程图。

具体实施方式

本发明提供了ASR平台系统及方法,可以向第三方提供统一的ASR开发接口,实现ASR功能,并对第三方进行计费。以下对本发明的较佳实施例加以详细说明。

如图5所示,本发明提供了一种提供自动语音识别统一开发平台的方法,包括以下步骤。

A1、用户调用客户端的自动语音识别接口;

A2、所述客户端发送自动语音识别的语法信息到服务器端;

A3、所述服务器端解析所述语法信息,判断所述语法信息正确,执行步骤A4,否则不再执行后续步骤;

A4、所述服务器端向所述客户端返回开始识别语音数据的请求;

A5、所述客户端连接到所述服务器端,并发送用户的语音数据;

A6、所述服务器端进行自动语音识别,将识别结果返回到所述客户端;

A7、所述客户端向用户返回所述识别结果。

在具体实施中,一种实施方式是,所述步骤A2可以具体包括:

B1、所述客户端连接到代理服务器端、初始化用户参数;所述用户参数可以包括用户名、密码、IP地址等等;

B2、所述客户端通过所述代理服务器端,发送自动语音识别的语法信息到服务器端。

并且,所述步骤A4具体包括:所述服务器端通过所述代理服务器端,向所述客户端返回开始识别语音数据的请求。

此时,具体实施中,在所述步骤B2之前还可以包括鉴权步骤:所述客户端向所述代理服务器端发送鉴权请求,鉴权成功则继续执行步骤B2,否则不再执行后续步骤。

在实施代理服务步骤的基础上,步骤A6具体可以包括:所述服务器端进行自动语音识别后,将识别结果通过所述代理服务器端,返回到所述客户端。还可以包括后续步骤:所述代理服务器端根据所述识别结果进行计费,从而可以实现对客户端的计费功能。

并且,如图1所示,本发明还提供了一种提供自动语音识别统一开发平台的系统,该系统的第一种实施方式包括客户端模块和服务器端模块;所述客户端模块包括数据发送单元和识别单元;其中,所述数据发送单元用于接受所述识别单元的控制、向所述服务器端模块发送语音数据,所述识别单元还用于为用户提供自动语音识别转换接口;所述服务器端模块用于实现用户的自动语音识别功能。

在第一种实施方式的基础上,还可以提出所述系统的第二种实施方式,该系统还可以包括代理服务器模块;同时,所述客户端模块包括数据发送单元、识别单元和初始化单元,所述初始化单元用于初始化参数、建立与所述代理服务器模块的连接;此时,所述识别单元还用于向所述代理服务器模块发起自动语音识别请求和交互。

此时,所述代理服务器模块具体包括主控单元和协议处理单元,所述主控单元用于实现所述协议处理单元、所述客户端模块和所述服务器端模块之间的信息转发,所述协议处理单元用于处理所述自动语音识别请求、并与所述服务器端模块交互自动语音识别信息;并且,所述识别单元还用于根据确定的所述自动语音识别信息,控制所述数据发送单元向所述服务器端模块发送语音数据。

在第二种实施方式的基础上,还可以提出所述系统的第三种实施方式,所述代理服务器模块还可以包括与所述主控单元相交互的鉴权单元,用于认证用户是否具备自动语音识别服务权限;此时,所述识别单元还用于携带用户的鉴权请求;并且,所述主控单元还用于将所述鉴权请求信息发送给所述鉴权单元,得到鉴权结果,并返回给所述识别单元。

在第三种实施方式的基础上,还可以提出所述系统的第四种实施方式,所述代理服务器模块还可以包括与所述主控单元相连接的计费单元,用于对自动语音识别过程进行计费。

本发明系统的一个实施例如图1所示,其由ASR客户端模块、代理服务器模块、ASR服务器模块三个模块组成。ASR客户端模块与代理服务器模块间通过TCP/IP协议连接;代理服务器模块与ASR服务器模块间通过TCP/IP协议连接;ASR客户端模块与ASR服务器模块间通过TCP/IP协议通讯。以下对各模块的功能进行具体描述。

如图2所示,所述ASR客户端模块,主要包括ASR初始化单元、ASR识别单元和ASR数据发送单元。其中,ASR数据发送单元是利用现有技术。具体的说,

所述ASR初始化单元功能是完成与所述代理服务器模块TCP连接的建立、参数初始化;

所述ASR识别单元功能是对用户提供ASR转换接口,实现用户鉴权信息的生成,向所述主控单元发起鉴权请求,根据用户输入的识别语法信息向所述代理服务器模块的主控单元发起ASR请求,与所述主控单元进行识别过程协议交互并指示所述ASR数据发送单元向所述ASR服务器模块发送语音数据进行识别;

所述ASR数据发送单元功能是根据所述ASR识别单元的指示向所述ASR服务器模块发送语音识别所需要的语音数据。

如图2所示,所述代理服务器模块主要包括主控单元、ASR协议处理单元、鉴权单元和计费单元。具体的说,

所述主控单元功能是完成本模块内部各单元消息的转发,与ASR客户端模块和ASR服务器模块进行消息转发;

所述ASR协议处理单元功能是响应来自ASR客户端模块的ASR请求,对ASR内部协议进行解析,分配内部资源,向ASR服务器模块发起ASR转换请求;

所述鉴权单元功能是根据ASR识别单元带上的鉴权信息进行用户鉴权,与ASR服务器模块之间进行ASR链路建立,向ASR客户端模块返回鉴权结果;

所述计费单元功能是对ASR识别过程进行计费。

所述ASR服务器模块,用于实现ASR的识别功能,为各ASR服务厂商均提供标准的MRCP协议。

本发明系统的又一个实施例的处理流程如图3所示,具体说明如下:

第一步:用户(包括SP)调用ASR识别相关接口函数。所述ASR初始化单元向所述代理服务器模块进行TCP连接的建立及参数的初始化。

第二步:所述ASR识别单元将组织鉴权信息和ASR识别语法信息向所述主控单元发起鉴权请求。所述主控单元解析鉴权请求,并转发给所述ASR鉴权单元,如果鉴权成功,则进入第三步,否则,向所述ASR识别单元返回鉴权错误信息。

第三步:所述主控单元向所述ASR服务器模块发送需要的ASR识别语法信息,如果ASR服务器模块解析语法正确,则向所述ASR识别单元返回开始识别请求。

第四步:所述ASR数据发送单元向所述的ASR服务器模块发送语音数据。

第五步:所述ASR服务器模块接收语音数据,进行识别并将识别结果返回给所述主控单元,所述主控单元将根据识别结果则进行计费,同时,将识别结果返回给所述ASR识别单元。

第六步:所述ASR识别单元向用户返回结果。

本发明的系统由三个模块组成,如图2所示,ASR客户端模块、代理服务器模块和ASR服务器模块。实际应用中,ASR客户端一般是多个,最多支持上百个;根据实际情况,代理服务器模块和ASR服务器模块由多个组成,下面以三个ASR客户端模块,一个代理服务器模块和二个ASR服务器模块为例,说明ASR统一开发平台的一种具体实施方式,如图4所示。需要说明的是,实际应用中,也可以有多个代理服务器模块。

ASR客户端模块,功能是向SP提供ASR识别接口,为了SP使用方便,接口函数采用了成熟的同步操作机制,由一个函数完成初始化,识别工作所述ASR初始化单元完成与所述代理服务器模块TCP连接的建立和初始化;所述ASR识别单元完成用户鉴权信息和ASR语法请求的封装,并向所述代理服务器模块发送ASR请求,与所述代理服务器进行MRCP协议(媒体录制控制协议)交互。多个ASR客户端模块可由运营商统一分配用户名密码,如果更严格一些可以将IP与用户名一起绑定进行鉴权。各ASR客户端模块间是相互独立的。

代理服务器模块,功能是对各SP的ASR请求进行鉴权认证,只有申请此功能的SP才能进行ASR转换,保证SP的合法性;对ASR请求进行协议解析,对来自SP的ASR请求进行内部资源的分配及路由,维护ASR服务器的负荷并进行负荷分担,转发ASR请求到相应的ASR服务器;根据ASR识别结果进行计费,计费方式可按识别占用服务器资源时长计费、可识别次数计费等方式,计费单元可以使用标准的AAA(Authenticate/Authorize/Account)服务器进行计费也可以使用内部协议进行计费。代理服务器模块根据话务情况可以配置一个也可以配置多个。实际上,由于ASR采用的传输协议是标准的MRCP协议,所以,在不需要对用户进行认证的情况下,此处的代理服务器也可以不用,由ASR客户端直接与ASR服务器进行协议交互。

ASR服务器模块,功能是对来自代理服务器模块的ASR请求进行响应,并进行识别,接收来自ASR客户端的语音数据并返回识别结果。根据具体现实情况ASR服务器模块可以一套也可多套,多套间由代理服务器模块进行负荷分担处理。如图4所示,为两套ASR服务器模块提供ASR服务。

下面结合附图3、图4对ASR统一开发平台的使用方法及处理流程进行详细说明。

第一步,如图4所示,在这个系统SP业务提供商有两个SP1和SP2,SP通过调用ASR客户端模块的接口函数ASRInit(),向代理服务器的主控单元发起初始化请求,建立与代理服务器的连接。

第二步,SP调用ASR客户端模块提供的ASR识别接口函数DoASR()组织用户名、密码等信息为鉴权请求,并且组织语法信息。

第三步,ASR识别单元发送ASR识别请求到代理服务器模块的主控单元。

第四步,主控单元接收到ASR命令后,先解析ASR的鉴权请求,后转发给鉴权单元进行鉴权,如果成功则进入第五步,否则,向相应的ASR识别单元返回错误。

第五步,主控单元将ASR开始请求转发给ASR协议处理单元,ASR协议处理单元收到此命令后,首先分配内部通道资源,然后根据如图4所示的两个ASR服务模块的负荷情况决定由哪个ASR服务器模块来负责此次ASR识别,即完成ASR服务器模块的分配,将ASR识别请求封装为MRCP协议转发给ASR服务器模块分配ASR通道资源和解析识别语法,如果成功则通过主控单元向ASR识别单元返回,并进入第六步,否则,向ASR识别单元返回错误。

第六步,ASR识别单元指示ASR数据发送单元向相应的ASR服务器模块发送识别需要的语音数据。

第七步,用户调用接口函数向相应的ASR服务器模块发送识别需要的语音数据,其中,该接口函数可由ASR数据发送单元提供。

第八步,ASR服务器模块按语法对语音进行识别,并将识别结果返回给主控单元,主控单元根据识别结果进行计费,同时向ASR识别单元返回识别结果。

本发明提出的系统平台可以给运营商统一建立一套ASR资源平台,各SP可以按需使用,SP在此基础上可以很方便的在业务中集成ASR功能,这样SP可以专注于业务的开发而不必关心底层的技术实现,同时ASR资源统一调配使用,大大提高资源的利用率,运营商可以对SP使用ASR资源计费,可以很快收回投资成本。因此,这种资源平台建设模式既减少了总体投入成本,又促进了增值业务发展,可以真正实现了SP和运营商的双赢。

该统一ASR开发平台可广泛应用于电信、移动、联通的基于语音的业务范畴,适用于通信、金融、医院、集团公司和其他电话服务行业,如银行、电信运营商Call Center业务、医院的挂号服务业务、各种增值服务业务、企业的客户服务业务以及各种公共的电话服务业务。通过为运营商提供统一的ASR开发平台,由SP进行基于ASR的业务开发,完成各种语音识别的相关业务,如语音电话本、自动声讯台等,可以提高运营商资源的利用率和系统安全性。

并且,本发明的系统采用了分层架构,整个系统可扩展性强,其中的ASR客户端模块、代理服务器模块和ASR服务器模块均可根据容量进行扩容,因此该系统还具备容量大的特点。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号