首页> 中国专利> 用于自动生成声音文档以及提供声音文档的方法和系统

用于自动生成声音文档以及提供声音文档的方法和系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出了一种用于自动生成声音文档的方法和系统以及用于提供声音文档的方法和系统。所述自动生成声音文档的方法包括以下步骤：一实时交互式语音应答系统根据信息表单向用户发送提问信息，其中所述信息表单包括分类选择信息槽和至少一个录音片断信息槽；通过所述分类选择信息槽接收用户的分类选择信息，以及通过所述至少一个录音片断信息槽接收用户的录音片断；以及对以上所接收到的信息进行组合而生成声音文档。所述提供声音文档的方法通过信息索取方式或信息派发方式来实现。

著录项

公开/公告号CN101242452A

专利类型发明专利
公开/公告日2008-08-13

原文格式PDF
申请/专利权人国际商业机器公司;
展开▼

申请/专利号CN200710007010.8
发明设计人双志伟;施勤;秦勇;孟繁平;
展开▼

申请日2007-02-05
分类号H04M3/493;H04M3/50;
代理机构北京市中咨律师事务所;
代理人于静
地址美国纽约
入库时间 2023-12-17 20:36:43

法律信息

法律状态公告日

法律状态信息

法律状态
2013-01-23

授权

授权
2008-10-08

实质审查的生效

实质审查的生效
2008-08-13

公开

公开

说明书

技术领域

本发明一般涉及声音文档处理，具体而言，本发明涉及一种用于自动生成声音文档的方法和系统以及用于提供声音文档的方法和系统。

背景技术

呼叫中心(Contact Center)，又称客户服务中心，是指综合利用先进的通信及计算机技术，对信息和物资流程优化处理和管理，集中实现沟通、服务和生产指挥的系统。通常，呼叫中心的工作人员被称为业务代表。一个呼叫中心可以由几百个甚至几千个业务代表组成。而小企业或大企业的小部门也可以根据需要，非常经济地建立只有几个业务代表的小型呼叫中心。

呼叫中心具有如下特点：

1.对用户能力的要求简单。呼叫中心仅要求用户具有听说的能力，无论老人孩子，都可以和业务代表直接交谈，或根据语音提示，得到自己感兴趣的信息。

2.节约开支。呼叫中心统一完成了语音与数据的传输，用户通过语音提示即可以很轻易地获取数据库中的数据，有效地减少每一个电话的长度。同时每一位业务代表在有限的时间内可以处理更多个电话，大大提高电话处理的效率及电话系统的利用率。

3.延长服务时间。呼叫中心能够每天24小时不间断地随时提供服务，用户只要通过电话就能迅速获得信息，解决问题方便、快捷。

4.提高客户服务质量。呼叫中心具有友好的服务界面，可不间断地提供礼貌而热情的服务。而且由于电话处理速度的提高，大大减少了用户在线等候的时间。在用户呼叫到来的同时，呼叫中心系统即可根据主叫号码或被叫号码提取出相关的信息传送到业务代表的终端上。这样，业务代表在接到电话的同时就得到了很多与这个用户相关的信息，简化了电话处理的程序。

呼叫中心服务对于企业来说非常重要，但这是一种主要为劳动密集型的服务。呼叫中心仅在北美就雇佣了超过600万人，并且此人数有望在2010年达到1200万人。即使按照呼叫中心的业务代表的最低年薪为两万美金来估算，仍然意味着每年平均在呼叫中心的人力上花费超过1200亿。对于诸如美国国际商业机器公司(IBM)这样的大型公司来说，其通过呼叫中心直接面对客户的业务代表可能超过4万人；这在IBM的所有雇员中占有了过高的比例。而根据IBM的呼叫中心和商务咨询服务的统计信息，基于呼叫中心的服务的成本中大约80％-90％为人力成本。因此，怎样降低呼叫中心的成本并提供高质量的服务成为一种极大的挑战。

在现有的呼叫中心的一种实现方式中，呼叫中心的运营常常是这样的流程：用户拨通电话，业务代表与用户进行语音交互，并由业务代表将用户反映的问题快速记录下来，再根据所记录的问题相应地进行回答或进一步的处理，例如提交给高级部门或者转给专业人员。由于信息记录常常是由业务代表手动完成的，因此无法保证所记录信息的完整性、连续性和一致性，这样，在继续将这些记录信息传达给专业人员时，可能造成信息丢失或错误，从而导致反复进行问题确认或无效的工作。这既不利于第三方了解和处理该问题，也不利于将这些信息或问题进行统计。有些呼叫中心会对用户的呼叫进行全程录音，但这些录音主要用于监督业务代表的服务质量以及在发生投诉或其它情形中作为证据，而它们无法被分类、检索和统计汇总。因此，这样实现的呼叫中心无法有效地在技术上降低人力成本并提高效率。

在呼叫中心的另一种实现方式中，将用户的呼叫进行全程录音，并进行语音到文本转换。这样可以解决在业务代表进行全程记录的情形中所产生的问题。然而，利用现有的语音到文本的转换技术，对于无法预知的语音内容，识别的错误率相当高，转换精度非常低，这导致转换后的文本内容不具有可读性，从而无法被进一步处理。因此，这种实现方式可操作性较差，或者说其有效实现还有赖于语音到文本的技术的进一步提高。

发明内容

在呼叫中心的所有主要业务中，两种重要的功能是处理客户的投诉和修理请求。对于这两种功能，将客户的问题、地址和联系信息进行语音存档是非常有用的。由于这些内容是离散的，因此当前的语音到文本转换技术无法达到足够的语音转换精度。因此，这些功能目前都是由业务代表进行人工支持。从而，为了降低呼叫中心的劳动力成本，克服上述呼叫中心实现方式的技术缺陷，实现对于呼叫中心的某些业务的自动解决方案，提高工作效率，提出了本发明。

根据本发明的一个方面，提出了一种一种用于自动生成声音文档的方法，包括以下步骤：一实时交互式语音应答系统根据信息表单向用户发送提问信息，其中所述信息表单包括分类选择信息槽和至少一个录音片断信息槽；通过所述分类选择信息槽接收用户的分类选择信息，以及通过所述至少一个录音片断信息槽接收用户的录音片断；以及对以上所接收到的信息进行组合而生成声音文档。

根据本发明的另一个方面，提出了一种用于提供声音文档的方法，所述声音文档是所述用于自动生成声音文档的方法生成的，所述用于提供声音文档的方法包括以下步骤：为信息获取者建立注册机制和个人信息简档；在信息获取者试图索取声音文档时对其进行认证；以及允许通过认证的信息获取者访问相应的声音文档。

根据本发明的另一个方面，提出了一种用于提供声音文档的方法，所述声音文档是所述用于自动生成声音文档的方法生成的，所述用于提供声音文档的方法包括以下步骤：为信息获取者建立注册机制和个人信息简档；以及将声音文档派发给相应的信息获取者，或者通知相应的信息获取者来访问声音文档。

根据本发明的再一个方面，提出了一种用于自动生成声音文档的系统，所述系统包括：信息表单存储装置，用于存储信息表单，所述信息表单包括分类选择信息槽和至少一个录音片断信息槽；提问装置，用于允许实时交互式语音应答系统根据所述信息表单向用户发送提问信息；信息接收装置，用于通过所述分类选择信息槽来接收用户的分类选择信息，以及通过所述至少一个录音片断信息槽来接收用户的录音片断；以及声音文档生成装置，用于对以上所收集到的信息进行组合而生成声音文档。

根据本发明的再一个方面，提出了一种用于提供声音文档的系统，所述声音文档是由所述用于自动生成声音文档的系统生成的，所述用于提供声音文档的系统包括：注册装置，用于为信息获取者建立注册机制和个人信息简档；认证装置，用于在信息获取者试图索取声音文档时对其进行认证；以及访问装置，用于允许通过认证的信息获取者访问相应的声音文档。

根据本发明的再一个方面，提出了一种用于提供声音文档的系统，所述声音文档是由所述用于自动生成声音文档的系统生成的，所述用于提供声音文档的系统包括：注册装置，用于为信息获取者建立注册机制和个人信息简档；以及派发装置，用于将所生成的声音文档派发给相应的信息获取者，或者通知相应的信息获取者来访问该声音文档。

根据本发明又一个方面，提出了一种可被加载到计算机上的包括程序代码工具的计算机程序产品，当所述计算机程序产品在计算机上运行时，所述程序代码工具适于执行所述用于自动生成声音文档的方法以及所述用于提供声音文档的方法的所有步骤。

本发明所提出的用于自动生成声音文档以及提供声音文档的方法和系统提供了对声音文档的自动化处理和进行提供的创造性方案，提高了呼叫中心的工作效率，并有效降低了劳动力成本。

附图说明

在附带的权利要求中阐明了被认为是本发明新颖特性的特征。然而，通过参考以下结合附图的阐述性实施例的详细描述，将最好地理解本发明本身以及其优选使用模式、另外的目标和优点，在附图中：

图1A是根据本发明实施例的信息表单的示例性图示；

图1B是根据本发明实施例的信息槽的结构实例的图示；

图2描述了根据本发明实施例的自动生成声音文档的方法的流程图；

图3描述了根据本发明实施例的利用信息索取方式来提供声音文档的方法的流程图；

图4描述了根据本发明实施例的利用信息派发方式来提供声音文档的方法的流程图；

图5描述了根据本发明实施例的自动生成声音文档的系统；

图6描述了根据本发明实施例的用于提供声音文档的系统；以及

图7描述了根据本发明实施例的自动生成声音文档以及提供声音文档的方法和系统的整体操作示意图。

注意，在全部附图中，用相同的标号来表示相同或相似的部件或单元。

具体实施方式

本发明涉及用于呼叫中心的自动生成声音文档的方法和系统以及用于提供声音文档的方法和系统。通过本发明，可以通过与客户的语音交互来自动生成声音文档并提供声音文档。所述声音文档包含与客户有关的关键信息，例如，问题分类、问题描述、地址和联系信息等。针对呼叫中心的特定的若干功能，诸如处理客户投诉和修理请求，本发明的方法和系统可以用自动和高效的方式来进行处理，从而替代呼叫中心的人工业务代表。因此，这样可以极大地降低呼叫中心成本，同时克服了现有技术中呼叫中心的缺陷。因此，本发明创建了用来提供优质、高效服务的呼叫中心的创新模型。

本发明所要生成的声音文档是基于信息表单实现的。因此，在详细描述本发明的方法和系统之前，首先要对信息表单进行必要的描述。现在参见图1A，图1A是根据本发明实施例的信息表单100的示例性图示。信息表单100被设计为主要包括三种信息槽：分类选择信息槽110、录音片断信息槽120和声音文档信息槽130。其中，分类选择信息槽110和录音片断信息槽120是必须的，用于收集信息。而声音文档信息槽130是可选的，它是由分类选择信息槽110和录音片断信息槽120的信息进行重组而生成的。除了以上三种信息槽之外，信息表单100中还可以包括一个或多个辅助信息槽140，如时间标签信息槽、索引信息槽等。每一辅助信息槽均关联于相应的声音文档信息槽。这样，在声音文档信息槽被访问的时候，辅助信息有助于对其进行检索，并可提供更多的相关信息。优选地，可以为信息表单100中的每个信息槽加上一个特定标识信息，以方便信息的检索和编辑。优选地，可以为信息表单100中的某些信息槽(如分类选择信息槽110和录音片断信息槽120)加上说明信息。优选地，这些说明信息可以被用以生成与用户交互的提示信息。

所述信息表单可以作为数据库的单一信息单元进行存储，而每个信息槽则作为该信息单元的数据元进行存储。所述信息表单也可以用开发者自定义的文件格式进行存储，如可以将每个信息表单作为单一文件存储，也可以将所有信息表单作为一个大文件进行存储。

具体而言，信息表单100中的分类选择信息槽110用来收集用户的分类选择信息。这类信息的一个重要特征是：所有可能的选择均属于某个特定集合，这些选择可以被一一枚举。这一特定集合是由服务提供商预先定制好的。用户只能从这个特定集合中做出选择。这样做的好处之一在于，对于限定集合的语音识别来说，现有技术可以达到相当高的精度。该集合的大小一般不能过大，因为集合的大小会对语音识别的精度带来一定的影响。通常来说在该集合中的选项少于100项的情况下，识别率可以超过95％甚至接近100％。相比之下，不限定范围的语音识别精度则要低得多。同时，该特定集合内的分类选择信息对后期的信息管理和任务派发都有非常大的帮助。

在本发明一实施例中，某小区呼叫中心支持的维修业务种类的集合例如可以是：煤气炉维修、有线电视维修、自来水维修和电路维修。

这类信息的存储方式可以采用：1)文本存储，如直接存储文字“煤气炉维修”；2)编码存储，如用01代表煤气炉维修、02代表有线电视维修、依次类推。通常，采用编码方式存储时，会需要一张编码与具体业务种类的对应表。在某些实施例中，相对于直接文本存储方式，编码存储方式可以节省存储空间，同时可以提高检索的速度。上述两种存储方式都是本领域内所公知的，在此不再详细说明。

具体而言，信息表单100中的录音片断信息槽120用来存储用户的录音片断。录音片断信息槽120主要是为了收集难以在较小集合中一一枚举的某些信息，诸如用户的详细问题描述、用户的姓名、用户的详细家庭地址等。通常来说，现有的语音识别技术很难正确识别这类信息。

这类信息的存储方式可以采用通用的语音信息存储方式：1)无压缩存储，诸如用PCM或Wave格式存储的无压缩存储方式；2)压缩存储，诸如用G.723.1或AMR编码存储的压缩存储方式。压缩存储方式可以节约存储空间。但在需要恢复语音时，需要进行解码操作，从而影响操作的效率。上述两种存储方式都是本领域内所公知的，在此不再详细说明。

优选地，信息表单100中可以存在多个录音片断信息槽120，其中每个录音片断信息槽120记录一小段特定的信息。优选地，利用录音片断的特定标识信息和说明信息，可以根据用户需求自由地对各个录音片断进行重新组合、排序等。

具体而言，信息表单100中的声音文档信息槽130用来存储对所收集的信息进行重组而生成的声音文档。优选地，信息表单100中可以存在多个声音文档信息槽130，以存储对应于分类选择信息槽110中的每一分类以及录音片断信息槽120中记录的特定信息的声音文档。

下面参考图1B，图1B是根据本发明实施例的信息表单100中的信息槽的结构实例的图示。该信息槽可以是信息表单100中的任一种信息槽。所述信息槽的结构包括标识信息、说明信息和存储空间。标识信息是对于该信息槽的唯一标识，以便于存储和检索。说明信息是对该信息槽的必要说明，以便于访问者的理解。存储空间用来存储该信息槽所对应的信息，该信息例如可以是文本信息、录音片断等。

应该注意，图1A和图1B仅是图示性的，旨在加深本领域技术人员对本发明所涉及的信息表单的理解。这并非意味着限制所述信息表单的结构和表现形式，本领域技术人员可以对信息表单进行多种设计和修改，而不会背离本发明的范围。

通过上述对呼叫中心及其功能和实现的详细描述，并结合上述对信息表单的示例性说明，本发明首先提出了一种用于自动生成声音文档的方法。与传统的呼叫中心使用语音到文本的转换方式不同，本发明的方法基于对客户进行录音来生成声音文档。

现在参见图2，图2描述了根据本发明实施例的自动生成声音文档的方法的流程图。在图2中，该方法包括两个总体步骤：根据信息表单向用户提问并收集信息的步骤200以及生成声音文档的步骤299。

具体而言，在图2中，该方法首先开始于步骤205，在步骤205，用户与呼叫中心建立连接，并与实时的交互式语音应答系统(IVR)进行交互。用户与呼叫中心建立连接的方式例如可以是电话呼叫，或者通过因特网进行访问，这些技术是本领域所公知的，在此不再详细描述。

接着该方法前进到总体步骤200(如图2上部的虚线框200所示)，在步骤200，由所述IVR根据信息表单向用户提问并收集用户的分类选择信息和录音片断。由于信息表单已经预先设计出来，例如图1A的信息表单100，因此所述方法可以根据信息表单，通过实时的IVR与用户的交互来填写所述信息表单中的信息槽。步骤200还可以细分为若干步骤，如下面所详细描述的。

该方法首先前进到步骤210，在步骤210，根据信息表单向用户提问。每个问题均对应于信息表单中的分类选择信息槽110或一个或多个录音片断信息槽120中的一个。

对于分类选择信息槽110，可以提示用户用语音或者键盘做出选择来进行填写。为有助于理解，继续使用上述的关于支持维修业务的小区呼叫中心的实施例，并参考图1A所述的信息表单100。例如，可以语音提示用户用按键方式输入报修种类，如向用户播放如下语音：“煤气炉维修请按1，有线电视维修请按2，自来水维修请按3，电路维修请按4”。可选地，也可以提示用户用语音命令方式输入报修种类，如向用户播放如下语音：“您可以说：煤气炉维修、有线电视维修、自来水维修或电路维修”。用户可以在提示的过程中随时打断提示语音，而直接进行输入。当然，可选地，也可以同时支持两种输入方法，如向用户播放如下语音：“您可以按键选择数字或直接说出：1.煤气炉维修，2.有线电视维修，3.自来水维修，4.电路维修”。所述提示方式并不限于上述的在语音交互的过程中给予语音提示的这一方式，而可以是本领域技术人员可想到的其它任何方式，例如，通过用户使用手册进行提示，或者在具有可视装置的情况下以即时显现的文字方式进行提示。

对于录音片断信息槽120，通常的提示方式是提示用户说出指定的信息，如向用户播放如下语音：“请在嘀的一声后说出您的地址”或者“请在嘀的一声后说出您的故障描述”。同样地，所述提示方式并不限于上述这种方式，而可以是本领域技术人员可以想到的其它任何方式。

接着，该方法前进到步骤215，在步骤215收集用户信息，即，通过所述分类选择信息槽来收集用户的分类选择信息，以及通过所述一个或多个录音片断信息槽来收集用户的录音片断。如果对于分类选择信息槽110采用了按键输入方式，则需要捕获电话按键所传达的数字，将其实时地存储在分类选择信息槽110中。如果对于分类选择信息槽110采用了语音输入方式，以及在填充录音片断信息槽120时，则需要捕获用户说出的语音。在用户进行语音输入时，所述方法可以调用识别引擎来自动检测出语音段和静音段，并仅对语音段进行存储。可选地，也可以提示用户在开始说话或结束说话时，按某一特定键(如“#”键)来直接指定语音部分的起始点。接着，把所收集到的语音信息实时地存储在分类选择信息槽110或录音片断信息槽120中。

在某些实施例中，其中最终生成的信息表单被存储在远程服务器上，则可以采用某种缓存机制来快捷地收集信息，例如在语音交互系统与用户交互的过程中建立存储在本地的临时信息表单。在交互过程期间或在整个交互过程完成后，再进行该临时信息表单与远程服务器上的信息表单的同步。进一步地，在某些实施例中，其中需要将语音信息压缩后进行存储，可以将收集到的语音信息用无压缩的存储方式暂存在本地临时信息表单中，以避免语音压缩带来的延时。之后，在与服务器同步过程中，再进行语音的压缩及存储。

接着，该方法前进到步骤220，在步骤220根据信息表单来确定是否仍有要问用户的问题。如果是，则方法返回步骤210继续进行，例如，继续向用户询问其姓名、家庭住址、联系电话等等；如果没有要问用户的问题，则该方法前进到总体步骤299(如图2下部的虚线框299所示)，在步骤299，通过对所收集的信息进行组合以生成声音文档。所述总体步骤299还可以细分为若干步骤，如下面所详细描述的。

该方法首先前进到步骤225，在步骤225确定在步骤215中是否收集了非语音形式的分类选择信息。如果是，则该方法前进到步骤230，在步骤230将所收集的非语音形式的分类选择信息转换成语音形式。例如，可以通过语音合成系统(TTS)将其转换成语音，对于编码存储的分类选择信息，使用语音合成技术前需要首先将编码信息转换为对应的文字。此外，也可以用预录音将分类选择信息替换为对应的语音信息。注意，步骤230是可选的。在全部以语音形式收集信息的情形中，此步骤可以被跳过。

如果在步骤225中确定在步骤215中未收集到非语音形式的分类选择信息，则该方法前进到步骤235。在步骤235，不论是否执行了步骤230，分类选择信息和录音片断信息都已成为语音形式。在步骤235把语音形式的分类选择信息和录音片断信息用特定的方式进行组合而生成声音文档。例如，可以在分类选择信息之后跟随录音片断信息，或者先提供诸如用户地址、电话等录音片断信息，之后是分类选择信息，最后是其余的录音片断信息。具体采用何种方式来组合声音文档是事先确定的或者由信息获取者来指定的，其不会影响本发明的具体实现。

在生成声音文档的过程中，可以加入某些其它信息以向潜在的信息获取者提供更好的用户体验，例如，对于对应于服务种类的分类选择信息，可以加入语音提示信息：“用户选择的服务种类为：”。此外，在某些实施例中，还可以加入适当的背景音乐，以增强用户体验。此外，在某些实施例中，冗余的语音信息(例如用户说话录音中间的较长时间的静音)可以被删除，从而缩短声音文档的长度，以提高存储和检索的效率。录音中的静音删除需要用到静音检测技术，这在语音识别领域中是一种较为常用的技术，在此不再进行详细说明。

声音文档的生成可以采用多种不同的形式。例如可以按照详细程度分为：详细模式、一般模式和精简模式。详细模式下的声音文档包括完整的提示信息，一般模式下的声音文档仅包括部分的提示信息，而精简模式下的声音文档不包括任何的额外提示信息。同时信息获取者可以定义不同的播放顺序，例如，可以定义地址优先模式，即把地址信息放在最前面；以及可以定义问题优先模式，即把问题描述放在最前面。自定义顺序的目的是为了满足不同信息获取者的需求。

接着，该方法前进到步骤240，在步骤240将所生成的声音文档存储在信息表单100的声音文档信息槽130中。此步骤为所述实施例中的优选的步骤。也可以在每次进行信息检索时重新生成声音文档，不过这样做既费时且不利于信息的存储。不同形式的声音文档可以被存储在不同的声音文档信息槽130中。

接着，在完成生成声音文档的总体步骤299之后，该方法继续前进到步骤245，在步骤245生成并存储辅助信息。此步骤为所述实施例中的优选步骤，是否需要生成这些信息取决于在设计信息表单100时是否设计了与声音文档信息槽130相应的辅助信息槽140。例如，如果在信息表单100中设计了时间标签信息槽，则在生成声音文档的同时会生成与该声音文档的各个声音片断相对应的时间标签信息。例如“12s：详细地址信息”表示在第12秒开始播放详细地址信息，而“46s：详细问题描述”表示在第46秒开始播放详细问题描述。这些时间标签信息用来支持在所生成的声音文档的各个录音片断之间进行跳转。这些时间标签信息可以通过对它所对应的录音片断之前的所有录音片断的长度进行累加而计算出来。例如，如果在信息表单100中设计了索引信息槽，则在生成声音文档的同时会生成与该声音文档的各个声音片断相对应的索引信息。注意，声音文档中的声音片断包括用户的录音片断和已经被转换为语音形式的分类选择信息。这些索引信息也用来支持在所生成的声音文档的各个声音片断之间进行跳转。所述索引信息可以按照录音顺序来生成。例如，“1：详细地址信息”表示第1个声音片断为详细地址信息，而“2：详细问题描述”表示第2个声音片断为详细问题描述。注意，上述的时间标签信息和索引信息的表示都仅是示例性的，本领域技术人员可以容易地想到多种不同的表示方式。优选地，还可以为每个信息槽加上一个特定的标识，以方便信息的检索和编辑。

为有助于更好地理解和实现本发明的方法，下面是实现本方法的一个简化示例。应注意，该示例仅是说明性的，在实际实现中，所收集的信息可以与以下示例不同，或更多或更少。

以下是在用户与呼叫中心建立连接之后双方进行交互时的对话：

问：欢迎访问××物业服务中心，请问我能为您做什么？

答：燃气炉，报修。

问：请问您的家庭住址？

答：幸福路10号，1号楼1201室。

问：请问您的姓名？

答：汤姆。

问：请描述您的故障：

答：我家的燃气炉管子漏水。

问：请输入您的联系电话：

答：12345678(用户通过按键输入)。

以下是根据上述语音交互之后，根据所收集的用户信息生成的声音文档的示例，其中所有内容均已被转换为语音形式：

·客户选择：燃气炉报修。

·客户的详细情况是：汤姆；幸福路10号，1号楼1201室；我家的燃气炉管子漏水。

·客户的联系电话是：12345678。

由以上示例可以看出，客户所输入或说出的信息被转换成语音，并在各个客户信息之前添加了必要的语音描述信息，这样就生成了简要的声音文档，其包括所有的客户信息，不会产生信息丢失的情况。同时对客户信息进行了必要的分类和组合，便于将来的检索和访问。

需要注意，在上述对本发明的自动生成声音文档的方法的详细描述中，以上的实施例仅是示例性的，在不背离本发明的主旨的情况下，可以增加或删除某些步骤，或将其中的某些步骤结合在一起或者进一步分割成几个步骤来进行，这些方法步骤都处于本发明的保护范围之内。

在根据上述的本发明的方法自动生成的声音文档的基础上，仍需要将这些声音文档提供给信息获取者(例如工程师)，以便使信息获取者及时获取与其有关的信息。因此，本发明还提出了用于提供声音文档的方法。提供所生成的声音文档主要有两种方式：信息索取方式和信息派发方式。

信息索取方式是指信息获取者(如工程师)通过语音信道(如固定电话、手机等)来主动索取声音文档。现在参见图3，图3描述了根据本发明实施例的利用信息索取方式来提供声音文档的方法的流程图。

具体而言，在图3中，该方法首先开始于步骤305，在步骤305，信息获取者与呼叫中心建立连接。信息获取者与呼叫中心建立连接的方式例如可以是电话呼叫，或者通过因特网进行访问，这是本领域所公知的，在此不再详细描述。

接着该方法前进到步骤310，在步骤310为信息获取者建立注册机制和个人信息简档。首先需要建立用于信息获取者的注册机制，注册完成后信息获取者将得到用户名和口令。同时给每个已注册的信息获取者建立个人信息简档，用以存储其访问的权限以及其个人的某些缺省设定。注意，步骤310只需要在信息获取者第一次登录呼叫中心的时候执行，在注册完成以后，此步骤可以被跳过。

接着，该方法前进到步骤315，在步骤315，在信息获取者试图索取声音文档时对其进行认证，例如提示信息获取者输入用户名和口令。只有通过认证的信息获取者才能访问对应于其访问权限的声音文档。认证通过后，该信息获取者的个人信息简档被调出，以获知其个人的缺省设定。

接着，该方法前进到步骤320，在步骤320，通过认证的信息获取者访问信息表单100，并从而访问相应的声音文档。

信息派发方式是指系统向已注册的信息获取者进行信息的主动派发，这种派发可以采用多媒体短信、电子邮件和电话信箱等。现在参见图4，图4描述了根据本发明实施例的利用信息派发方式来提供声音文档的方法的流程图。

具体而言，在图4中，该方法首先开始于步骤410，在步骤410为信息获取者建立注册机制和个人信息简档。首先需要建立用于信息获取者的注册机制，注册完成后信息获取者将得到用户名和口令。同时给每个已注册的信息获取者建立个人信息简档，用以存储其访问的权限以及其个人的某些缺省设定。注意，步骤410只需要在系统建立时执行，之后此步骤可以被跳过。

接着，该方法前进到步骤415，在步骤415，对信息获取者进行分类。例如，可以将信息获取者按照服务种类分为：煤气炉维修、有线电视维修、自来水维修、电路维修等；又例如，可以将信息获取者按照服务规模分为：大型、中型、小型等；又例如，可以将信息获取者按照客户满意度分为：好、中、差等。所述分类可以自动生成或者人工设定。注意，此步骤为本实施例中的优选步骤。在某些情形中，诸如仅有一名信息获取者或者系统随机向所有信息获取者中任意一个派发信息的情形，也可以不执行此步骤。

接着，该方法前进到步骤420，在步骤420，将所生成的声音文档直接派发给相应的信息获取者，或者通知相应的信息获取者来访问声音文档。

在执行利用信息派发方式来提供声音文档的方法时，可以采用一定的策略进行信息派发。例如，按照信息表单中所存储的分类选择信息选择相应分类的信息获取者。又例如，优先把信息派发给客户满意度较好的信息获取者。这些策略可以由具有管理员权限的用户进行添加、修改和删除。

所派发的信息可以直接包含声音文档，如通过多媒体短信等进行派发。也可以派发一段文字信息加上特定的电话号码和口令，这样接收到该信息的信息获取者可以通过拨打该电话号码并输入相应的口令来获取相应的信息。

在上述的利用信息检索方式或者信息派发方式来提供声音文档的任一方法中，优选地，信息获取者可以通过指定某些限制条件来快速检索自己最想要的信息。信息表单中所存储的分类选择信息可以为信息快速检索提供很大的便利。这一过程可以通过与交互式语音应答系统相交互而完成。类似于给用户的提示，也可以向信息获取者进行提示，如向信息获取者播放如下语音：“您可以按键选择数字或直接说出：1.煤气炉维修，2.有线电视维修，3.自来水维修，4.电路维修”。交互式语音应答系统将根据信息获取者的选择来检索出对应的信息表单。例如，以数据库方式存储的信息表单可以采用SQL语言进行条件限制以进行快速检索。

优选地，信息获取者可以选择自己最喜欢的声音文档模式。例如，信息获取者可以从已有的声音文档模式中选择详细模式、一般模式或精简模式。优选地，信息获取者还可以自定义声音文档模式。这些自定义的声音文档模式可以被存储在其个人信息简档中。优选地，信息获取者还可以设定缺省的声音文档模式，以避免每次呼叫时进行重复选择。

优选地，信息获取者可以调整声音文档中的各个声音片断的播放顺序。例如，如果信息获取者非常关注用户地址，就可以把详细地址信息放在最前面播放，以便节省时间。

对于在信息表单中已经存储了声音文档的情形，交互式语音应答系统将直接播放相应的声音文档。对于在信息表单中没有存储声音文档的情形，交互式语音应答系统将实时生成并播放所需的声音文档。这个声音文档可以被存储在信息表单中，也可以不被存储，这取决于事先定义的策略。

所检索到的语音文档将通过语音形式播放给信息获取者。优选地，在多模态环境下，也可以将文字信息等辅助信息同时呈现给信息获取者。

优选地，信息获取者可以控制在声音文档中的各个声音片断之间进行跳转。常用的跳转命令例如：前进指定时间长度或后退指定时间长度等。优选地，在已经生成与声音文档的各个录音片断相对应的时间标签信息的情况下，信息获取者可以通过语音命令或按键跳转到某一特定录音片断，如用户可以说出：“详细地址信息”而跳转到详细地址信息的相应位置(例如12秒处)并进行播放。

上面详细介绍了本发明的用于自动生成声音文档的方法和提供声音文档的方法。在同一发明构思下，本发明提出了一种用于自动生成声音文档的系统和提供声音文档的系统。下面就结合附图对所述系统进行详细说明。

现在参见图5，图5描述了根据本发明实施例的自动生成声音文档的系统500。所述系统500包括：信息表单存储装置505、提问装置510、信息收集装置515、语音转换装置525、声音文档生成装置530以及辅助信息生成装置540。

信息表单存储装置505中存储了根据本发明实施例的信息表单，例如如图1A所述的信息表单100。

提问装置510根据数据库505中存储的信息表单100向用户提问。每个问题均对应于分类选择信息槽110(图1A)或一个或多个录音片断信息槽120(图1A)中的一个。对于分类选择信息槽110，可以提示用户用语音或者键盘做出选择来进行填写。对于录音片断信息槽120，通常的提示方式是提示用户说出指定的信息。上述提示方式在上文中已进行了详细说明，在此不再重复。

信息收集装置515用于收集用户信息，即，通过所述分类选择信息槽来收集用户的分类选择信息，以及通过所述一个或多个录音片断信息槽来收集用户的录音片断。根据用户输入方式(例如，按键输入方式、语音输入方式等)的不同，可以分别捕获这些信息并将其存储在信息表单100中的特定的信息槽中。

语音转换装置525将所收集的非语音形式的分类选择信息转换成语音形式。在全部以语音形式收集信息的情形中，语音转换装置525将不会进行任何操作。

声音文档生成装置530把语音形式的分类选择信息和录音片断信息用特定的方式组合为声音文档。所述组合方式可以是事先确定的或者由信息获取者来指定的，其不会影响本发明的具体实现。在组合和生成声音文档的过程中，可以加入某些其它信息以向潜在的信息获取者提供更好的用户体验。语音信息的生成可以采用多种不同的形式。例如可以按照详细程度分为：详细模式、一般模式和精简模式。所述其它信息和所述模式的描述与上文相同。同时信息获取者还可以定义不同的信息顺序。自定义顺序的目的是为了满足不同信息获取者的需求。所生成的声音文档被存储在信息表单存储装置505中的信息表单100的声音文档信息槽130中。并且不同形式的声音文档可以被存储在不同的声音文档信息槽130中。

辅助信息生成装置540生成并存储其它的辅助信息，例如时间标签信息和索引信息。是否需要生成这些辅助信息取决于在设计信息表单100时是否设计了相应的辅助信息槽140。优选地，还可以为每个信息槽加上一个特定的标识，以方便信息的检索和编辑。所生成的信息被存储在信息表单100中相应的辅助信息槽140中。

在由上述的本发明的系统自动生成的声音文档的基础上，仍需要将这些声音文档提供给信息获取者(例如工程师)，以便使信息获取者及时获取与其有关的信息。因此，本发明还提出了一种用于提供声音文档的系统。在下面结合附图对本发明的提供声音文档的系统进行详细说明。提供所生成的声音文档主要有两种方式：信息索取方式和信息派发方式。这两种方式的执行逻辑在上文中已经详细描述过。

现在参见图6，图6描述了根据本发明实施例的用于提供声音文档的系统600。所述系统600包括：个人简档存储装置605、注册装置610、认证装置615、分类装置620以及访问/派发装置625。

个人简档存储装置605中存储了信息获取者的个人信息简档。注册装置610为信息获取者建立注册机制和个人信息简档。认证装置615在信息获取者试图索取声音文档时对其进行认证。分类装置620对信息获取者进行分类。访问/派发装置625用于向信息获取者提供对所生成的声音文档的访问，或者将声音文档直接派发给相应的信息获取者，或者通知相应的信息获取者来访问声音文档。这些装置的具体操作流程与前述的本发明的访问声音文档的方法(图3、图4)相同或近似，因此省略对其的详细描述。本领域技术人员可以容易地看出，所述系统既可以利用信息索取方式也可以利用信息派发方式来提供声音文档。

以上是对本发明的用于自动生成声音文档的系统以及提供声音文档的系统的详细描述，所述系统及其组成部分可以用硬件、软件或者软硬件结合的方式实现，并且根据需要可以与其它系统相结合。

现在参见图7，图7描述了根据本发明实施例的自动生成声音文档的方法和系统以及提供声音文档的方法和系统的整体操作示意图。用户710与交互式语音应答系统720进行交互。具体而言，由交互式语音应答系统720对用户710进行提示，之后用户710通过语音和/或键盘输入分类选择信息和录音片断信息到交互式语音应答系统720。接着交互式语音应答系统720将用户所输入的分类选择信息和录音片断信息填入信息表单730。根据信息表单730上记录的分类选择信息和录音片断信息，生成声音文档740。接着，可以由工程师750主动访问声音文档740，或者向相应的工程师750主动派发该声音文档740，或者通知其访问声音文档740。在工程师750获取了声音文档740所传达的信息之后，工程师750就可以对用户710提供支持。

以上是对本发明的用于自动生成声音文档的方法和系统以及用于提供声音文档的方法和系统的详细描述。如本领域技术人员可以了解的，本发明可以体现为方法、系统和/或计算机程序产品。因此，本发明可以呈现为完全硬件实施形式、完全软件实施形式或者软件和硬件组合实施形式。此外，本发明可以被呈现为在机器可读媒体上包括的计算机程序产品，机器可读媒体上存储了用于对计算机系统进行编程以执行根据本发明的过程的机器可执行程序指令。这里所使用的术语“机器可读媒体”包括向计算机系统提供用于执行的指令的任意媒体。这种媒体可以采用多种形式，包括但是不局限于：非易失性媒体、易失性媒体和传输媒体。非易失性媒体的常见形式例如包括软盘、软磁盘、硬盘、磁带或者任何其它磁媒体、光盘ROM(CD-ROM)或者任何其它光媒体，打孔卡或者任何其它带有孔图案的物理媒体、可编程ROM(PROM)、可擦写PROM(EPROM)、电EPROM(EEPROM)、闪速存储器、任何其它存储芯片或者盒式磁带(cartridge)、或者计算机系统可以读取并适合存储指令的任何其它媒体。

此外，可以理解，方框图和/或流程图中的每个方框以及方框图和流程图中的一些方框的组合可以用一些计算机程序指令实现。这些计算机程序指令可以提供给一通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生一机器，使得这些指令通过计算机或其它可编程数据处理设备的处理器的执行创建用于实现在方框图和/或流程图内或者方框内所指定的功能的装置。

尽管已经参考优选实施例具体地示出并描述了本发明，但其不是为了以公开的形式穷举或限制本发明。对于本领域的普通技术人员，可以在形式上和细节上进行各种改变而不会背离本发明的精神和范围。所选择并描述的实施例是为了最好地解释本发明的原理和实际的应用，以及为了使本领域的普通技术人员能够理解，对于各种实施例的本发明，所述实施例具有适合于预期的具体使用的各种修改。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于自动生成声音文档以及提供声音文档的方法和系统 [P] . 中国专利： CN101242452B . 2013.01.23
2. 用于自动生成声音文档以及提供声音文档的方法和系统 [P] . 中国专利： CN101242452A . 2008-08-13
3. method for making an identity classification associated with a data source, sensitivity system responsive to acoustic or seismic signals, method for identifying seismic or acoustic signals of interest originating from motorized motion vehicles, method for identifying seismic or acoustic signals of interest originating from the step document, and method for identifying seismic or acoustic synergies of interest originating from fixed or moving machinery [P] . BR112012005842A2 . 2017-05-30

机译：用于进行与数据源关联的身份分类的方法，响应于声音或地震信号的灵敏度系统，用于识别源自机动车辆的感兴趣的地震或声学信号的方法，用于识别源自步骤文档的感兴趣的地震或声学信号的方法，以及用于识别源自固定或移动机械的感兴趣的地震或声音协同作用的方法
4. VOICE INFORMATION DATABASE GENERATION SYSTEM, DEVICE AND METHOD FOR SOUND-RECORDED DOCUMENT CREATION, DEVICE AND METHOD FOR SOUND RECORDING MANAGEMENT, AND DEVICE AND METHOD FOR LABELING [P] . 日本专利： JP2003186489A . 2003-07-04

机译：用于声音记录文档创建的语音信息数据库生成系统，设备和方法，用于声音记录管理的设备和方法以及用于标签的设备和方法
5. A SYSTEM AND METHOD FOR PROVIDING AN AUTOMATIC GENERATION OF USER THEME VIDEOS FOR CALLED SONES AND TRANSMISSION OF CONTEXT INFORMATION [P] . AT483324T . 2010-10-15

机译：提供用于自动生成用户主题视频以调用声音和传送上下文信息的系统和方法