首页> 中国专利> 基于语音的文档的历史跟踪方法和系统

基于语音的文档的历史跟踪方法和系统

摘要

本发明公开了对基于语音的文档里的校正进行历史跟踪的方法和系统。所述基于语音的文档包括根据语音段识别或转写的一个或多个文本段,其中,所述语音段由用户口述,并由语音识别系统中的语音识别器处理成所述基于语音的文档的相应文本段。所述方法包括:使所述基于语音的文档里的每个文本段与至少一个语音属性(14)相关联,所述语音属性(14)分别包括与所述文本段有关的信息;在呈现单元(8)上呈现所述基于语音的文档;检测在任何一个所述文本段内执行的动作;更新与在所述文本段的一个文本段上检测到的对基于语音的文档进行更新的动作类型有关的所述语音属性(14)的信息,从而,所述语音属性(14)的所述更新信息用于对所述基于语音的文档的校正进行历史跟踪。

著录项

  • 公开/公告号CN101326533A

    专利类型发明专利

  • 公开/公告日2008-12-17

    原文格式PDF

  • 申请/专利权人 皇家飞利浦电子股份有限公司;

    申请/专利号CN200680046085.0

  • 发明设计人 G·格罗鲍尔;M·帕保伊;

    申请日2006-11-10

  • 分类号G06K9/62(20060101);

  • 代理机构72002 永新专利商标代理有限公司;

  • 代理人宋献涛;王英

  • 地址 荷兰艾恩德霍芬

  • 入库时间 2023-12-17 21:10:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-11-20

    专利权的转移 IPC(主分类):G06K9/62 变更前: 变更后: 登记生效日:20131028 申请日:20061110

    专利申请权、专利权的转移

  • 2013-05-08

    授权

    授权

  • 2010-01-20

    专利申请权、专利权的转移(专利申请权的转移) 变更前: 变更后: 登记生效日:20091218 申请日:20061110

    专利申请权、专利权的转移(专利申请权的转移)

  • 2009-02-11

    实质审查的生效

    实质审查的生效

  • 2008-12-17

    公开

    公开

说明书

技术领域

概括地说,本发明涉及语音识别领域。具体地说,本发明涉及对文档的文本段中的改变进行历史跟踪的方法和系统,具体提供用于在文档创建工作流程中解决含糊不清的跟踪基础设施。

本发明还涉及计算机可读介质,其承载着可通过计算机执行所述方法的计算机程序。

背景技术

现今,语音识别系统在许多产业内变得日益有效并得到很好地运用。在语音识别处理中,通过计算机把麦克风接收到的声学信号转换成包括一组字词的文档。然后,这些识别出的字词可以在用于不同目的的各种应用中使用。把语音转换成文本的自动语音识别系统需要实现成本低、效率高的文档创建和高转写效率。

事实是:文档随后仍需要由作者、转写、质保(QA)人员或其他人员手工或口述修改文档而得以校对或审核,从而增加了这些语音识别系统的复杂性。

在过去的一些年里,已经提出了一些提高语音识别准确度的构思。举个例子,美国专利申请No.2002/0156816公开了向用户自纠、修正和修改学习的方法和装置。对当前文本做出的改变产生变换的文本,并基于此改变,制定规则,并将其保存起来以供未来使用。

已知的是,校正者在编辑由语音识别系统创建的文档时必须应付这样的事实:文档部分可能还未被语音识别器完全识别出来,并且/或者,已经经过作者校正。在这两种情况下,书面文档与作者口述的内容不匹配,即语音识别器曲解了口述的语音,故识别出的文本是错误的,或者,作者通读了转写的或识别出的文本,并做了改动,例如,因为作者对关于文本内容的看法做了校正或改变。在普通的语音识别结果中,这个难题还未得到根本解决,或者,通过非文档部分的元信息进行跟踪,例如通过像“已经经过作者校正”或“需要校正”之类的文档属性。在任何情况下,这都是不令人满意的,至今已知的语音识别结果要么是拙劣的,要么就是缺少可靠性。

因此,对在基于语音的文档中做出的改变进行跟踪的改进系统是有益的。

发明内容

因此,本发明的目的是提供对在基于语音的文档中做出的改变进行跟踪的改进系统。为了实现此目的,根据所附的权利要求书,提供了用于跟踪基于语音的文档的历史改变的方法和系统。

更具体地说,本发明涉及语音启动框架,其通过对所有文档部分自动应用语音属性而支持在文本段(例如字词、短语)上进行跟踪。这是对文本或语音的各部分的所有改变历史保持跟踪的一种新方法,这使得在文档工作流程的每一级查明哪些步骤产生基于语音的文档的当前文本和语音。校正者问“作者的意思究竟是什么,在文本里写了什么或者可以听到什么?”,并且,质保人员的问题“谁向文档中引入了特定差错?”,最后能够回答这些问题。这意味着,本发明提供了一种语音识别系统,其能在所有时间实现可靠的基于语音的文档,例如,它可以轻易地提供基于语音的文档的当前真实文本,或者,当在基于语音的文档中发现错误时,它可以容易地得到校正。

根据本发明的一方面,提供了一种在电子文档中进行历史跟踪校正的方法,其中,电子文档是基于语音的文档,其包括根据语音段识别或转写的一个或多个文本段。语音段由用户口述,并由语音识别系统中的语音识别器处理成基于语音的文档的相应文本段。所述方法包括以下步骤:使基于语音的文档里的每个文本段与至少一个语音属性相关联,所述至少一个语音属性分别包括与所述文本段有关的信息。所述方法还包括以下步骤:在呈现单元上呈现所述基于语音的文档,检测在任何一个所述文本段内执行的动作,更新与在一个所述文本段上检测到的对基于语音的文档进行更新的动作类型有关的所述至少一个语音属性的信息,从而,所述至少一个语音属性的更新信息用于对基于语音的文档进行历史跟踪校正。

根据本发明的另一方面,提供了一种在电子文档中进行历史跟踪校正的系统,其中,所述电子文档是基于语音的文档,其包括根据语音段识别或转写的一个或多个文本段。语音段由用户口述,并由语音识别系统中的语音识别器处理成基于语音的文档的相应文本段。所述系统包括:使基于语音的文档里的每个文本段与至少一个语音属性相关联的模块。所述至少一个语音属性分别包括与所述文本段有关的信息。所述系统还包括:至少一个呈现单元,用于在其上呈现所述基于语音的文档;检测模块,用于检测在任何一个所述文本段内执行的动作;信息更新模块,用于更新与在一个所述文本段上检测到的对基于语音的文档进行更新的动作有关的所述语音属性的信息,从而,利用此系统,所述语音属性的所述更新信息用于对基于语音的文档进行历史跟踪校正。

根据本发明的另一方面,提供了一种计算机可读介质,其承载着由计算机处理的计算机程序。所述计算机程序用于在电子文档中进行历史跟踪校正,其中,所述电子文档是基于语音的文档,其包括根据语音段识别或转写的一个或多个文本段。所述计算机程序包括:使基于语音的文档里的每个文本段与至少一个语音属性相关联的代码段,所述语音属性分别包括与所述文本段有关的信息。所述计算机程序还包括:用于呈现的代码段,在呈现单元上呈现所述基于语音的文档;用于检测的代码段,检测在任何一个所述文本段内执行的动作;用于更新的代码段,更新与在所述文本段的一个文本段上检测到的对基于语音的文档进行更新的动作有关的所述语音属性的信息,从而,所述语音属性的所述更新信息用于对所述基于语音的文档进行历史跟踪校正。

对基于语音的文档(例如,在口述文本段或基于语音的文档里的语音)做出的改变进行历史跟踪是有益的,有益之处是便于自动提供更加清楚的校正信息等等。

附图说明

根据下面参照附图描述的本发明的实施例,本发明的这些和其它方面、特征和优点将是显而易见的,其中:

图1示出了根据现有技术创建语音启动了的文档的处理。

图2示出了根据本发明的实施例的系统中的文档工作流程。

具体实施方式

下面主要描述适用于语音识别系统的本发明的示例,具体主要描述对基于语音的文档里的文本或音频做出的校正和修改进行历史跟踪的方法。但应当认识到,本发明不限于此应用,而可以用于许多其它口述或语音管理系统。

基于语音的文档的类型很多,从纯文本到表格和模板。基于语音的文档可以在未准备任何文本或文档的情况下开始,包括将要轻微做出改变的文本单元。基于语音的文档可以是高度结构化的或非结构化的。结构可以静态地进行定义,或者,通过一组文档建立单元即所谓的文档原语(DP)动态地进行创建。

为了简单起见,将在本说明书的剩余部分里把“基于语音的文档”称为“文档”,其中,可以设想到文档用于信息的再现,此信息至少部分地由语音导出。

在图1中示出了实际工作的公知的文档创建处理。用户在没有特定语音识别知识的情况下定义他的文档原语(DP)1。DP定义在文档中包括的区域类型,其在口述期间用作参考布局文档。

文档原语可以是任何形式,诸如:

-纯文本;

-自动文本(例如文本块);

-智能域(例如含有自动要素的文本块,例如来自数据库的人口统计);

-有名域(例如可识别的占位符);

-等等。

语音启动框架3通过提取结构和内容信息(例如标题、标签等等),自动把文本文档转换成语音已启动的文档4。语音启动是把语音识别整合到文档创建工作流程中的动作。例如,语音已启动的文档支持向它进行口述、其中的语音导航以及它的校正/修改。如图1所示,在文档2中包括用于整个文档的语音属性5,下面将更加详细地对此进行描述。

在图2中示出了本发明的实施例。系统6包括用户输入单元7、呈现单元8和语音识别框架9。用户输入单元可以是诸如麦克风或录音机之类的语音输入单元11或者诸如键盘或鼠标之类的文本输入单元10。呈现单元8可以是计算机屏幕16或录音机和播放器17等等,其中呈现文本或语音结果。语音识别框架9是普通的框架,其处理结构化的文档,并处理动态的文档改变。在本发明的实施例中所用的特征之一是语音识别器12。把本实施例的语音识别框架9实现成在计算机里的一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。但是,在其它实施例中,语音识别(SR)框架9也可以用其它装置来实现,例如用编码硬件来实现。系统6中的本实施例的SR框架9还通过对文档的所有部分应用语音属性而支持在文本段上进行跟踪。这是一种对在文档工作流程的每一级上做出的所有改变保持进行跟踪的方法,并查明哪些历史步骤产生语音文档13的当前文本和语音。

一组语音属性14可用于质量保证用途。措词“文档的语音属性”是指文档或文档区域里的所有文本段的所有语音相关属性,例如,谁口述和/或校正了特定部分、哪个语境与文档的哪个部分相关联等等。

语音属性可以是:

-口述范围(DA),即,最初的纯文本;

-DA里的识别置信度:语音识别器使识别置信度与至少一个或一组识别出的字词相关联,以呈现出识别运作良好的概率。举例来说,如果置信度较低,则有可能需要进行校正的特定概率,其比识别置信度较高时要高;

-一定范围内检测到的主题:语音识别的特定作用是使主题(如普通注释、病人特定信息、诊断信息或特定语境的任何特定子语境)与一组或一定范围的字词相关联。相关联的主题信息可以用作附加信息,例如用于确认用途;

-在DA内修改了哪些部分:如果校正者可看见作者修改了哪个部分,则指示出语音或经修改的文本是否可能是有效的。如果作者或质保人员检查校正的文本,则修改信息对于他们而言可能是很好的指示,还指示出位于DA中的经修改的部分;

-理想地替换了语音的哪些区域:理想的指示是校正的文本是相关的而非基础语音,因为当前文本以前已经经过检查和校正;

-被听到的和未被听到的文档部分是哪些:例如,此信息可以用于帮助转写员对文档中遗漏的文本段进行定位,遗漏的文本段可以作为音频数据段而获得,但还未被转写成文档的文本段;

-校正者接触/听到哪些部分:此信息可以用于指示遗漏的口述文本段;

-哪些部分是包含严重口述或校正问题的候选者,例如,基于置信度值,包含数次修改,由作者和由校正者经过若干次校正,等等;

-特定部分于何时得以校正;

-谁校正了特定部分;或者

-哪个部分经过了作者校正。

文本或语音是文档的主要信息源。例如,基于识别和校正属性的音频过滤器回放校正者还未听到的部分。

产生语音文档的示例性处理如下:用户通过使用用户输入单元口述11。口述可以是:清楚的一般文本口述;受限主题、简短文本的口述;选定的关键字标识符、导航指令、选择指令和/或简短关键的(自动文本)激活指令的口述。口述文本/文件进入系统6的语音启动框架9,其中,语音识别器12对口述材料进行处理,并生成包括第一语音文档13的第一语音识别结果18,其中,第一语音文档13具有与第一语音文档里的每个文本段有关的语音属性14。把结果插入到诸如数据库之类的树结果表示19中。再把语音文档转换成文本文档16,将其呈现在诸如计算机屏幕、播放器之类的呈现单元8上。然后,文本文档16可以由一个或多个用户通过直接文本输入15a或通过新的示例性音频口述15b而改变。每个改变产生新的语音识别结果,其包括新的语音文档和相关的新的语音属性。将新的结果插入到树结果表示中,并使其链接到以前的结果。当发生改变时,不断地更新文本文档16。可以进行附加的修改,直到把所需要的文档最后定下来为止。最终的文档包括转写文本和相关语音属性,它们呈现出每个文本/音频输入的全部历史,已经将其执行到了文档中。在表1中示出了可以如何执行改变处理的示例。

表1

在表1所示的示例中,示出了一对动作以及文本段作为示例,并示出了在普通口述过程期间可能出现的一对语音属性。语音属性“谁”表示谁做出改变,“何时”表示何时执行改变的数据,“什么”准确地表示改变是什么,例如,把“whats”变成“what’s”。

处理从例如医生(用户1)执行口述开始,语音识别引擎将口述转换成语音识别结果(SR结果)。此结果包括与语音文档1有关的三个语音属性,把它们插入在树结果表示(TR表示)中。语音属性谁1是“用户1”,何时1是“050822”,什么1是“语境1”。转写员(用户2)读取文本文档,通过键入来校正错误,并生成新的SR结果。此结果包括语音文档2和相关的语音属性,谁2是“用户2”,何时2是“050901”,什么2是“语境2”。将新的SR结果插入在TR表示中,并使其链接到先前的结果。医生通读校正过的文本,并通过语音(口述)进一步校正错误。语音识别引擎转换口述,并产生新的SR结果。此结果包括与新的语音属性有关的语音文档3,谁3是“用户1”,何时3是“050902”,什么3是“语境3”。录音打字员(用户2)再次读取文本文档,并通过直接键入到相关的文本文档而进一步校正文本。产生新的SR结果。此结果包括与新的语音属性有关的语音文档4,变成“用户2”的谁4,变成“050910”的何时4,变成“语境4”的什么4。

可以通过不同的方式使文档的各部分的语音属性可视化。向终端用户呈现追踪历史的一种方法是给文本着色,例如,用户1口述的文本为红色,用户1键入的文本为绿色,等等。附加的信息可以经由工具提示而呈现出来,即选择某一文本、右鼠标按钮点击,语境菜单出现并呈现所选文本的改变历史。

本发明可以用包括硬件、软件、固件或其组合的任何适当形式来实现。但优选情况下,本发明实现成在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以用任何适当的方法物理性地、功能性地和逻辑性地来实现。实际上,功能可以在单个单元、多个单元中实现,或者,实现成其它功能单元的一部分。同样,本发明可以在单个单元中实现,或者,可以在不同单元和处理器之间物理性地和功能性地分布。

虽然上面围绕着特定实施例描述了本发明,但本发明并不限于这里列明的特定形式。而且,本发明仅由所附的权利要求书加以界定,在这些所附的权利要求的保护范围内,除以上具体所述之外的其它实施例同样是可行的,例如,与上述不同的语音属性。

在权利要求中,词语“包括/包含”并不排除存在其它部件或步骤。此外,虽然是单独列出的,但多个装置、部件或方法步骤可以由例如单个单元或处理器来实现。另外,虽然不同权利要求可包括其各自的特征,但这些特征也有可能会被优选地组合起来,包括在不同权利要求中的特征并不意味着它们的组合是不可行的和/或无益的。还有,单个参考并不排除有多个。词语“一个”、“一种”、“第一”、“第二”等并不排除有多个。权利要求中的附图标记仅仅是出于清楚起见,而不应将其解释为以任何方式对权利要求的保护范围构成限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号