首页> 中国专利> 用于将口授转录到文本文件中并对该文本进行修订的方法及系统

用于将口授转录到文本文件中并对该文本进行修订的方法及系统

摘要

该发明涉及一种用于转录口授的方法及转录系统(T),在该方法和系统中将口授文件(5)转换成文本文件(8),并且随后对文本文件(8)和口授文件(5)进行比较。为了提高随后的校正速度,在转录口授文件(5)过程中为文本文件(8)的所转录文本片段产生一置信值,并且只有在其文本片段的置信值低于置信界限的情况下,也就是说存在其被识别为可能是有错误的文本片段的情况下,对文本文件(8)和口授文件(5)进行比较。

著录项

  • 公开/公告号CN1578976A

    专利类型发明专利

  • 公开/公告日2005-02-09

    原文格式PDF

  • 申请/专利权人 皇家飞利浦电子股份有限公司;

    申请/专利号CN02821769.1

  • 发明设计人 K·弗里庞-安萨;

    申请日2002-10-24

  • 分类号G10L15/10;G10L15/26;

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人傅康;叶恺东

  • 地址 荷兰艾恩德霍芬

  • 入库时间 2023-12-17 15:51:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-11

    专利权有效期届满 IPC(主分类):G10L15/10 专利号:ZL028217691 申请日:20021024 授权公告日:20060809

    专利权的终止

  • 2009-09-09

    专利申请权、专利权的转移(专利权的转移) 变更前: 变更后: 登记生效日:20090731 申请日:20021024

    专利申请权、专利权的转移(专利权的转移)

  • 2006-08-09

    授权

    授权

  • 2005-04-13

    实质审查的生效

    实质审查的生效

  • 2005-02-09

    公开

    公开

说明书

本发明涉及这样一种用于转录口授的方法,在该方法中将口授文件转换成文本文件。

本发明还涉及这样一种转录系统,该转录系统利用用于将口授文件转换成文本文件的装置来转录口授。

通过转录服务而将已以各种方式所记录的口授转换或者转录成文本文件。通常,自动语言识别系统用于转录口授。因为以这种方式所获得的文本总是包含某一比率的错误或者不当的文本片段,因此在转换之后必须对所转录的口授进行检查,并且校正包含在文本文件中的错误。通常,由播放口授文件并且与此并行的检查文本文件的校正操作人员通过对文本文件与口授文件进行比较来负责该校正。如果校正操作人员拾取到有错误的或者不当的转录或者文本片段,那么有错误的或者不当的文本片段被替换为不同的文本片段。该校正工作是极端耗时的,因此相当大的增加了转录成本。因为无误差转录实际上是从不会实现的,因此不能省去随后的校正。因此,其一个目的就是在转录之后进行尽可能快的且有效的校正工作。

在US 5712957专利文献中,公开了一种用于对已转录的口授进行校正的方法,在该方法中提供了已转录文本以及即就是备选文本片段这样的可能假设并且按照两种不同的方式对其进行评估。通过这两者评估的组合来提供转录结果。尽管该方法降低了转录文本中的误差概率,但是仍必需由校正操作人员进行随后耗时的检查。

US 6064961专利文献公开了这样一种用于将所转录的文本示出在窗中以进行检查的方法,在该方法中当前正在检查中的文本段总是出现在窗中所定义的且所集中的位置上。这便于对所转录的文本进行校对,这最好也只不过使其略微的加快。

本发明的一个目的就是通过改进耗时的校正法而使用于转录口授的方法加速,以便尽可能快的将即就是精加工文本这样的转录结果传送给口授作者。同时还可降低转录的成本。

本发明的另一个目的在于创建一种用于转录口授的转录系统,该转录系统使转录尽可能的最快且最有效,以便尽可能快速的且无差错的使口授作者得到精加工的文本。

通过这样一种方法而实现了本发明的目的,即在该方法中产生了与其可靠性有关的所转换或者所转录文本片段信息并且为相关的文本片段产生了一置信值,并且只有在其置信值低于置信界限的文本片段的情况下,即存在其被识别为可能是有错误的文本片段的情况下,才将文本文件与口授文件进行比较。由于尽可能的为所转录的文本片段确定置信值这样有利的附带条件,因此当校正所录制的文本时利用该方法可节省相当大的时间。当应用根据本发明的方法时,经验表明校正操作人员只需听到10%-20%的口授。

另外的好处是被识别为可能是有错误的文本片段被标记。这例如可通过在成问题的文本片段下划线或者通过彩色标记以使其加亮来实现的。

最好是利用语音识别设备自动将口授文件转换成文本文件。

根据本发明的进一步特征,提供了在校正过程期间在对文本文件与口授文件进行比较时可根据相关转录文本片段的置信值来改变口授的播放速度。在这里,相关性根据被识别为可能是有错误的文本片段的标记而可以是多阶段的。例如,在其被识别为很可能是有错误的文本片段情况下,播放速度相当大的降低了,然而在其被识别为不太可能是有错误的文本片段情况下,口授的播放速度增至所规定的最大值。例如,播放速度可以在正常的50%和200%之间变化。

如果可有利的设置置信界限,那么可使效率进一步增加。

为了改进最终结果,可利用已增加的置信界限来重复对文本文件和口授文件进行比较,以便只识别其具有高错误概率的文本片段,并且只对这些错误进行校正。尽管由于第二比较过程而使转录的总时间增加了,但是这对某些应用或者乃至所规定的应用都是非常有利的。

本发明的目的还可通过这样一种用于转录口授的转录系统来实现,该转录系统包括用于将口授文件转换成其具有文本片段的文本文件的转换装置,包括用于对文本文件和口授文件进行比较的文件比较装置,包括用于为每个所转换的文本片段产生一置信值的置信值产生装置,并且还包括用于对置信值和置信界限进行比较的比较装置,在该转录系统中文件比较装置仅在其置信值低于置信界限的文本片段的情况下对文本文件和口授文件进行比较,也就是说文件比较装置在存在其被识别为可能是有错误的文本片段的情况下进行比较。

因此,有利的提供了用于对其被识别为可能是有错误的文本片段进行标记的标记装置。该标记在转录的过程中可以作为被分配给所识别文本片段的置信值的函数。标记例如可用于加亮其置信值低于置信界限的其被识别为可能是有错误的文本片段。

以语音识别设备形式的用于将口授文件转换成文本文件的装置是有利的。

对于本发明的一个实施例而言,提供了这样一种设备,该设备改变口授文件的播放速度作为被识别为可能是有错误的文本片段的函数。播放速度的改变可以在两个固定值之间或者若干个值之间进行作为对特定转录文本片段的置信值和置信界限的比较结果的函数。

还有利的提供了用于输入置信界限并且从而改变置信界限的这样一个装置,利用该装置还可使特定文本片段的置信值与特定要求相匹配或者根据校正操作人员的经验而使其相匹配。此外,可提供与所改变的置信界限相一致的校正。

为了使口授的作者便于最后的校正,还提供了这样一个装置,该装置用于对这样一种转录文本中的其被识别为可能是有错误的文本片段进行加权,该转录文件即就是其内存在有可能错误或者不一致性。口授的作者也可使用这些装置以进行最后的校正以便向校正操作人员指出即使是在校正之后哪个文本片段仍然是有错误的,其结果是,将对转录处理来说是很重要的信息集聚在一起。

另外参考附图中所示出的实施例对本发明进行详细的描述,然而,本发明并不局限于此。

图1给出了传统的转录系统的方框图;

图2给出了利用其被识别为可能是有错误的文本片段来对文本文件进行校正之后的流程图;

图3给出了用于对所转录的文本进行校正的传统方法的流程图;

图4给出了根据本发明的用于对所转录的文本进行校正的方法的两种变型;

图5示意性的给出了在根据本发明的方法中用于改变置信界限的方法;

图6给出了根据发明的转录系统的一部分的方框图。

图1示意性的给出了转录系统T的方框图,作者A利用该转录系统可创建其存储在口授设备1或者个人计算机2或者便携式计算机3中的一口授。作者A还可口授到电话4中,此后将该口授例如存储在中央计算机中。口授设备1提供了其包含有数字语音信号的口授文件5。这种其包含有数字语音信号的文件的合适格式例如是一WAV文件。同样地,通过电话4所寻址的个人计算机2或者便携式计算机3或者中央计算机提供了其包含有数字语音信号的相应口授文件5。通常将口授文件5或者语音信号6送到语音识别设备7,在该语音识别设备7中将口授文件5或者语言信号6自动转换成文本文件8。为了识别语音,语音识别设备7访问这样的信息数据库9,即该信息数据库中包含有其可被识别的多个可能的字。因此,应当考虑例如特定应用范围(例如医药领域)的语言分布图以及句法。当然,文本文件8包含若干有错误的或者不当的文本片段,随后必须对这些文本片段进行校正。其结果是,将文本文件8传送到为此目的所提供的文件比较装置,在下面还将该文件比较装置称为校正设备。在校正设备10中,对文本文件8和口授文件5进行比较,这通常是由校正操作人员来完成的,借此来播放或者再现作者A的声信号,并且对文本文件8和屏幕上或者另一个显示设备上所示出的文本文件8的文本进行比较。该校正处理当然需要异常大量的时间,并且占用了总处理时间的一大部分。经常重复该校正处理至少一次。

图3给出了用于对所转录文本进行校正的传统程序流程的流程图400。口授文件5的一部分语音信号6之上有文本文件8的五个文本片段W(n-3)、W(n-2)、W(n-1)、W(n)、以及W(n+1)。根据流程图400的块408,试图开始语音信号6或者口授文件5,并且启动播放口授文件5或者语音信号6以及例如在屏幕上同时显示文本文件8。根据块409,为了帮助校正操作人员进行定位,根据语音信号6中的位置而沿着文本文件8的文本来移动光标或者类似物,或者通过相关文本片段W(n)并且最多是通过先前文本片段W(n+1)以及随后文本片段W(n-1)的对应标记而给出了文本中的当前位置。根据块410,例如通过在文本片段下划线或者通过改变文本片段的颜色而使当前文本片段加亮。校正操作人员读取所显示的文本文件8的文本并且同时听取语音信号6,并且按照他的判断来校正其是有错误的或者不当的文本片段。例如通过用已校正的文本或者多个合适文本或者部分文本来覆盖其被标记为有错误的文本片段W(n)来进行该校正。

继校正处理之后,将校正文本11传送到用于质量控制的设备12。通常还由用于对口授文件5和已校正文本11进行比较的操作人员来负责该质量控制阶段。最后,根据图1中的块14,将所检查的文本文件13发送给作者A以细读。这例如是由通过电子邮件来发送已校正的且已检查过的文本文件13而完成的。一旦作者A检查了文本,他将带有这种意思的一消息发送到转录位置,因此例如通过发出清单而结束该转录。

根据块14,在这种转录处理过程中很重要的是使记录作者A的口授与接收到作者A所精加工的文本之间的时间间隔最小。在自动语言识别系统中,校正及任何质量控制占用了大部分的时间间隔。因此主要的目的是减少时间间隔并且从而相当大的缩短了整个转录处理,并且其结果是,使转录成本很低。

图6给出了转录系统T的对于本发明很重要的这部分的方框图。将口授文件5传送到语音识别设备7并将其转换成文本文件8,如结合图1所描述的。语音识别设备7安装有置信值产生装置25,该置信值产生装置用于为所转换的文本片段W(n)产生一置信值。产生这种置信值是为本领域普通技术人员所熟知,并且例如按照A.Wendemuth,G.Rose,J.G.A.Dalting:Advances in ConfidenceMeasures for Large Vocabulary;Int.Conf.on Acoustic Speechand Signal Processing 1999来进行处理。

参考该文件,其所公开的被认为是也包含在这里。置信值产生装置25所提供的置信值可以在零(0)至一千(1000)的置信值范围内,由此一千(1000)置信值是指可以99.99%的可靠性来正确的识别或者转录文本片段W(n)。这里还提到了同样可由诸如从零(0)至一百(100)这样的不同范围来表示置信值。

将所生成的文本文件8从语音识别设备7发送至下游校正设备10,该校正设备10用于显示文本文件8并播放口授文件5,并且识别且标记可能有错误的文本片段W(n)。校正设备10与显示设备20以及输入装置19相连,该显示设备20用于显示文本文件8,该输入装置还用于手动的改变置信值。校正装置10安装有加权装置21,提供该加权装置并且其用于人工的对文本文件8的文本片段W(n)进行加权。校正装置10还配备有一设备22,该设备用于改变文本文件8的文本片段W(n)的播放速度。同时校正装置10还包含有标记装置23和比较装置24,该标记装置用于标记文本片段W(n),比较装置24用于对置信值和置信界限进行比较。

图2给出了根据本发明的在转录系统T的校正设备10中所运行的处理的流程图300。根据块301,打开例如WAV文件的口授文件,并且根据块302,在诸如屏幕这样的显示设备20中再现置信值或者置信信息。在标记装置23中根据图6来表示置信信息或者来标记文本片段,并且这是以各种方式来实现的,例如通过改变屏幕上所显示的文本颜色、即通过根据相关的置信值而使文本片段W(n)着色、或者通过根据相关的置信值而使文本片段W(n)的背景着色。在这里,例如可根据这样的线性颜色配置文件来确定文本片段W(n)的颜色显示,即红色表示最小的置信值、绿色表示最大的置信值。应当注意的是对文本片段W(n)进行标记还可间接的进行,因为与所标记的文本片段W(n)相比所有其他文本片段的颜色表示改变了。根据块303,由用户或者校正操作人员来选择置信界限CG,并且根据块304,检查文本的可能错误。置信界限CG例如可以是最大置信值范围的80%或者90%。因此,对于每个文本片段W(n)而言,在块305进行置信值差值C(n)是小于、等于、或者大于置信界限CG这样的查询。如果置信界限CG大,那么此后根据块306,不对所选择的可能有错误的文本片段W(n)进行标记。如果置信界限CG小于或者等于,那么对可能有错误的相应文本片段W(n)进行标记。利用根据流程图300所识别的文本文件8中的错误,可对所转录的文本或者文本文件8进行更加迅速的校正。在校正过程中当对文本文件8和口授文件5进行比较时,按照这样一种方式来进行校正,即仅跳过其被识别为可能是有错误的文本片段,并且必须由校正操作人员来对其被识别为可能是有错误的文本片段进行校正。以这种方法可节省大量的时间,因为校正操作人员不必听取整个口授文件5。以这样一种方法来进行校正,即作为被识别为可能是有错误的文本片段的函数来改变口授或者口授文件5的播放速度,由此在其未被标记为可能是有错误的文本片段的情况下可将播放速度例如增加到其两倍,然而当播放可能有错误的文本片段时会降低播放速度。

图4给出了根据本发明的方法的两种变型的流程图500A和500B。再次示例性的给出了位于语音信号6之上的连续6个文本片段W(n-3)至W(n+2)的序列。在所示出的例子中,如阴影线所示的,即就是W(n-2)、W(n-1)、以及W(n+1)这三个正文片段被识别为可能是有错误的并且因此对其进行标记。

根据流程图500A,根据块511,打开与口授文件5相并行的文本文件8或者语音信号6并且对其进行播放,并且根据块512,显示设备20示出了所转录的文本,该显示设备20可以是一监控器。根据块513,在播放语言信号6或者口授文件5的过程中跳过其被分类为未有错误的那些文本片段,并且用于对从那儿到下一个连续的其被标记为未有错误的正文片段进行播放,因此出现跳跃以开始其被标记为有错误的下一个文本片段W(n)。根据块514,检查是否已经到达口授文件5或者文本文件8的结尾,由此如果该问题的确定结果是否定,那么继续进行到块513,并且如果结果是肯定的,那么结束该流程。

根据流程图500B,首先,根据块520,启动语音信号6或者口授文件5,同时接着此而启动相关的文本文件8,并且根据块521,开始播放语言信号6或者口授文件5。根据块522,检查是否已经到达文本文件8或者口授文件5的结尾,由此,在肯定结果的情况下,结束该流程。否则,在块522的检查是否定结果的情况下,在块523检查正文片段W(n)是否已经被标记为有错误的,由此,在肯定结果的情况下,流程继续到块524,或者否则,跳过块525。根据两个块524和块525来改变播放语音信号6以及显示文本文件8的播放速度。例如根据块525,其被标记为未有错误的正文片段W(n-3)、W(n)、以及W(n+2)的播放速度是正常播放速度的两倍,并且根据块524,将其被识别为可能有是错误的并且因此被标记的文字片段W(n-2)、W(n-1)、以及W(n+1)的播放速度选为正常播放速度的一半。

图5示例性的给出了利用其来人工的改变置信值的方法。再次以六个连续文本片段W(n-3)至W(n+2)的形成示出了文本文件8的一部分,并且在分布图5中草拟了所自动产生的置信值的分布图。根据分布图15,文本片段W(n-2)、W(n)、以及W(n+2)具有比剩余的文本片段更低的置信值。如果校正操作人员现在根据分布图16而人工的分配置信值,那么可对置信值分布图进行校正。例如,在播放文本文件8的过程中,校正操作人员可利用诸如键盘这样的输入装置19来记录文本片段W(n-2)和W(n)以及W(n+2)可能是有错误的。根据分布图17,通过使自动所确定的置信值分布图15和人工的置信值分配16组合在一起,产生了最终的置信值分布图,并且其结果是只将文本片段W(n)分类成可能是有错误的。通过有经验的校正操作人员的分配,可实现使其被识别为或者被分类为可能有错误的文本片段的数目极大的降低,这节省了随后校正的时间。

根据本发明的用于转录口授的方法或者系统用于转录文本的传统校正以及转录文本的质量控制过程中。与传统的必须倾听整个口授的传统校正法相比,经验表明可使校正时间节省最多90%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号