首页> 中国专利> 生成语音通知作为对手写用户输入的反馈的方法以及相应的操作设备和机动车

生成语音通知作为对手写用户输入的反馈的方法以及相应的操作设备和机动车

摘要

本发明涉及一种对用户在操作设备(B)处输入的手写用户输入(12)生成作为反馈的语音通知(17)的方法,其中,提供列表(30),该列表包括能通过用户输入(12)来输入的、可能的完整词(23)连同相应的音标(25),并且对于能输入的完整词(23)中的一个或几个或每个完整词,分别从其末尾(27)起根据预定的缩减规则一次地或重复地去除预定的词尾(28),该预定的词尾包含该完整词(23)的一个或多个字符,并且与此相应地利用预定的分配规则(29)确定与词尾(28)相对应的音标结尾(3T),并且从完整词(23)的对应的音标(25)中去除该音标结尾,由此每次都生成一个部分词(28‘)和一个对应的部分音标(25‘),并且将该部分词(28‘)和该部分音标(25‘)添加至列表(30)。

著录项

  • 公开/公告号CN112368709A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 奥迪股份公司;

    申请/专利号CN201980044833.9

  • 发明设计人 J·杜西克;

    申请日2019-07-29

  • 分类号G06K9/00(20060101);G10L13/08(20130101);G01C21/36(20060101);

  • 代理机构11247 北京市中咨律师事务所;

  • 代理人吴鹏;牛晓玲

  • 地址 德国因戈尔施塔特

  • 入库时间 2023-06-19 09:52:39

说明书

技术领域

本发明涉及一种生成语音通知的方法,该语音通知作为对用户在操作设备处输入的手写用户输入的反馈。本发明还包括所述的操作设备以及具有这种操作设备的机动车。

背景技术

在机动车或其它设备、例如智能手机或平板电脑中,可以提供输入装置以供用户能够输入手写用户输入。这种手写用户输入可以例如是手写的文本或手写的词。为使用户能够检查或识别他的手写用户输入是否被操作设备正确识别,可以提出:首先以已知的方式借助于手写识别软件来识别手写输入的词,由此该词作为字母文本而存在,然后借助于语音合成(TTS-文本至语音)将所识别的词作为语音通知来输出。用户然后接收到口头的或声学的反馈,并且可以据此检查他的手写用户输入是否被正确识别。

因此,如果用户在机动车中例如想向导航助手中输入作为目的地的词“Berlin”,则他还可以通过触摸屏(触摸显示屏)来做到。为此,他可以通过用手指或输入物件(例如所谓的触笔)在触摸屏上书写来执行手写用户输入。然后,可以借助于语音合成装置将手写用户输入作为语音通知来声学地输出并且由此予以确认。这要么可以通过对该用户输入进行字母拼读(在该示例中也就是“B E R L l N”)来实现,要么可以通过将其作为完整词来读出的方式实现。

利用字母拼读方式的语音通知在认知上有可能对用户造成不便,因为在词很长时会造成混乱。因此人们感兴趣的是,以自然的方式、即以作为完整词(在该例子中即“Berlin”)来读出的方式对手写用户输入进行确认或语音通知,从而使驾驶员尤其是在驾驶机动车期间尽可能少分心。

但在此产生的问题是,用户可能由于输入暂停而中断手写用户输入。即他可能例如在写字期间停顿或停止。例如可能在机动车行驶期间需要为实施驾驶操纵而这样做。于是存在了未完成的手写用户输入,在该未完成的手写用户输入中存在未写完整的词,即对于词“Berlin”例如写了“Berl”。在此可能存在的问题是,要实现一个词的语音通知,总是需要声音上的或语音学上的音标,其规定了要通过语音通知输出哪些语音序列来在声音上或语言上表达该词。这种音标可以以音标字母表或音标拼写法为基础。这里的一个例子是国际音标表IPA。在例如地名的情况下对于完整的词可以使用导航系统的数据库,从该数据库中可以提取用于街道名和/或地名的音标。因此,在上述示例中可以使用关于完整词“Berlin”的语音音标。即在这种数据库中搜索识别出的、手写输入的词,并且然后从数据库中针对该词读取音标。但如果仅存在写了一部分的词,即存在部分词,则数据库搜索不会有发现,因为对于该部分词不存在数据库记录项。因此,部分地址是不能被解析的,因为找不到如在数据库中所记录的那样的完整词。对于包含了多个词的地址输入(例如“ChampsElysees”)而言,如果手写用户输入首先仅输入了这些词中的一个词,则情况也是如此。于是可能在数据库中得到多义的搜索结果。

此外,搜索这种数据库的计算量非常大,因此对于每次的部分输入或每次输入的部分词(即例如在每次新输入了字母后)的重复搜索都会在导航数据库中造成所不期望的计算负载。

在DE 10 2012 217 160 A1中描述了一种语音合成系统,该语音合成系统被设计用于在语音合成期间确定合适的发音。在此,可以反复地改善输出质量。在此,在合成引擎中采用对所说语言的已经记录的语音单元。因此,为了正确地说出部分词或能够找到该部分词,必须存在相应多的语音记录,即在该示例中不仅存在“Berlin”,而且还存在“Berl”。这需要非常大量的数据存储。

从DE 600 12 655 T2中公知一种用于所书写文件的音频播放装置。该音频播放装置也使用预制的音频片段来生成语音,并且如果没有找到匹配的音频片段,则生成新的音频片段。为此,将待读出的词按其音位的组成部分来分解,然后基于概率研究来确定最可能的发音。由此可能导致错误。

由DE 10 2012 006 714 A1公知一种用于输出车辆操作指令的信息的方法。操作指令可以被转换为语音来运行文字转语音装置。但在此仅完成了书写的操作指令能够作为语音通知被输出。

由DE 10 2005 021 526 A1公知一种用于将字符输入到数据处理设备中的方法。利用传感器装置依次检测多个书写元素/笔迹元素,其中每个书写元素都代表一个包括了至少一个字符的集。利用识别装置从检测到的书写元素中确定相应的字符集,以便根据所确定的字符集按照各个集所对应的书写元素的检测顺序来形成字符序列。声学输出装置按照各个集所对应的书写元素的检测顺序来输出所确定的字符集。

由US 2006/0210173 A1公知一种用于对手写识别提供提示的方法。所述提示可以与具有已知值或预期字符类型的数据库相关联。所述提示使得识别设备为进行手写识别而使用的字段的可能文本值的列表最小化,从而需要检查匹配性的选项更少并且正确识别的可能性增加。

发明内容

本发明的目的在于,即使在要输出的、用户的手写用户输入仅包含部分词、即不包含被完整写出的词或完整词的情况下,也能够作为反馈生成语音通知。

该目的通过独立权利要求的主题来实现。本发明的有利的实施方式通过从属权利要求、以下说明以及附图来描述。

本发明提供了一种用于对手写用户输入生成语音通知以作为反馈的方法。用户在操作设备处输入用户输入。按照所述方式于是可能出现如下问题:由于用户例如做了输入暂停、即中断了他的手写用户输入,于是该用户输入未给出完整词,而是仅给出了部分词。即使如此也仍应能够对至此所输入的部分词实现语音通知。为此,根据该方法,提供列表,该列表包括能通过用户输入来输入的、可能的完整词(即齐全的词)连同相应的声音上或语音学上的音标。音标描述了要在语音通知中生成何种语音序列来在口头上或声学上表达该完整词。然后,对于能输入的完整词中的一个或几个或对于每个完整词,分别从其末尾起根据预定的缩减规则一次地或重复地去除预定的词尾。该预定的词尾可以包含一个字母或字母序列。因此,从完整词后部或末尾起至少一次减掉或去除一个词尾。该词尾包括该完整词的一个或多个字符,从而从该完整词被去除了该词尾。由此每次生成一个新的部分词,即被去除了词尾的该完整词。现在的问题是,如何对该缩减后的完整词、即现在不齐全的该完整词发音。与每次被缩减的完整词相对应地,利用预定的分配规则相应确定与所去除的词尾相对应的音标结尾,并从完整词的对应的音标中去除该音标结尾,由此每次不仅生成一个部分词(即,被一次地或多次地被去除了词尾的完整词),还生成对应的部分音标(即被一次地或多次地被去除了与所去除的词尾相对应的音标结尾的完整音标)。将如此生成的部分词和对应的部分音标添加至列表。因此自动地为该列表扩充部分词(不完整的词)和对应的音标。

因此,对于包含仅书写了一部分的完整词、即部分词的手写用户输入,根据本方法也能够生成语音通知以作为反馈。为此在列表中存在对应的部分音标。此外能够在列表中成功找到该部分词,因为在列表中存有关于该部分词的明确的或特有的记录项。

通过本发明得到如下优点,即,对于不完整的手写用户输入(仅仅书写了一部分的完整词)也提供语音通知以作为反馈。

本发明还包括用于得出额外优点的实施方式。

在一个实施例中,当用户通过用户输入首先仅部分地输入了其中一个完整词、从而输入了其中一个部分词时,根据所输入的部分词从列表中找出对应的部分音标,并且基于该部分音标生成对该部分词的语音通知。因此,不必例如通过操作人员在列表中明确地输入部分词和其部分音标来实现语音通知,而是在此存在完整词和其音标的列表就足够了。通过本方法自动以所述方式向列表中扩充部分词及其正确的部分音标,然后将该部分音标用于语音通知。

在一个实施例中,利用所述缩减规则实现相应词的按字母的缩减。因此产生如完整词所具有字母那样多的部分词。这于是对应了用户在手写输入时可能生成的、作为部分词的所有可能性。因此有利地能够对在用户手写输入完整词时的每个状态都进行语音通知。

在一个实施方式中,利用所述分配规则(为词尾查找对应的音标结尾),为构成可能的完整词的一些字符或所有字符分别分配相应的音标字符或相应的音标字符序列。这是必要的,因为不是每个单独的字母都恰好对应于一个单独的音标字符。因此,对于在完整词中的每个在末尾被去除的字母(在此该去除可以一次或多次进行),都分配对应的音标字符或相应的音标字符序列,然后将该音标字符或音标字符序列作为音标结尾从相应的音标中去除。这得出了如下优点:即使当完整词的某一单个字母所对应的音标规定了多个音标字符时,也找到正确的部分音标。例如在字母“b”时可以是这种情况,该字母在音标中可以通过音标字符“2b”来表达。此外还可以根据语境来识别某一音标字符究竟是否应被去除,从而在该实施方式中可以规定,利用分配规则不分配音标字符。例如,字母序列“tt”通过音标字符序列“t”来表达。如果通过按字母的缩减方式去除了一个“t”,从而还剩余一个“t”,那么该音标字符序列“t”不应也被去除,因为它仍然表达剩余的字符“t”。因此分配规则可以有利地表达或考虑该语言特点。

在一个实施例中,列表被作为独立的查找表(LUT)提供在操作设备的存储器中。这得出了如下优点:对部分词及其部分音标的搜索能够不依赖于存储了原始提供的列表的数据库来执行。这防止了在操作设备运行时数据库的负荷。规定了完整词和部分词与相对应的音标和部分音标的分配关系的列表的查找表相比于用于提取原始列表的导航数据库24能够以更小的数据量来实现,从而能够进行相应快速和/或低资源的搜索。

在一种实施方式中,从导航数据库中提取可能的完整词的列表。因此,可以对导航数据库的数据库记录项执行语音通知。在此然后借助该方法对在手写用户输入时由于输入中断或输入暂停而能够生成的可能的部分词进行自动地补全。

在机动车中的操作设备中使用所述方法是特别有利的。因此,在机动车中运行操作设备。在此在手写用户输入时可能会由于例如机动车的用户必须专注于道路交通并且因此搁置输入而发生输入暂停。

为了执行该方法,通过本发明还提供了一种操作设备,其具有用于接收手写用户输入的输入装置、用于输出语音通知的输出装置和处理器装置。手写用户输入可以由输入设备例如经由触摸板或触摸屏来接收。用于输出语音通知的输出装置例如可以基于本身从现有技术中已知的TTS系统来实现。处理器装置被设置用于执行根据本发明的方法的实施方式。为此,处理器装置可以包括至少一个微控制器和/或至少一个微处理器。处理器装置可以具有程序代码,该程序代码包含程序指令,这些程序指令被设置用于,在由处理器装置执行这些程序指令时执行根据本发明的方法的实施方式。程序代码可以存储在处理器装置的数据存储器中。

在一种实施方式中,操作设备被设置用于在用户输入期间识别输入暂停。这例如可以通过如下方式实现:识别用户输入的变化、即例如用户所画出的线的变化在预定的最小时长内(例如在0.5秒至5秒的范围内)持续不变和/或作用到输入装置上的力小于预定的阈值。此外,所述操作设备被设置用于在识别到输入暂停的情况下借助于输出装置将此前通过输入装置接收到的部分词作为语音通知输出。该部分词的为此所需的部分音标能够以所描述的方式通过被扩充了部分词及其部分音标的列表来提供。

通过本发明还提供一种机动车,其具有根据本发明的操作设备的实施方式。根据本发明的机动车优选设计为汽车,尤其是轿车或载重汽车。特别是在机动车中有很高可能性在手写用户输入时以所述方式出现输入暂停。因而在此实施根据本发明的方法是特别有利的。

本发明还包括所描述的实施方式的特征的组合。

附图说明

下面描述本发明的实施例。为此唯一的附图示出:

附图是根据本发明的机动车的一种实施方式的示意图。

具体实施方式

下面阐述的实施例是本发明的优选实施方式。在实施例中,实施方式的所描述的部件分别是本发明的各个可彼此独立地考虑的特征,这些特征也分别彼此独立地改进本发明。因此,本公开还应包括实施例的特征的与所示组合不同的其他组合。此外,所述实施方式也可以通过本发明的其他已经描述的特征来补充。

在附图中,相同的附图标记分别表示功能相同的元件。

附图示出机动车10,该机动车可以是汽车、尤其是轿车或载重汽车。然而,代替机动车10,也可以使用其他设备,例如智能手机或平板电脑。下面仅为了清楚起见以机动车为例。

在机动车10中可以使用输入装置11来输入或接收手写用户输入12。手写识别装置13(HWR)可以根据用户输入12识别输入的词14。词14可以是如图所示的完整词或输入的部分词15。示例性地示出的部分词“Berl”可以是完整词“Berlin”的开头部分。通常,一个完整词是一个齐全的词,一个部分词是一个不齐全的词。可以规定,在识别输入停顿时,如果用户在输入装置11上中断其用户输入达到了例如预定的最小时长,则由输出装置16例如借助于输出装置16的扬声器装置18将已经输入的部分词15作为语音通知17输出给用户,以便用户可以听到他目前已经写了什么或者目前已经识别到什么。向语音通知17的转换可以以本身公知的方式借助语音合成系统19(TTS系统)进行。

但要生成语音17,语音合成系统19需要语音音标20,该语音音标20描述了表达所识别到的词14的语音序列。在部分词15的情况下,需要音标20,该音标在此被称作部分音标21,这是因为该部分音标是部分词的、即不齐全的词的音标。语音合成系统19可以附加地或备选地被设置用于确定完整词23本身的音标。这在例如想要通过语音输出来输出消息(News)或SMS消息(SMS短消息服务)的情况下是已知的。但缺点是,与使用外部的(导航数据库)的已有音标相比,这种在内部生成的音标通常更差/更不准确。因此,对于生成尽可能最好的TTS质量的要求,本方法也是有益的。

为了获得该部分音标,可以作如下规定:

可以例如从导航数据库24(NavDB)中提取用户能输入的可能的完整词23的列表22。从该导航数据库24中可以针对每个完整词23还提取对应的音标25,即完整词音标,从而该列表22包括针对每个完整词23的音标25。列表22可以包含比所示的三个完整词更多的完整词,这通过省略号26(“…”)来表示。

对于每个或一些或一个完整词23,可以作如下规定。这在图中以完整词“Berlin”为例来说明。可以从完整词23的词尾27依次分别去除一个预定的词尾28。词尾28的序列可以例如与按字母对完整词23进行的缩减相对应。在此,完整词23所具有的或所对应的音标25必须也被缩减。但是在此不是完整词23中的每个字母都对应于音标25的一个单独的音标字符。因此,可以设置分配规则29,该分配规则为每个字母或者一般而言为每个可能的词尾C都分配一个相对应的音标字符或者分配一个相对应的音标字符序列S(例如“i:”)。

因此,从完整词23的音标25中可以根据所去除的词尾28从分配规则29中对应一个相应的音标结尾31‘并且从音标25中去除该音标结尾。因此,对于每次剩余的部分词28‘得出对应的部分音标25‘。在去除词尾28时,可以总是从完整词23出发来进行每一步骤的去除并从该完整词23缩减越来越长的词尾(如图中所示),或者部分词28‘的每个去除步骤都可以从上一步骤出发来进行。这两种操作方式是等效的。

这两种操作方式可以与可能的完整词23一起被存储在扩展后的列表30中,该列表可以被设计为查找表(LUT)并且可以被存储在操作设备B的存储器31中。

在机动车10中可以提供操作设备B,用户借助于该操作设备可以例如为了向导航系统或导航助手中输入导航目的地而手写地执行用户输入12。

如果现在接收到用户输入12并且存在识别到的单词14,则为实现语音通知17,可以在扩展后的列表30中检查:在该列表中是否包含所识别到的部分词15。如果搜索结果32是否定的,则可以借助于语音合成系统19的语音合成将该部分词15以字母拼读33的方式来输出。在搜索结果32‘成功的情况下,即在列表30中识别到该部分词15的情况下,则可以从列表30中读取所对应的部分音标21并且将其提供给语音合成系统19。然后该语音合成系统可以基于该部分音标21生成语音通知17。因此,用户在执行输入暂停时听到目前所书写的或输入的部分词15。

下面结合机动车10和导航数据库24描述一种特别优选的实施方式。

TTS系统(语音合成系统19)与查找表LUT相联接,该查找表包含街道和地名的所有可能的正字法变型以作为关键词,该查找表包含这些变型的相对应的音标、即部分音标21以作为值。

从导航数据库24中预先提取(完整词)拼写和音标并且将其存储在查找表LUT中。该LUT然后可以在运行期间与TTS系统相联接。通过从导航数据库24向自身的TTS资源(列表30)中转移对于TTS重要的数据(词和音标),解决了存取时间的问题。

如果直接从导航数据库24接收信息,则将不能解决在地址输入不完整的情况下——例如(对于“Frankfurt”)输入“Frankfu”或(对于“Chaussee”)输入“chaus”——的发音的问题。

因此还要对来自导航数据库24的拼写和音标进行进一步处理。

通过启发式算法(分配规则29)可以将拼写与对应的音标同步地分解为各单个部分或各部分词28‘。这例如可以基于音节或基于字符来进行。

最终对导航数据库24的所有记录项都进行这种对拼写和音标的分解。该结果被纳入到LUT中,即扩充列表30中,然后可供TTS系统的高性能调取使用。

通过该方法可以对用户在例如借助触摸屏来输入地址的范围内的每次部分词输入都实现正确的声学确认。通过与LUT的紧密关联,可以几乎无延迟地提供基础数据。尤其是借助该方法还能够可靠地处理不齐全的输入,因为在LUT中对于所有变型都存储了语音音标。

所述分解基于如通过分配准则29实现的启发式算法进行,并且可以采取不同的表现形式。合理的可行方案是例如基于音节或基于字符作为缩减规则的分解方案。

以完整词“Westerbüttel”为例,利用“按字母”的缩减规则,进行如下缩减:

从导航数据库24中仅能够提取到第一完整词-记录项“Westerbüttel”及其音标“'vEs.t$R.'2bY.t$l”。然后,通过算法生成所有其他记录项。在所示的各变型中,地点“Westerbüttel”被在末尾每次缩减一个字符或字母。在音标中进行了相同的缩减。

然而,在此1比1的缩减并不总是可行的。例如,“Holzchaussee”的音标发音如下:“'hOlt&s.SO.'2se:”。在此仅是字母“z”的音标就被规定为“t&s”。类似于此,则在该例子中对于“ch”<->“S”的组合以及“au”<->“O”的组合也是困难的,并且必须由算法加以适当地处理。

该应用方案原则上可以应用于所有音标字母,但为此需要在启发法(分配规则29)中进行匹配。

总之,这些示例示出了本发明如何能够在手写识别范围内提供部分音标以提高TTS合成的质量(TTS-文本至语音)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号