首页> 中国专利> 一种基于场景的实时语音识别系统和方法

一种基于场景的实时语音识别系统和方法

摘要

本发明提供了一种实时语音识别系统和方法。该实时语音识别方法包括:采集当前用户的当前语音和当前场景信息;构建当前用户对应的当前场景语言模型;根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型;调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。本发明实施例通过结合各类场景信息以线下和线上相结合的方式构建语言模型,可以有效提升识别语音的准确率。

著录项

  • 公开/公告号CN105448292A

    专利类型发明专利

  • 公开/公告日2016-03-30

    原文格式PDF

  • 申请/专利权人 北京羽扇智信息科技有限公司;

    申请/专利号CN201410407362.2

  • 发明设计人 雷欣;沈李斌;

    申请日2014-08-19

  • 分类号G10L15/06(20130101);G10L15/28(20130101);

  • 代理机构北京汉昊知识产权代理事务所(普通合伙);

  • 代理人朱海波

  • 地址 100080 北京市海淀区海淀北二街8号9层1001

  • 入库时间 2023-12-18 15:12:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-12

    授权

    授权

  • 2016-04-27

    实质审查的生效 IPC(主分类):G10L15/06 申请日:20140819

    实质审查的生效

  • 2016-03-30

    公开

    公开

说明书

技术领域

本发明涉及语音识别技术,尤其涉及一种基于场景的实时语音识别系 统和方法。

背景技术

现有的语音识别中,通常基于各领域语料组建的通用语言模型,结合 相应的声学模型来识别语音对应的文本。其中的通用语言模型中的语料一 般比较庞杂、更新速度较慢,没有针对性,导致语音识别结果往往准确性 不高。特别对于同音或近似的语音,现有的语音识别技术并不能较好地提 供准确的识别结果,例如,采集到用户的语音为“xinxinjie”,现有的语 音识别技术并不能较好地判断该语音对应的文本是“新星街”还是“欣欣 街”还是其他相似文本。

发明内容

本发明解决的技术问题之一是提升语音识别的准确率。

根据本发明的一个方面的一个实施例,提供了一种基于场景的实时语 音识别系统,包括:

语音采集装置,被配置为采集当前用户的当前语音;

静态语言模型构建装置,被配置为基于采集的历史场景信息,构建与 不同场景类型相对应的静态语言模型;

场景语言模型构建装置,被配置为实时采集当前用户的当前场景信息, 构建当前用户对应的当前场景语言模型;

语音识别装置,被配置为根据当前场景信息判断当前场景的类型,并 从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中 搜索与当前场景的类型相对应的静态语言模型,调用通用语言模型,基于 通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的 混合以及声学模型,识别当前用户的语音。

现有技术的实时语音识别系统只用通用语言模型识别,通用语言模型 不针对具体的场景,而类型的场景中很多对话上下文会重复出现,因此, 利用基于具体的场景的模型识别可以提高实时语音识别的准确度和效率。 由于本发明的实施例通过统计和分析大量的历史场景信息,构建与不同场 景类型相对应的静态语言模型,也即为不同的场景类型关联不同的静态语 言模型,这种针对场景的模型识别有利于提升语音识别的准确性;另外, 本实施例通过在线实时构建对应的当前场景语言模型,这种实时构建的语 言模型进一步结合了当前用户的个性化信息,提升了语音识别的准确性。

根据本发明的一个实施例,所述语音识别装置包括:

并行计算单元,被配置为并行计算当前用户的当前语音的各候选识别 结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景 语言模型下的概率分数;

识别单元,被配置为基于各模型对应的权重对各候选识别结果在各模 型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行 排序,识别当前用户的当前语音对应的文本。

由于本实施例并行计算各语言模型下的概率分数,而不是顺序计算, 可以有效保证语音识别的实时性。

根据本发明的一个实施例,场景信息包括大致地理位置、时间、周边 人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边 活动中的一项或多项限定的,静态语言模型构建装置根据历史场景信息而 构建的与不同场景类型相对应的静态语言模型是如下构建的:

将历史语料按照场景分类至特定场景的类型中,每个特定场景的类型 对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态 语言模型。

由于本实施例结合了诸如大致地理位置(如大的商圈,中关村商圈)、 时间(如语言模型中的语料获取的时间、用户的当前时间等)、周边人物、 周边活动等信息来限定不同的场景类型,相比于单一方式例如仅用地理位 置限定的场景更能反映场景的不同特点,使场景的定义更贴近实际,从而 使不同的场景对应的模型也能更好地被训练,进一步提升语音识别的准确 率。

根据本发明的一个实施例,场景语言模型构建装置被配置为:

根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索相 关内容,根据实时搜索到的相关内容,构建当前用户对应的当前场景语言 模型。

由于本实施例可以以用户的具体地理信息为线索去实时获取更多的 与该用户及该具体地理位置相关的信息,从而可以快速有效地构建与该用 户相对应的个性化的当前场景语言模型,进一步提高了语音识别的效率和 准确度。

根据本发明的一个实施例,识别单元被配置为:

预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权, 根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当 前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述 预设的各模型的权重,用于下一次语音的识别;和/或

预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置 信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下 的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行 排序,识别当前用户的当前语音对应的文本。

本实施例提供的针对各模型的权重进行调整的方案相比于权重一成 不变的方案,可以在每一次识别后通过反馈或根据置信度不断使识别更贴 近客观实际。

根据本发明的一个实施例,所述大致地理位置通过用户终端的定位系 统定时上报或用户终端自动检测提供的地理位置中获得;

周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定 位信息来确定;

周边活动通过获取其他用户终端或商户终端自动检测提供的地理位 置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息 来确定。

本实施例通过获取并综合当前用户终端和其他用户终端所提供的多 维度的信息,相比于只从一个渠道获取,可以更准确地确定相应的场景信 息。

根据本发明的一个实施例,当前用户的具体地理位置通过实时查询用 户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘 信息中的一项或多项获得。

本发明的一个实施例还提供了一种基于场景的实时语音识别方法,包 括:

采集当前用户的当前语音和当前场景信息;

构建当前用户对应的当前场景语言模型;

根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构 建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相 对应的静态语言模型;

调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当 前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。

根据本发明的一个实施例,所述基于通用语言模型、搜索出的静态语 言模型、当前用户对应的当前场景语言模型的混合识别当前用户的语音的 步骤包括:

并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜 索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;

基于各模型对应的权重对各候选识别结果在各模型下的概率分数进 行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用 户的当前语音对应的文本。

根据本发明的一个实施例,场景信息包括大致地理位置、时间、周边 人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边 活动中的一项或多项限定的,所述根据历史场景信息而构建的与不同场景 类型相对应的静态语言模型是如下构建的:

将历史语料按照场景信息分类至特定场景的类型中,每个特定场景的 类型对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应 静态语言模型。

根据本发明的一个实施例,构建当前用户对应的当前场景语言模型的 步骤包括:

根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索相 关内容,根据实时搜索到的相关内容,构建当前用户对应的当前场景语言 模型。

根据本发明的一个实施例,基于各模型对应的权重对各候选识别结果 在各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别 结果进行排序,识别当前用户的当前语音对应的文本的步骤包括:

预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权, 根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当 前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述 预设的各模型的权重,用于下一次语音的识别;和/或

预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置 信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下 的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行 排序,识别当前用户的当前语音对应的文本。

根据本发明的一个实施例,所述大致地理位置通过用户终端的定位系 统定时上报或用户终端自动检测提供的地理位置中获得;

周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定 位信息来确定;

周边活动通过获取其他用户终端或商户终端自动检测提供的地理位 置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息 来确定。

根据本发明的一个实施例,当前用户的具体地理位置通过实时查询用 户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘 信息中的一项或多项获得。

本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、 附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛 的,且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本 发明的其它特征、目的和优点将会变得更明显:

图1示出了现有技术中进行语音识别的示意性框图;

图2示出了根据本发明的一个实施例的实时语音识别方法的流程图;

图3示出了根据本发明的一个实施例的实时语音识别系统的示意性框 图;

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。本领域普通技术人员将了 解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅 限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权 利要求限定本发明的范围。

图1示出了现有技术中进行语音识别的示意性框图,下面对图1所示 的语音识别技术进行简要地说明。

根据图1,现有技术中,通常根据大量的语音数据和文本数据分别建 立语音数据库和文本数据库,通过从语音数据提取语音特征,训练声学模 型,利用文本数据训练语言模型。当接收到输入的待识别语音时,通过提 取该语音的特征,通过声学模型识别出音节,通过查询字典中音节与文本 的可能映射关系,利用语言模型进行语音解码,通过相应的搜索算法,输 出该语音对应的文本。

由于现有技术中所用的语言模型为通用语言模型,任何输入的语音都 基于固定的语言模型来识别,导致语音识别缺乏针对性,不能针对不同场 景下的用户(例如用户在早上、单位、和上司说话的语言模式可能与用户 在晚上、家里、和小孩说话的语言模式不同)提供个性化的、准确的输出 文本。

图2示出了根据本发明的一个实施例的实时语音识别方法2的流程图。

在步骤s1中,采集当前用户的当前语音和当前场景信息。

具体地,当前用户的当前语音可以通过诸如录音单元等任何具有音频 采集功能的装置来采集。当然,在步骤S1中,还可以对采集的语音进行 去重和降噪、提取语音特征等处理。例如,采集到当前用户的当前语音为 “xinxinjie”。

场景是指用户说一句话时所处的条件和环境,例如说话的地理位置、 时间、周围人物是谁、周围活动是什么(在什么活动中说的)等。此处的 当前场景信息包括诸如当前用户的地理位置、时间、周边人物、周边活动、 用户终端存储和检测到的其他信息(如终端上各app使用的频率、日历信 息)等。其中的当前场景信息可以通过以下方式来获取:

对于当前用户的地理位置,通过当前用户终端的定位系统定时上报的 地理信息或用户终端自动检测提供的地理信息中获取,典型地,通过实时 查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储 的备忘信息、日历信息中的一项或多项获得。例如,当前用户通过手机发 了一条短信“我现在在A公司楼下等你”给其他用户,则根据该短信内容 获取其中的地理信息“A公司”,通过查询第三方提供的地图数据,查询 与该地理信息“A公司”对应的地理位置。

对于时间,可以通过诸如当前用户终端的定位系统所提供的时间或用 户终端的时钟所提供的时间或采集当前用户的当前语音的服务器所提供 的时间等多种方式来获取。

对于周边人物,可通过获取其他用户终端自动检测所提供的地理位置 或GPS定位信息来确定。例如,当前用户位于“鼎好大厦”,而根据GPS 定位信息,获知A、B、C等多个用户位于“鼎好大厦”附近,则将所获 知的A、B、C等多个用户作为当前用户的当前周边人物。

另外,周边人物通过识别用户通话中的声音、获得用户终端的短信信 息、获得用户终端存储的备忘信息中的一项或多项获得。例如,检测到通 话中出现了“老板,我……”,则识别出是与老板说话。周边人物不一定 是具体的人,可能是一类身份的人的总称,因为用户可能对于某一类身份 的人表现为类似的说话模式。

对于周边活动,同理可通过获取其他用户终端或商户终端自动检测提 供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供 的活动信息来确定。例如,商户通过终端上的微信发布和分享活动信息, 通过获取商户分享的活动信息(包括时间、地点和事件),并比较该活动 信息中的地点与当前用户所处的地理位置的距离,来判断该商户分享的活 动是否为当前用户的周边活动。

当然,周边活动也可以通过识别用户通话中的声音、获得用户终端的 短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如,用 户的短信中有一条短信“我今天下午2点在B大厦观看剪彩活动”,现在 正好是下午2点,可以识别出周边活动为大厦剪彩。

当然,上述场景信息仅为示例,并不限于此,任何可为语言模型的构 建提供服务的场景信息都包含于此。

在步骤s2中,构建当前用户对应的当前场景语言模型。

由于关于与用户的当前场景信息(诸如当前用户的大致地理位置、时 间、周边人物、周边活动)有关的模型识别是在步骤s3中进行的,例如 对于用户在早上、中关村商圈、和老板说话这样一个场景,如何针对这种 特定场景来进行模型识别是步骤s3的内容,但步骤s3中由于只能借助于 用户终端的定期上报得到用户的大致地理位置,对于具体地理位置(例如 中关村鼎好大厦),步骤s3的模型中无法考虑到这一层次。步骤s3主要是 考虑所有用户在某个大概地理位置、时间、周边人物、周边活动等训练模 型并进行识别的,而与精确的地理位置、或与这个人的习惯(不是所有人 的习惯)有关的模型(即当前用户对应的当前场景语言模型)是在步骤s2 建立的。步骤s3考虑的是所有用户在某个大概地理位置、时间、周边人 物、周边活动人说话出现的共同的特点,步骤s2考虑的是在精确地理位 置人说话出现的特点,以及从该人以往的习惯中得到的这个人的个性化的 特点。

例如,在这一步骤中,主动查询用户的GPS系统,得到该用户的具体 地理位置。根据当前用户的具体地理位置,在信息库和/或互联网上实时搜 索到一些语料输入模型中进行训练,这个训练的模型就是当前场景语音模 型。其中,当前用户的具体地理位置通过实时查询用户终端的定位系统、 获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项 获得。另外,可以将用户以前的语音识别历史、用户的短信、备忘录等在 用户本机能获取或在服务器能得到的内容输入这个模型训练,还可以进一 步在用户以前的语音识别历史、用户的短信、备忘录等在用户本机能获取 或在服务器能得到的内容中提取关键词,然后在信息库和/或互联网上实时 搜索到得到语料,将这些语料也输入该模型进行训练,使这个模型充分反 映该人的说话的一些个性化特点以及兴趣点。这样,结合了这样一个模型 的识别结果就能充分反映了该用户的个性化的特点和偏好。

例如,根据当前用户的历史搜索记录,当前用户搜索“新星街”的历 史次数为100,当前用户搜索“欣欣街”的历史次数为1,因此当用户发 出诸如xinxinjie或xinxingjie之类的音时,这样构建的模型更容易将其识 别成“新星街”。还如,根据当前用户使用终端上的app的历史,可知当 前用户经常的打车路线为从“中关村”到“新星街”,并获取到当前用户 的地理位置为“中关村”,则针对当前用户所实时构建的当前场景语言模 型通常会将用户发出的诸如xinxinjie或xinxingjie之类的音识别成“新星 街”。

在步骤s3中,根据当前场景信息判断当前场景的类型,并从根据历 史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当 前场景的类型相对应的静态语言模型。

具体地,根据当前场景信息中所包括的诸如当前用户的地理位置、地 理属性(例如在家还是在公司)、时间、周边人物、周边活动等的一项或 多项组合来对当前场景的类型进行分类。例如,根据地理位置、地理属性 和时间的组合来对当前场景的类型进行分类,将当前场景分为场景类型1: “海淀区+在公司+上午”和场景类型2:“海淀区+在家+晚上”。

典型地,根据历史场景信息而构建的与不同场景类型相对应的静态语 言模型是如下构建的:

将历史语料按照场景信息分类至特定场景的类型中,每个特定场景的 类型对应一个静态语言模型,用特定场景的类型下的历史语料训练相应静 态语言模型。这个历史语料一般是服务器收集的所有人的说话的记录(例 如使用“出门问问”提问的记录)。

简单举例来说,历史语料包括6个人曾说的A、B、C、D、E、F共 6段话(例如使用“出门问问”问的6个问题,其中A、C是早上、在中 关村商圈、和上司在一起的情况下说的,B、E、F是晚上、在海淀黄庄、 和孩子在一起说的,D是早上、在王府井、自己一个人说的,因此,将A、 C分为一类训练一个静态语言模型,将B、E、F分为一类训练另一个静态 语言模型,用D训练另一个静态语言模型。

历史场景信息包括大致地理位置、时间、周边人物、周边活动,场景 的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项决 定的。优选地,为了提升各个场景下语音识别的准确性,根据场景类型的 分类来构造不同的静态语言模型,从而根据多个不同的场景类型来构造多 个静态语言模型,形成静态语言模型库。其中的大致地理位置是相对于用 户的具体地理位置而言的,可以将具体地理位置所属的较大的行政区域或 所属的较大的商圈作为其对应的大致地理位置。例如,用户的具体地理位 置为北京市海淀区中关村鼎好大厦,则对应的大致地理位置可以为北京市 海淀区中关村商圈。

对于历史场景中的一些典型信息而言,通过以下方式来获取:

其中大致地理位置通过用户终端的定位系统定时上报或用户终端自 动检测提供的地理位置中获得。例如,通过获取用户终端的短信信息、获 取用户终端存储的备忘信息中的一项或多项等获取大致地理位置。

周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定 位信息来确定。例如,通过识别用户通话中的声音、获得用户终端的短信 信息、获得用户终端存储的备忘信息中的一项或多项获得周边人物信息。

周边活动通过获取其他用户终端或商户终端自动检测提供的地理位 置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息 来确定。例如,通过识别用户通话中的声音、获得用户终端的短信信息、 获得用户终端存储的备忘信息中的一项或多项获得周边活动信息。

当根据历史场景信息而构建的与不同场景类型相对应的静态语言模 型已经形成,则根据获取到的当前用户的当前场景信息判断当前场景的类 型,并从已构建的静态语言模型中搜索与当前场景的类型相对应的静态语 言模型。典型地,当前用户的当前场景信息包括当前用户的地理位置为中 关村鼎好大厦、时间为上午九点,则根据地理位置“中关村鼎好大厦”判 断出该具体地理位置对应的大致地理位置为“海淀区中关村商圈”,进一 步结合地理属性和时间信息判断当前用户对应的当前场景的类型为场景 类型1:“海淀区商圈+上午”,则根据场景类型1从多个静态语言模型中获 取相对应的静态语言模型。

在步骤s4中,调用通用语言模型,基于通用语言模型、搜索出的静 态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当 前用户的语音。

如图1所示,当用户讲出一段语音后,从语音中提出语音特征,输入 训练好的声学模型,由声学模型识别为音节,通过查询字典中音节与文本 的可能映射关系,利用语言模型进行语音解码,通过相应的搜索算法,输 出该语音对应的文本。本发明与现有技术的区别在这一步骤中是,在图1 中的语音模型中,本发明用了三个语音模型,即通用语言模型、搜索出的 静态语言模型、当前用户对应的场景语言模型的混合。

通用语言模型是现有技术的语音模型,可以为基于各领域语料而构建 的,该语言模型可以从第三方提供的数据库中获取。在语音识别的过程中, 通过调用通用语言模型,并基于通用语言模型、上述s3中搜索出的静态 语言模型、上述s2中构建的当前用户对应的场景语言模型的混合,进行 语音实时解码。

可选地,为了提升语音识别的实时性,将并行处理技术应用到语音实 时解码的过程中,如此,所述基于通用语言模型、搜索出的静态语言模型、 当前用户对应的当前场景语言模型的混合识别当前用户的语音的步骤包 括:

并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜 索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;

基于各模型对应的权重对各候选识别结果在各模型下的概率分数进 行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用 户的当前语音对应的文本。

举例而言,当前用户的当前语音的各候选识别结果包括:新星街、欣 欣街,这两个候选识别结果在通用语言模型、搜索出的静态语言模型和当 前用户对应的当前场景语言模型下的概率分数见下表1所示:

表1

其中,通用语言模型、搜索出的静态语言模型和当前用户对应的当前 场景语言模型对应的权重分别为0.1、0.3和0.6,则可以采用以下方式进 行加权计算:

对于新星街:0.1*50%+0.3*48%+0.6*90%=0.734

对于欣欣街:0.1*50%+0.3*52%+0.6*10%=0.266

通过上述计算,可知候选识别结果中新星街的概率分数更高,则将新 星街识别为当前用户的当前语音对应的文本。

当然上述举例仅是为了更清楚地说明如何基于通用语言模型、搜索出 的静态语言模型和当前用户对应的当前场景语言模型的混合来对各候选 识别结果确定一个最终识别结果,并不是对本实施方式的限定。

可选地,所述基于各模型对应的权重对各候选识别结果在各模型下的 概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序, 识别当前用户的当前语音对应的文本的步骤包括:

预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权, 根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当 前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述 预设的各模型的权重,用于下一次语音的识别;和/或

预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置 信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下 的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行 排序,识别当前用户的当前语音对应的文本。

分别举例而言,在识别出当前用户的当前语音对应的文本为“新星街” 并提供给用户,用户将该识别结果修改为“欣欣街”,则根据用户的修改 反馈相应地调整各模型的权重,还可相应调整该文本在各模型下的概率分 数。此处仅以单个用户的反馈来举例,而实际上为了提升语音识别的准确 性,需要对大量用户的反馈进行统计,以优化采集的反馈样本,从而为各 模型权重的调整提供更多的数据支撑。

在本实施例中,也可以根据各候选识别结果在各模型下的概率分数的 置信度来实时调整已预设的各模型的权重。

就上述中基于置信度来实施调整各模型的预设权重举例,获取当前用 户的语音内容为“我可能在中关村图书大厦附近,告诉我怎么去出门问问 公司”,此处暂且假设不能通过其他数据来获取当前用户的地理信息,则 当前场景语言模型可能就会将中关村图书大厦作为具体地理位置,这样当 前场景语言模型由于输入不精确可能会导致识别结果的置信度降低。这时, 相应降低当前场景语言模型的权重,并相应提高通用语言模型、搜索出的 静态语言模型的权重。

本实施例中可根据用户的历史搜索记录、所获取的信息来源的可信度 等来调整置信度,在此对置信度设置和调整的参数依据不作限定。

根据本发明的一个实施例,还提供了一种基于场景的实时语音识别系 统,如图3所示,所述实时语音识别系统3包括:

语音采集装置301,被配置为采集当前用户的当前语音;

静态语言模型构建装置302,被配置为基于采集的历史场景信息,构 建与不同场景类型相对应的静态语言模型;

场景语言模型构建装置303,被配置为实时采集当前用户的当前场景 信息,构建当前用户对应的当前场景语言模型;

语音识别装置304,被配置为根据当前场景信息判断当前场景的类型, 并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型 中搜索与当前场景的类型相对应的静态语言模型,调用通用语言模型,基 于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型 的混合以及声学模型,识别当前用户的语音。

根据本发明的一个实施例,所述语音识别装置包括:

并行计算单元,被配置为并行计算当前用户的当前语音的各候选识别 结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景 语言模型下的概率分数;

识别单元,被配置为基于各模型对应的权重对各候选识别结果在各模 型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行 排序,识别当前用户的当前语音对应的文本。

根据本发明的一个实施例,场景信息包括大致地理位置、时间、周边 人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边 活动中的一项或多项限定的,静态语言模型构建装置根据历史场景信息而 构建的与不同场景类型相对应的静态语言模型是如下构建的:

将历史语料按照场景分类至特定场景的类型中,每个特定场景的类型 对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态 语言模型。

根据本发明的一个实施例,场景语言模型构建装置被配置为:

根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索相关 内容,根据实时搜索到的相关内容,构建当前用户对应的当前场景语言模 型。

根据本发明的一个实施例,识别单元被配置为:

预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权, 根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当 前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述 预设的各模型的权重,用于下一次语音的识别;和/或

预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置 信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下 的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行 排序,识别当前用户的当前语音对应的文本。

根据本发明的一个实施例,所述大致地理位置通过用户终端的定位系 统定时上报或用户终端自动检测提供的地理位置中获得;

周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定 位信息来确定;

周边活动通过获取其他用户终端或商户终端自动检测提供的地理位 置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息 来确定。

根据本发明的一个实施例,所述当前用户的具体地理位置通过实时查 询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的 备忘信息中的一项或多项获得。

图3所示的实时语音识别系统可以利用软件、硬件或软硬件结合的方 式来实现。

所属技术领域的技术人员知道,本发明可以实现为设备、装置、方法 或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是 完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法 和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程 图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述 模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的 可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功 能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际 上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及 的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和 /或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬 件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细 节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体 形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性 的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限 定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括 在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要 求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号