首页> 中国专利> 一种基于class-base语言模型的POI语音识别方法

一种基于class-base语言模型的POI语音识别方法

摘要

本发明涉及一种基于class-base语言模型的POI语音识别方法,步骤为:准备模型训练的文本;通用POI地点语言模型训练;多种说法的整理和设计,通过收集POI搜索用户的说法习惯并按行进行整理,模拟真实用户的说法和使用需求;说法文本的整理和类的利用;语言模型插值合并,合并后语言模型打包并用于语音识别,对合并之后的模型打包形成二进制的格式,方便保密和保存,生成可供语音识别使用的格式。本发明能够在十分有限的计算资源和存储空间的情况下,实现多种说法的支持,明确区分说法和核心词汇,在保证占用较小资源的前提下,提高识别效果。

著录项

  • 公开/公告号CN103456300A

    专利类型发明专利

  • 公开/公告日2013-12-18

    原文格式PDF

  • 申请/专利号CN201310342171.8

  • 发明设计人 唐立亮;鹿晓亮;

    申请日2013-08-07

  • 分类号G10L15/08(20060101);

  • 代理机构11251 北京科迪生专利代理有限责任公司;

  • 代理人成金玉;贾玉忠

  • 地址 230088 安徽省合肥市高新开发区望江西路666号

  • 入库时间 2024-02-19 22:01:39

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-07

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/08 专利号:ZL2013103421718 变更事项:专利权人 变更前:安徽讯飞医疗股份有限公司 变更后:讯飞医疗科技股份有限公司 变更事项:地址 变更前:230088 安徽省合肥市高新区望江西路666号A5楼23-24层 变更后:230088 安徽省合肥市高新区望江西路666号A5楼23-24层

    专利权人的姓名或者名称、地址的变更

  • 2022-05-06

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/08 专利号:ZL2013103421718 变更事项:专利权人 变更前:安徽科大讯飞医疗信息技术有限公司 变更后:安徽讯飞医疗股份有限公司 变更事项:地址 变更前:230000 安徽省合肥市高新区创新大道2800号创新产业园二期H2楼288室 变更后:230088 安徽省合肥市高新区望江西路666号A5楼23-24层

    专利权人的姓名或者名称、地址的变更

  • 2017-12-15

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/08 变更前: 变更后: 申请日:20130807

    专利权人的姓名或者名称、地址的变更

  • 2017-10-17

    专利权的转移 IPC(主分类):G10L15/08 登记生效日:20170922 变更前: 变更后: 申请日:20130807

    专利申请权、专利权的转移

  • 2017-09-29

    专利权的转移 IPC(主分类):G10L15/08 登记生效日:20170912 变更前: 变更后: 申请日:20130807

    专利申请权、专利权的转移

  • 2016-04-20

    授权

    授权

  • 2016-03-30

    著录事项变更 IPC(主分类):G10L15/08 变更前: 变更后: 申请日:20130807

    著录事项变更

  • 2014-02-26

    实质审查的生效 IPC(主分类):G10L15/08 申请日:20130807

    实质审查的生效

  • 2013-12-18

    公开

    公开

查看全部

说明书

技术领域

本发明涉及一种连续语音识别中对POI业务的识别方案,尤其是在计算资 源和存储空间有限的情况下,本发明能够有效的支持多种不同说法。

背景技术

随着语音识别技术的流行,人们越来越习惯使用POI(point of interest, 即导航地图信息)语音识别功能来查找自己想去的地点。由于人们的说话习惯和 方式多种多样,为了满足人们的需求,需要支持多种说法的识别。POI识别大 都在一些嵌入式设备(如手机,车机)中进行,计算资源和存储空间都是十分有 限的。在使用传统的语言模型的语音识别中,支持单一说法效果较好,但是支 持多种说法会造成模型过大,效率底下等问题。

传统的POI语音识别具体实现方法如图1所示,首先设计用户说法,将用 户说法和核心地名进行文本拓展,即将所有的核心地名填充到说法模型中,然 后再用拓展后的文本训练语言模型,最后采用语言模型进行语音识别。

现有进行POI语音识别的方法存在很大的弊端:(1)传统的扩展文本方式 会导致文本非常大,给训练的过程带来很大的困难。对于,“我想去A市的B 地点”这个说法,如果城市列表A中文本的条目为Count(A),地点列表B中文 本的条目为Count(B),那么在同时存在城市和地点的语料,需要扩展的条目数 是Count(A)*Count(B),这给训练模型造成了很大的开销;(2)利用传统的语 言模型训练办法,说法将被重复很多次,这将对识别核心名称造成干扰,导致 将一些核心名称识别成说法;(3)车载,手机识别,往往是本地识别,只能利 用很有限的计算空间和存储空间去解决问题,如此大的模型将会给机器的识别 带来很大负担,造成效率降低等问题。

发明内容

本发明技术解决问题:克服现有技术的不足,提供一种基于class-base(基 于类别)语言模型的POI语音识别方法,能够在十分有限的计算资源和存储空间 的情况下,实现多种说法的支持,明确区分说法和核心词汇,在保证占用较小 资源的前提下,提高识别效果。

本发明技术解决方案:一种基于class-base语言模型的POI语音识别方法, 其实现步骤如下:

(1)准备模型训练的文本

要完成语言模型的训练,需要许多无错误,规范的文本,语言模型训练工 作可以看成是用机器向这些文本学习知识的过程。为了保证被学习的知识是正 确的,需要除去文本中的脏数据。即,对从网络上获取的识别相关文本进行清 洗,除去文本中的错字,乱码等。并将希腊数字,阿拉伯数字等转换为汉字, 并将文本的编码格式设置为一致的。

(2)通用POI地点语言模型训练

首先需要介绍一下统计语言模型的概念。统计语言模型(Statistical  Language Model)在连续语音识别中的作用,简单来说是用于计算一个句子的 概率,即P(W1,W2...,Wk),利用语言模型确定词序列的可能性,或者给定若干个 词,可以预测下一个最可能出现的词语,给定句子S(词序列S=W1,W2,...,Wk) 的概率利用语言模型可以表示为 P(S)=P(W1,W2,...,Wk)=p(W1)P(W2|W1)...P(Wk|W1,Wk,...,Wk-1),由于上式中的参数过 多,因此采用了一种常用的近似计算方法,即N-Gram模型方法。语音识别技术 是基于统计语言模型的,语音识别需要通过语言模型获取词序列信息。

通用POI地点语言模型,可以看成是从所有地点信息的文本中学习POI知 识。

将(1)中整理后的地点信息文本训练成统计语言模型,模型训练的步骤 示意图如图2所示,说明如下,首先需要分词操作,有一个分词词典,即包含 所有用户可能说的词语和字的列表。将每一行文本即将文本A1,A2,A3……An, 其中A1,A2,A3……An为每个汉字或者字母,我们去词典中查找这些汉字或者 字母能够形成的词的序列,从而实现分词,将分词之后的结果用空格隔开,即 A1A2,A3A4……等。

将分词之后的文本中的词序列信息提取出来,例如,设有词序列B1,B2, B3(其中,B1,B2,B3全部是分词词典中的词),那我们可以将P(B3|B1B2) 的信息存储到词典树(Trie树)中即可,这个词典树,也就是N-Gram模型。

将这个统计语言模型称之为地点模型。

(3)多种说法的整理和设计。通过产品经理收集POI搜索用户的说法习惯 并按行进行整理。模拟真实用户的说法和使用需求。

(4)说法文本的整理和类的利用。将(3)中整理好的说法文本整理好后, 将其中不同的类别的地名(例如,景点,设施类型,普通地名,城市等)用类 别标示符ClassA,ClassB,ClassC等表示出来,并形成对应的新的说法文本。 将ClassA,ClassB,ClassC对应的各个文本中的各个地点名称按照开头和结尾 的词不同进行分类,同时选择开头相同或者结尾相同的每类中选取出一个频率 最大的词,作为此类的代表。由于统计语言模型关注的词序列信息,其中相邻 两个词的词序列信息是最重要的,所以可以看成选出的频率最大的词就是这类 的代表。用这些代表来扩展文本,扩展之后的文本称之为说法文本。

(5)将(4)中的说法文本,按照(2)中训练POI地点语言模型的方 法,训练成统计语言模型,称之为说法模型。

(6)语言模型插值合并。

把步骤(2)中地点模型和步骤(5)中的说法插值,即将地点模型和说法模型 合并起来。

插值的规则示例如上,若词条为说法模型和地点模型共有,则两者加权求 和,若非共有,则乘以各自模型权重即可。

插值可以把各个语言模型的知识按照一定的权重合并起来,在支持说法和 地名的同时保证各个模型的权重比例保持合适。

通过实验验证,两者插值合并的最佳比例是:

说法模型:地点模型=3:7

(7)语言模型打包并用于语音识别

对合并之后的模型打包形成二进制的格式,方便保密和保存,生成可供语 音识别使用的格式。

本发明与现有技术相比的优点在于:

(1)本发明通过class-base的思想,构建全新的语言模型,针对POI业 务的语音识别进行优化。在保证模型占用空间不变的前提下,支持更多的说法。

(2)将辅助信息的词的权重保持在一个合理的范围内,辅助信息和有用信 息保持一个合理的比例;能够支持多种说法,满足人们的需求,同时保持语言 模型的大小合理。

(3)本发明能够在十分有限的计算资源和存储空间的情况下,实现多种说 法的支持,明确区分说法和核心词汇,在保证占用较小资源的前提下,提高识 别效果。

附图说明

图1为现有技术的方法流程图;

图2为本发明的语言模型训练方式;

图3为本发明的实现流程图。

具体实施方式

本发明通过class-base的思想,构建全新的语言模型,针对POI业务的语 音识别进行优化。在保证模型占用空间不变的前提下,支持更多的说法。

如图2所示,本发明采用的技术方案,包括基于class-base思想的语言构 建模型构建,语言模型的插值训练几个部分构成。

POI识别中,把识别的内容分为用户说法和核心名称两部分。例如,“我想 去天安门”这句话中,把“我想去”称为说法,而“天安门广场”称为核心地 名。而在“我想去北京市的天安门”中,有两个核心地名,即“北京市”和“天 安门”都是核心地名。这些核心地名,可以是地点,也可以是设施类型,是用 户重点关注的词汇,也是语音识别的重点。

class-base思想,即将事物按类划分,用类的思想去解决问题。在这里, 把所有的地点名称,设施类型,行政区等看成几个不同的类。

列举一个简单的例子来说明本发明的实现和优势。

假设说法列表如下:

现有城市列表和地点列表,如果按照传统的方法对语料进行扩展,则仅仅 扩展一种说法需要扩展的条目数为:地点列表条目数*城市列表条目数。这将 是很大的一笔开销,另外,如果按照传统的方式进行文本扩展,这些说法的权 重将会非常的大,影响正常的识别结果。

采用本发明的方法具体过程如图3所示:将地点信息的文本和城市信息的 文本合并,并进行文本清洗,除去其中的错字,乱码,日文等信息,并将其中 的阿拉伯数字变成汉字。

通过整理的分词词典,对整理后的地点信息文本进行分词操作。例如,文 本中有“导航到北京”五个字,而通过分词词典中存在“导航到”,“北京” 这两个词,则将这五个字分词成“导航到”和“北京”两个词。

将整理后的文本提取词序列信息,即训练成统计语言模型,称之为地点信 息模型。

用类A和类B代替上述说法中的某城市和某地点,将城市列表和地点列表 按照开头的结尾的不同分成许多类别,同时选择出各个类别中频率最高的词, 作为各个类的代表。

将这些代表进行文本扩展,而且注意,扩展一种说法需要扩展的条目数不 再是地点列表条目数*城市列表条目数,而是两者条目数相加。

将这些扩展后的文本训练成统计语言模型,称之为说法模型。

将说法模型和地点信息模型进行插值合并。

插值可以把各个语言模型的知识按照一定的权重合并起来,同时兼顾各个 语言模型的知识,在支持说法和地名的同时需要保证各个模型的权重比例保持 合适。

通过实验验证,两者插值合并的最佳比例是:

说法模型:地点模型=3:7

对合并之后的模型打包,生成可供语音识别使用的资源。

将该资源用于语音识别,即在语音识别的时候,利用该资源查询词序列信 息即可。

本发明未详细阐述部分属于本领域公知技术。

以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限

于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的 变化或替换,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号