公开/公告号CN103456300A
专利类型发明专利
公开/公告日2013-12-18
原文格式PDF
申请/专利权人 安徽科大讯飞信息科技股份有限公司;
申请/专利号CN201310342171.8
申请日2013-08-07
分类号G10L15/08(20060101);
代理机构11251 北京科迪生专利代理有限责任公司;
代理人成金玉;贾玉忠
地址 230088 安徽省合肥市高新开发区望江西路666号
入库时间 2024-02-19 22:01:39
法律状态公告日
法律状态信息
法律状态
2023-04-07
专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/08 专利号:ZL2013103421718 变更事项:专利权人 变更前:安徽讯飞医疗股份有限公司 变更后:讯飞医疗科技股份有限公司 变更事项:地址 变更前:230088 安徽省合肥市高新区望江西路666号A5楼23-24层 变更后:230088 安徽省合肥市高新区望江西路666号A5楼23-24层
专利权人的姓名或者名称、地址的变更
2022-05-06
专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/08 专利号:ZL2013103421718 变更事项:专利权人 变更前:安徽科大讯飞医疗信息技术有限公司 变更后:安徽讯飞医疗股份有限公司 变更事项:地址 变更前:230000 安徽省合肥市高新区创新大道2800号创新产业园二期H2楼288室 变更后:230088 安徽省合肥市高新区望江西路666号A5楼23-24层
专利权人的姓名或者名称、地址的变更
2017-12-15
专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/08 变更前: 变更后: 申请日:20130807
专利权人的姓名或者名称、地址的变更
2017-10-17
专利权的转移 IPC(主分类):G10L15/08 登记生效日:20170922 变更前: 变更后: 申请日:20130807
专利申请权、专利权的转移
2017-09-29
专利权的转移 IPC(主分类):G10L15/08 登记生效日:20170912 变更前: 变更后: 申请日:20130807
专利申请权、专利权的转移
2016-04-20
授权
授权
2016-03-30
著录事项变更 IPC(主分类):G10L15/08 变更前: 变更后: 申请日:20130807
著录事项变更
2014-02-26
实质审查的生效 IPC(主分类):G10L15/08 申请日:20130807
实质审查的生效
2013-12-18
公开
公开
查看全部
技术领域
本发明涉及一种连续语音识别中对POI业务的识别方案,尤其是在计算资 源和存储空间有限的情况下,本发明能够有效的支持多种不同说法。
背景技术
随着语音识别技术的流行,人们越来越习惯使用POI(point of interest, 即导航地图信息)语音识别功能来查找自己想去的地点。由于人们的说话习惯和 方式多种多样,为了满足人们的需求,需要支持多种说法的识别。POI识别大 都在一些嵌入式设备(如手机,车机)中进行,计算资源和存储空间都是十分有 限的。在使用传统的语言模型的语音识别中,支持单一说法效果较好,但是支 持多种说法会造成模型过大,效率底下等问题。
传统的POI语音识别具体实现方法如图1所示,首先设计用户说法,将用 户说法和核心地名进行文本拓展,即将所有的核心地名填充到说法模型中,然 后再用拓展后的文本训练语言模型,最后采用语言模型进行语音识别。
现有进行POI语音识别的方法存在很大的弊端:(1)传统的扩展文本方式 会导致文本非常大,给训练的过程带来很大的困难。对于,“我想去A市的B 地点”这个说法,如果城市列表A中文本的条目为Count(A),地点列表B中文 本的条目为Count(B),那么在同时存在城市和地点的语料,需要扩展的条目数 是Count(A)*Count(B),这给训练模型造成了很大的开销;(2)利用传统的语 言模型训练办法,说法将被重复很多次,这将对识别核心名称造成干扰,导致 将一些核心名称识别成说法;(3)车载,手机识别,往往是本地识别,只能利 用很有限的计算空间和存储空间去解决问题,如此大的模型将会给机器的识别 带来很大负担,造成效率降低等问题。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于class-base(基 于类别)语言模型的POI语音识别方法,能够在十分有限的计算资源和存储空间 的情况下,实现多种说法的支持,明确区分说法和核心词汇,在保证占用较小 资源的前提下,提高识别效果。
本发明技术解决方案:一种基于class-base语言模型的POI语音识别方法, 其实现步骤如下:
(1)准备模型训练的文本
要完成语言模型的训练,需要许多无错误,规范的文本,语言模型训练工 作可以看成是用机器向这些文本学习知识的过程。为了保证被学习的知识是正 确的,需要除去文本中的脏数据。即,对从网络上获取的识别相关文本进行清 洗,除去文本中的错字,乱码等。并将希腊数字,阿拉伯数字等转换为汉字, 并将文本的编码格式设置为一致的。
(2)通用POI地点语言模型训练
首先需要介绍一下统计语言模型的概念。统计语言模型(Statistical Language Model)在连续语音识别中的作用,简单来说是用于计算一个句子的 概率,即P(W1,W2...,Wk),利用语言模型确定词序列的可能性,或者给定若干个 词,可以预测下一个最可能出现的词语,给定句子S(词序列S=W1,W2,...,Wk) 的概率利用语言模型可以表示为 P(S)=P(W1,W2,...,Wk)=p(W1)P(W2|W1)...P(Wk|W1,Wk,...,Wk-1),由于上式中的参数过 多,因此采用了一种常用的近似计算方法,即N-Gram模型方法。语音识别技术 是基于统计语言模型的,语音识别需要通过语言模型获取词序列信息。
通用POI地点语言模型,可以看成是从所有地点信息的文本中学习POI知 识。
将(1)中整理后的地点信息文本训练成统计语言模型,模型训练的步骤 示意图如图2所示,说明如下,首先需要分词操作,有一个分词词典,即包含 所有用户可能说的词语和字的列表。将每一行文本即将文本A1,A2,A3……An, 其中A1,A2,A3……An为每个汉字或者字母,我们去词典中查找这些汉字或者 字母能够形成的词的序列,从而实现分词,将分词之后的结果用空格隔开,即 A1A2,A3A4……等。
将分词之后的文本中的词序列信息提取出来,例如,设有词序列B1,B2, B3(其中,B1,B2,B3全部是分词词典中的词),那我们可以将P(B3|B1B2) 的信息存储到词典树(Trie树)中即可,这个词典树,也就是N-Gram模型。
将这个统计语言模型称之为地点模型。
(3)多种说法的整理和设计。通过产品经理收集POI搜索用户的说法习惯 并按行进行整理。模拟真实用户的说法和使用需求。
(4)说法文本的整理和类的利用。将(3)中整理好的说法文本整理好后, 将其中不同的类别的地名(例如,景点,设施类型,普通地名,城市等)用类 别标示符ClassA,ClassB,ClassC等表示出来,并形成对应的新的说法文本。 将ClassA,ClassB,ClassC对应的各个文本中的各个地点名称按照开头和结尾 的词不同进行分类,同时选择开头相同或者结尾相同的每类中选取出一个频率 最大的词,作为此类的代表。由于统计语言模型关注的词序列信息,其中相邻 两个词的词序列信息是最重要的,所以可以看成选出的频率最大的词就是这类 的代表。用这些代表来扩展文本,扩展之后的文本称之为说法文本。
(5)将(4)中的说法文本,按照(2)中训练POI地点语言模型的方 法,训练成统计语言模型,称之为说法模型。
(6)语言模型插值合并。
把步骤(2)中地点模型和步骤(5)中的说法插值,即将地点模型和说法模型 合并起来。
插值的规则示例如上,若词条为说法模型和地点模型共有,则两者加权求 和,若非共有,则乘以各自模型权重即可。
插值可以把各个语言模型的知识按照一定的权重合并起来,在支持说法和 地名的同时保证各个模型的权重比例保持合适。
通过实验验证,两者插值合并的最佳比例是:
说法模型:地点模型=3:7
(7)语言模型打包并用于语音识别
对合并之后的模型打包形成二进制的格式,方便保密和保存,生成可供语 音识别使用的格式。
本发明与现有技术相比的优点在于:
(1)本发明通过class-base的思想,构建全新的语言模型,针对POI业 务的语音识别进行优化。在保证模型占用空间不变的前提下,支持更多的说法。
(2)将辅助信息的词的权重保持在一个合理的范围内,辅助信息和有用信 息保持一个合理的比例;能够支持多种说法,满足人们的需求,同时保持语言 模型的大小合理。
(3)本发明能够在十分有限的计算资源和存储空间的情况下,实现多种说 法的支持,明确区分说法和核心词汇,在保证占用较小资源的前提下,提高识 别效果。
附图说明
图1为现有技术的方法流程图;
图2为本发明的语言模型训练方式;
图3为本发明的实现流程图。
具体实施方式
本发明通过class-base的思想,构建全新的语言模型,针对POI业务的语 音识别进行优化。在保证模型占用空间不变的前提下,支持更多的说法。
如图2所示,本发明采用的技术方案,包括基于class-base思想的语言构 建模型构建,语言模型的插值训练几个部分构成。
POI识别中,把识别的内容分为用户说法和核心名称两部分。例如,“我想 去天安门”这句话中,把“我想去”称为说法,而“天安门广场”称为核心地 名。而在“我想去北京市的天安门”中,有两个核心地名,即“北京市”和“天 安门”都是核心地名。这些核心地名,可以是地点,也可以是设施类型,是用 户重点关注的词汇,也是语音识别的重点。
class-base思想,即将事物按类划分,用类的思想去解决问题。在这里, 把所有的地点名称,设施类型,行政区等看成几个不同的类。
列举一个简单的例子来说明本发明的实现和优势。
假设说法列表如下:
现有城市列表和地点列表,如果按照传统的方法对语料进行扩展,则仅仅 扩展一种说法需要扩展的条目数为:地点列表条目数*城市列表条目数。这将 是很大的一笔开销,另外,如果按照传统的方式进行文本扩展,这些说法的权 重将会非常的大,影响正常的识别结果。
采用本发明的方法具体过程如图3所示:将地点信息的文本和城市信息的 文本合并,并进行文本清洗,除去其中的错字,乱码,日文等信息,并将其中 的阿拉伯数字变成汉字。
通过整理的分词词典,对整理后的地点信息文本进行分词操作。例如,文 本中有“导航到北京”五个字,而通过分词词典中存在“导航到”,“北京” 这两个词,则将这五个字分词成“导航到”和“北京”两个词。
将整理后的文本提取词序列信息,即训练成统计语言模型,称之为地点信 息模型。
用类A和类B代替上述说法中的某城市和某地点,将城市列表和地点列表 按照开头的结尾的不同分成许多类别,同时选择出各个类别中频率最高的词, 作为各个类的代表。
将这些代表进行文本扩展,而且注意,扩展一种说法需要扩展的条目数不 再是地点列表条目数*城市列表条目数,而是两者条目数相加。
将这些扩展后的文本训练成统计语言模型,称之为说法模型。
将说法模型和地点信息模型进行插值合并。
插值可以把各个语言模型的知识按照一定的权重合并起来,同时兼顾各个 语言模型的知识,在支持说法和地名的同时需要保证各个模型的权重比例保持 合适。
通过实验验证,两者插值合并的最佳比例是:
说法模型:地点模型=3:7
对合并之后的模型打包,生成可供语音识别使用的资源。
将该资源用于语音识别,即在语音识别的时候,利用该资源查询词序列信 息即可。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限
于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的 变化或替换,都应涵盖在本发明的保护范围之内。
机译: 使用该生成器的语言模型生成器和语音识别装置,使用该方法的语言模型生成方法和语音识别方法,记录的计算机可读记录介质,使用语言模型生成程序的计算机可读记录介质和使用该方法的语音记录介质
机译: 基于语言模型的语言模型更新和语音识别方法及装置
机译: 基于语言模型的语言模型更新和语音识别方法及装置