首页> 中国专利> 汉语音字转换方法及系统、区分性词典的构建方法

汉语音字转换方法及系统、区分性词典的构建方法

摘要

本发明实施例提供一种汉语音字转换方法以及系统、区分性词典的构建方法;所述汉语音字转换方法包括:根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。通过本发明实施例,可以进一步提高音字转换的正确率。

著录项

  • 公开/公告号CN102750267A

    专利类型发明专利

  • 公开/公告日2012-10-24

    原文格式PDF

  • 申请/专利权人 北京语言大学;

    申请/专利号CN201210202471.1

  • 发明设计人 张劲松;李伟;解焱陆;曹文;

    申请日2012-06-15

  • 分类号G06F17/22;G06F17/30;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人田勇

  • 地址 100083 北京市海淀区学院路15号

  • 入库时间 2023-12-18 07:07:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-02-25

    授权

    授权

  • 2012-12-19

    实质审查的生效 IPC(主分类):G06F17/22 申请日:20120615

    实质审查的生效

  • 2012-10-24

    公开

    公开

说明书

技术领域

本发明涉及音字转换技术领域,特别涉及一种基于区分性词典的汉语音字转换方法及 系统、区分性词典的构建方法。

背景技术

拼音是中文汉字的音素串。在很多系统中,拼音到汉字的转换都是其组成的关键部分, 如中文的键盘输入,中文的语音识别系统等。由于在中文中大概只有410个不带调拼音, 而与其对应的汉字则有6700个,所以如何从同一个拼音中选出其正确的对应汉字,便成了 目前的一个研究课题。

目前来看,解决该问题的最好的办法之一是利用统计语言模型来消除同音字词所带来 的歧义。统计语言模型的构建,需要解决两个重要的问题:1.词典的选择;2.模型参数的 优化。以最常用的三元统计模型为例,可以把词典的选择分为有监督和非监督两类。有监 督的方法中词典的构建主要是通过手工编制的。然而中文并没有统一标准的词典,语言学 家也许会对上万个词条达成一致,但是其余的字词则会引起很大的争议。由于这个原因, 大量的非监督词典构建方法被提出,其中包括了最大似然法词典的构建,基于互信息词 典的构建等。与手工词典相比,这些方法证明基于数据驱动的词典构建法在具体应用中, 具有同样的可行性,且更节约成本。

对于语言模型的参数优化问题,学者在过去几十年,主要依据的优化准则是最大似然 或最小困惑度。在最近几年,为了提高中文语音识别的正确率,一些学者提出区分性训练 的方法来优化语言模型。该方法的核心思想为候选字词的相对概率在音字转换中比绝对概 率得分更具有对同音字词消歧的作用。在语言模型的训练过程中,根据音字转换的结果来 不断调整模型的参数。

但是在实现本发明的过程中,发明人发现现有技术的缺陷在于:在上述传统的方法中, 词典的构建主要是通过手工编制,或者从文本中直接获取,词典的构建并没有考虑到拼音 串的信息,不能进一步提高音字转换的正确率。

下面列出了对于理解本发明和常规技术有益的文献,通过引用将它们并入本文中, 如同在本文中完全阐明了一样。

【参考文献1】Jianfeng Gao,Hai-Feng Wang,Mingjing Li,and Kai-Fu Lee,“A Unified  Approach to Statistical Language Modeling for Chinese”,IEEE ICASSP2000,Istanbul,Turkey. June 5-9,2000.

【参考文献2】Lingyun Pan and Changsheng Yang,“An Auto-system For Converting  HANYUPINYIN to Chinese Characters”,Journal of Computer,13(4):271-275.

【参考文献3】Ruiqiang Zhang,Zuoying Wang and Jianping Zhang,“Chinese  Pinyin-to-Text Translation Technique with Error Correction Used for Continuous Speech  Recognition”,Journal ofTsinghua University(Sci&Tech),37(10):9-11,1997.

【参考文献4】Ando,R.and Lee,“Mostly-unsupervised Statistical Segmentation of  Japanese:Application to Kanji”,ANLP-NAACL.2000.

【参考文献5】Fuchun Peng,Dale Schuurmans,“Self-Supervised Chinese Word  Segmentation”,Proceedings of the 4th International Conference on Advances in Intelligent Data  Analysis,p.238-247,September 13-15,2001.

【参考文献6】Zheng Chen,Kai-Fu Lee,Ming-jing Li,“Discriminative training on  language model”,In Proc.ISCSLP 2000,Beijing,China,Oct 2000.

【参考文献7】Hong-Kwang Jeff Kuo,et al“Discriminative Training of Language Models  for Speech Recognition”,IEEE,ICASSP 2002,Orlando,Florida.

【参考文献8】Jinsong Zhang,Wei Li,Yuxia Hou,Wen Cao,Ziyu Xiong,“A Study On  Functional Loads of Phonetic Contrasts Under Context Based On Mutual Information of Chinese  Text And Phonemes”,The 7th International Symposium on Chinese Spoken Language  Processing(ISCSLP),Tainan,Nov.2010.

【参考文献9】http:∥www.speech.sri.com/projects/srilm/

发明内容

本发明实施例提供一种汉语音字的转换方法及系统、区分性词典的构建方法,目的在 于进一步提高音字转换的正确率。

根据本发明实施例的一个方面,提供一种汉语音字转换方法,基于区分性词典;所述 汉语音字转换方法包括:

根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格; 其中所述区分性词典基于文本与拼音的互信息而构建;

根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音 字的转换。

根据本发明实施例的又一个方面,提供一种区分性词典的构建方法,所述构建方法包 括:

根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解 码以获得不同的拼音切换方式;

从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;

根据所述互信息最大的拼音切换方式切割与所述训练的拼音串对应的文本,并统计切 割后的文本以获得新的词典。

根据本发明实施例的又一个方面,提供一种汉语音字转换系统,基于区分性词典;所 述汉语音字转换系统包括:

第一生成单元,根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对 应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;

路径获得单元,根据统计语言模型对所述字词网格解码,得到概率最大的转换路径以 实现汉语音字的转换。

本发明实施例的有益效果在于,通过基于文本与拼音的互信息而构建的区分性词典, 来实现汉语音字的转换,可以进一步提高音字转换的正确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成 对本发明的限定。在附图中:

图1是本发明实施例的转换方法的流程图;

图2是本发明实施例的文本-拼音-文本传输模型的示意图;

图3是本发明实施例的解码过程的一个示例图;

图4是本发明实施例的构建区分性词典的一个流程示意图;

图5是本发明实施例的构建区分性词典的又一个流程示意图;

图6是本发明实施例的实验结果的一个示意图;

图7是本发明实施例的实验结果的另一个示意图;

图8是本发明实施例的汉语音字转换系统的构成示意图;

图9是本发明实施例的词典构建单元的构成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例作 进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对 本发明的限定。

实施例1

本发明实施例提供一种基于区分性词典的汉语音字转换方法。图1是本发明实施例的 转换方法的流程图,如图1所示,该汉语音字转换方法包括:

步骤101,根据输入的拼音串以及预先构建的区分性词典,生成与拼音串对应的字词 网格;其中区分性词典基于文本与拼音的互信息而构建;

步骤102,根据统计语言模型对字词网格进行解码,得到概率最大的转换路径以实现 汉语音字的转换。

在本实施例中,可以通过不断最大化拼音串和与其对应的文本的互信息来自动获得具 有较强区分性的词典。在音字转换的过程中,首先根据给定的拼音串和词典生成与其对应 的字词网格,然后再根据统计语言模型,对其动态解码,得到概率最大的转换路径。

在本实施例中,如果在词典的构建过程中,把拼音与文本间的信息考虑进去,将会有 助于音字转换率的提高。例如,给定拼音串“xiang wo men zhe yang de nian qing ren”,在 使用二元统计语言模型,传统词典的系统中转换结果为“向我们这样的年轻人”,而正确 结果为“像我们这样的年轻人”。本发明可以通过向传统词典中加入词条“像我们”来避免 此类错误,加入词条的过程在本发明中是完全基于数据驱动自动完成的,它的加入准则为 拼音与其对应文本间的互信息。

图2是本发明实施例的文本-拼音-文本传输模型的示意图,可以将音字转换过程形式化 为信息解码的过程。如图2所示,W代表了一种语言,以文本形式进行标示,F带表了与其 对应的拼音串,从F到W的转换描述了从拼音序列到汉字序列的转换,这个转换过程需要 用到的高层知识包括词典和统计语言模型。

给定一个拼音串,采用不同的词典和统计语言模型对其解码,也许将会得到不同的汉 字串W1,2。最优的词典将会使W=Wi,词典的选择决定了最优拼音串的切分,可以用以下 公式来描述最优的拼音串:

argmaxiI(W,Fi)wherei=1,2...---(1)

W和Fi间的互信息定义为I(W,Fi):

I(W,Fi)=H(W)-H(W|Fi)                   (2)

H(W)是文本W的信息熵,W由字词序列{w1,w2,w3,…Wn}所表示。H(W)由计算每个词 的平均信息熵得到:

H(W)=limn-1nlogp(w1,w2,···,wn)---(3)

其中

p(W)=p(w1,w2,···,wn)

=Πi=1np(wi|w1,···,wi-1)---(4)

变量I(W,Fi)衡量了语句W和它拼音串可能的切分方式Fi,给定不同的拼音串切分方式F i,在其余条件,如词典和语言模型保持不变的情况下,变量I(W,Fi)越大,说明文本W和该 种拼音串间切分方式Fi的关系越紧密,则可以推出从Fi到W的转换歧义程度越小,这确保了 音字转换的正确率。

通过对公式(2)的计算和化简,可以得到如下公式:

I(W,Fi)=-logΣallWjwithFiP(Wj)---(5)

变量Wj代表了所有的候选字串,这些字串共同享有拼音串切分方式Fi。关于互信息 的其他具体内容可以参考上述的参考文献。

在本实施例中,可以用字词网格来描述从拼音串到文本的解码过程,其由同一个拼音 串,根据词典得到不同的切分方式。

图3是本发明实施例的解码过程的一个示例图,如图3所示,展示出了拼音串“zhong  guo ren min sheng huo”的部分字词网格。其中,结点<s>和</s>代表了所有字词序列的开 头和结尾,其余的结点为拼音串所对应的所有可能的候选字词。

例如,音节“zhong”的候选词有种,中,重等,由于图形大小的限制,图3只列出了 部分的字词网格。根据公式(5),可以通过动态规划的算法找出概率最大的路径从句首到 句尾。该路径对应了拼音串的最优切分方式。

以下对如何构建区分性词典进行详细说明。本发明可以通过文本和拼音的互信息调整 语句中所有可能的字词边界,来构建区分性词典。

图4是本发明实施例的构建区分性词典的一个流程示意图,如图4所示,构建区分性词 典可以包括:

步骤401,根据训练拼音串和初始词典构建字词网格,并用统计语言模型对字词网格 进行解码以获得不同的拼音切换方式;

步骤402,从不同的拼音切换方式中确定互信息最大的拼音切换方式;

步骤403,根据互信息最大的拼音切换方式切割与训练拼音串对应的文本,并统计切 割后的文本以获得新的词典。

图4对构建区分性词典的一次迭代过程进行了说明,在具体实施时可以进行多次迭代。 可以通过同时优化词典、语言模型、拼音串切分方式来不断增加文本W与拼音F的互信息 熵,多次迭代后根据一定的阈值停止迭代。

图5是本发明实施例的构建区分性词典的又一个流程示意图,如图5所示,构建区分性 词典可以包括:

步骤501,全切分新闻语料训练初始语言模型;其中最大词长可以为4。

步骤502,根据训练拼音串和词典构建字词网格,并用统计语言模型对字词网格进行 解码以获得不同的拼音切换方式。

步骤503,从不同的拼音切换方式中确定互信息最大的拼音切换方式。

步骤504,根据互信息最大的拼音切换方式切割与训练拼音串对应的文本,并统计切 割后的文本以获得新的词典。

步骤505,对训练拼音串和文本间的互信息进行评估;若评估出的互信息的变化超过 预设阈值,则执行步骤502;若评估出的互信息的变化没有超过预设阈值,则执行步骤506。

在本实施例中,如果拼音和文本间的互信息没有明显的上升,则可以选择新的训练拼 音串,反复迭代执行步骤502至步骤504,对新的词典进行迭代训练。

步骤506,获得最终的词典和语言模型。

在本实施例中,用人民日报语料做了初步的实验,分别用三种不同的词典和语言模型 对拼音串解码,并比较了三种不同词典构建方法对音字转换率的影响:

Baseline I:基于bi-gram的统计语言模型,词典的选择为手工词典,包括了常用词 46,856个词条,该词典由北京大学根据词频统计,排序得到。

Baseline II:基于bi-gram的统计语言模型,词典是根据语言模型困惑度最小的优化准则 从语料中学习得到。

Optimized SLM:基于bi-gram的统计语言模型,根据文本和拼音间的互信息熵来自动优 化词典和语言模型。

其中,Optimized SLM采用了本发明的方法。语料从最近五年的人民日报中随机抽取, 训练语料的句子总数位103万,测试语料为5万句,数据如表1所示:

表1

图6是本发明实施例的实验结果的一个示意图,描述了EM算法的迭代次数和训练语料 复杂度的关系。图7是本发明实施例的实验结果的另一个示意图,表示了随着迭代次数的 增加,文本和拼音间互信息的变化。

表2和3为音字转化率的对比结果,即分别将Baseline I和Baseline II与Optimized S LM方法做了对比。

表2

表3

如图6所示,Baseline II和Optimized两种语言模型的复杂度随着迭代增加而降低, 经过六次迭代后都达到了局部最优。Baseline II比本发明的方法有着更低的语言模型复杂 度。如图7所示,文本和拼音间的互信息熵随着迭代的次数逐渐增加,在迭代八次后收敛。

本发明的方法和Baseline I相比,分别在训练集合测试集上表现了其优越性,音字转 换的错误率分别相对降低了87.04%和19.72%。与Baseline II相比,本发明的系统在训练集 和测试集上所得到的错误率,分别降低了82.8%和10.3%。

实验结果表明,本发明提出的方法在音字转换的正确率方面取得了最优的结果,特别 是在训练集上,表现出了很高的正确率。与传统的以优化语言模型的复杂度Baseline II 相比,本发明的方法有着更大的复杂度,然而却有着更高的正确率。这说明语言模型的复 杂度并不能很好地刻画系统的性能。

在经过大约8次迭代以后,最终的词典大小包含了147,784个词条,其中大概有36,000 个词条与传统词典一致,剩余的词条则是基于数据驱动,通过优化文本和拼音间互信息熵 所自动获取的。

新的词条的组成可以分为两类:1.相邻字词间具有很高的共现率,比如“他的”,“将 来到”,“像我们”等词条。根据中文的构词法,这些词条通常被认为是非法的,所以不会 被收录到标准词典中。2.新词和术语的发现,比如“域名”,“全聚德”,“北京首钢”等。 这些词的加入将会减少拼音到汉字转换所携有的不确定性,从而提高音字转换的正确率。

由上述实施例可知,通过基于文本与拼音的互信息而构建的区分性词典,来实现汉语 音字的转换,可以进一步提高音字转换的正确率。

实施例2

本发明实施例提供一种基于区分性词典的汉语音字转换系统,对应于实施例1中的汉 语音字转换方法,与实施例1相同的内容不再赘述。

图8是本发明实施例的汉语音字转换系统的构成示意图,如图8所示,该汉语音字转换 系统800包括:第一生成单元801和路径获得单元802,汉语音字转换系统800的其他部分可 以参考现有技术。

其中,第一生成单元801根据输入的拼音串以及预先构建的区分性词典,生成与拼音 串对应的字词网格;其中区分性词典基于文本与拼音的互信息而构建;路径获得单元802 根据统计语言模型对字词网格解码,得到概率最大的转换路径以实现汉语音字的转换。

如图8所示,汉语音字转换系统800还可以包括:词典构建单元803,词典构建单元803 通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建区分性词典。

图9是本发明实施例的词典构建单元的构成示意图,如图9所示,该词典构建单元803 可以包括第二生成单元901、方式确定单元902和文本切割单元903;

其中,第二生成单元901根据训练拼音串和初始词典构建字词网格,并用统计语言模 型对字词网格进行解码以获得不同的拼音切换方式;方式确定单元902从不同的拼音切换 方式中确定互信息最大的拼音切换方式;文本切割单元903根据互信息最大的拼音切换方 式切割与训练拼音串对应的文本,并统计切割后的文本以获得新的词典。

如图9所示,词典构建单元803具体还可以包括:信息评估单元904和迭代判断单元905; 其中信息评估单元904对训练拼音串和文本间的互信息进行评估;迭代判断单元905在评估 出的互信息的变化超过预设阈值时,选择新的训练拼音串对新的词典进行迭代训练。

由上述实施例可知,通过基于文本与拼音的互信息而构建的区分性词典,来实现汉语 音字的转换,可以进一步提高音字转换的正确率。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软 件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功 能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技 术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认 为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件 模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储 器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、 或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细 说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的 保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包 含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号