最大熵模型在音字转换中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文以音字转换问题为背景，以最大熵模型为基本框架，对汉语语言模型进行研究。音字转换是指由计算机自动地将连续的拼音串转换成相应的汉字串，正确的音字转换是解决键盘输入、语音识别、语音合成等等自然语言应用问题的关键。音字转换问题源于拼音与汉字并非一一对应。本文通过建立最大熵语言模型，解决音字转换中的歧异问题，实现汉语的音字转换。本文首先对语言模型进行了研究。语言模型主要分为基于规则的语言模型和基于统计的语言模型。一个基于统计的语言模型是把自然语言被看作是一个随机过程，其中每一个语言单位，包括词、句子或篇章等，均被看作是带有某种概率分布的随机变量，计算机通过统计语言模型的概率参数，可以估计出自然语言中每个句子出现的可能性。基于规则的语言模型对一个输入的文字串，借助于文法规则，推导出该文字串的语法结构，从而判断出该文字串是否符合文法。在分析了语言模型的基础上，本文采用最大熵方法建立自然语言模型。最大熵方法是统计方法和规则方法的结合：它采用统计的方法建立模型，使求得的模型满足语言特征的统计分布；同时，最大熵语言模型能够把各种异构的语言特征巧妙地结合在一个统一的框架之下，最大熵方法丰富的特征选择方式，使规则模型所依赖的语法自然而然的融入了语言模型之中。最大熵方法的建模原则是对已知的事实建模，对未知的情况不作任何假设。建立最大熵语言模型时，把反映语言知识的语言特征作为模型的约束条件，使建立的语言模型与已知的语言知识一致，对未知的语言知识，使其尽可能均匀的分布。本文还尝试将音字转换模块加入到实验室的语音识别系统，实现语音识别后处理中音节流到汉字流的转换过程。

著录项

作者
杨明;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名王晓龙,王轩;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类翻译机;
关键词
语言模型; 最大熵; 音字转换; 语音识别;

相似文献

中文文献
外文文献
专利

1. 一种基于相似度的汉语语言模型平滑技术及其在音字转换中的应用 [J] . 肖镜辉 ,王晓龙 ,刘秉权 . 高技术通讯 . 2006,第002期
2. 语音识别音字转换中的快速容错算法 [J] . 李明琴 ,王作英 ,陆大(金) . 中文信息学报 . 2002,第005期
3. 一种基于马尔可夫模型的汉语语音识别后处理中的音字转换方法 [J] . 梅勇 ,徐秉铮 . 中文信息学报 . 1997,第004期
4. 音字转换系统中字词频的智能调整 [J] . 钟文青 ,徐秉铮 . 华南理工大学学报（自然科学版） . 1995,第010期
5. 音字转换中的机器学习研究 [J] . 王晓龙 ,王开铸 . 计算机学报 . 1993,第005期
6. 一种非时齐的隐马尔科夫模型及其在音字转换中的应用 [C] . 肖镜辉 ,刘秉权 . 全国第八届计算语言学联合学术会议 . 2005
7. 音字转换系统关键技术研究与实现 [A] . 吕绍华 . 2015

最大熵模型在音字转换中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅