首页> 中文学位 >最大熵模型在音字转换中的应用
【6h】

最大熵模型在音字转换中的应用

代理获取

目录

文摘

英文文摘

第1章绪论

1.1课题背景

1.2国内外相关技术发展现状

1.3相关技术概述

1.3.1语言模型

1.3.2最大熵方法综述

1.3.3语音识别中的语言模型

1.4本文主要研究内容

第2章音字转换中的语言模型

2.1引言

2.2基于统计的语言模型

2.2.1 N-gram模型

2.2.2基于决策树的语言模型

2.2.3统计语言模型的优缺点

2.2.4平滑算法

2.3基于规则的语言模型

2.4各种语言模型的结合

2.5语言模型的应用

2.6本章小结

第3章最大熵模型的研究

3.1引言

3.2最大熵的理论基础

3.2.1自然语言的信息熵

3.2.2自信息

3.2.3信息熵

3.2.4条件熵

3.2.5互信息

3.3最大熵原理及最大熵建模

3.3.1训练数据

3.3.2特征提取和约束建立

3.3.3应用最大熵原理选择模型

3.3.4模型的参数估计

3.3.5相关算法

3.4最大熵模型的评价方法

3.4.1应用统计语言模型的评价方法

3.4.2模型的质量度量

3.5本章小结

第4章基于最大熵的音字转换

4.1引言

4.2汉语的特点

4.3前期准备工作

4.3.1语料的收集

4.3.2字典的准备

4.3.3统计计算

4.4音字转换的系统结构

4.5模型的训练

4.5.1特征模板的定义

4.5.2两种特征的提取

4.5.3特征的组织

4.5.4特征选择

4.6实验结果及分析

4.6.1实例分析

4.6.2错误分析

4.6.3实验总结

4.7本章小结

结论

参考文献

附录

攻读硕士学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明及使用授权书

致谢

展开▼

摘要

本文以音字转换问题为背景,以最大熵模型为基本框架,对汉语语言模型进行研究。音字转换是指由计算机自动地将连续的拼音串转换成相应的汉字串,正确的音字转换是解决键盘输入、语音识别、语音合成等等自然语言应用问题的关键。音字转换问题源于拼音与汉字并非一一对应。本文通过建立最大熵语言模型,解决音字转换中的歧异问题,实现汉语的音字转换。 本文首先对语言模型进行了研究。语言模型主要分为基于规则的语言模型和基于统计的语言模型。一个基于统计的语言模型是把自然语言被看作是一个随机过程,其中每一个语言单位,包括词、句子或篇章等,均被看作是带有某种概率分布的随机变量,计算机通过统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性。基于规则的语言模型对一个输入的文字串,借助于文法规则,推导出该文字串的语法结构,从而判断出该文字串是否符合文法。 在分析了语言模型的基础上,本文采用最大熵方法建立自然语言模型。最大熵方法是统计方法和规则方法的结合:它采用统计的方法建立模型,使求得的模型满足语言特征的统计分布;同时,最大熵语言模型能够把各种异构的语言特征巧妙地结合在一个统一的框架之下,最大熵方法丰富的特征选择方式,使规则模型所依赖的语法自然而然的融入了语言模型之中。最大熵方法的建模原则是对已知的事实建模,对未知的情况不作任何假设。建立最大熵语言模型时,把反映语言知识的语言特征作为模型的约束条件,使建立的语言模型与已知的语言知识一致,对未知的语言知识,使其尽可能均匀的分布。 本文还尝试将音字转换模块加入到实验室的语音识别系统,实现语音识别后处理中音节流到汉字流的转换过程。

著录项

  • 作者

    杨明;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 王晓龙,王轩;
  • 年度 2005
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 翻译机;
  • 关键词

    语言模型; 最大熵; 音字转换; 语音识别;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号