首页> 中文学位 >采用无标注语料及词“粘连”剔除策略的韵律短语预测
【6h】

采用无标注语料及词“粘连”剔除策略的韵律短语预测

代理获取

目录

封面

目录

中文摘要

英文摘要

第一章 绪论

1.1语音合成技术

1.2汉语韵律结构

1.3韵律结构的预测

1.4 本文的主要工作

1.5本文的组织结构

第二章 基于标点符号的无标注语料获取

2.1 人工标注语料与无标注语料

2.2 标点符号的分级处理

2.3 无标注语料的获取

2.4 本章小结

第三章 基于互信息的语法词“粘连”

3.1互信息计算

3.2 语法词“粘连”

3.3.本章小结

第四章 韵律短语的自动识别

4.1 基于无标注语料的最大熵模型构建

4.2 处理流程

4.3 基于最大熵的韵律短语边界预测[35]

4.4 基于词“粘连”的边界剔除

4.5 本章小结

第五章 实验结果与分析

5.1 测试语料及评估指标

5.2 标点符号分割位置Seg及各级标点权重的确定

5.3 标点符号的最佳划分方法

5.4开放测试结果

5.5 与其他方法的实验对比

5.6本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读学位期间获得的研究成果

致谢

个人简况及联系方式

承 诺 书

声明

展开▼

摘要

科技在进步,时代在发展。在这个“读图”和“听音”的时代,语音技术已不再陌生,让机器开口“说话”也不再是幻想。目前,语音合成的清晰度已达到人们的要求,流畅度却尚待提高,合成的语音自然度低、节奏感差。因此,提升语音合成的流畅度是当前亟待解决的问题。在语音合成技术的文本信息处理中,韵律短语的划分对语音合成的流畅度有着至关重要的影响。
  目前韵律结构预测方面的研究绝大多数采用人工标注韵律结构的语料,即人工标注语料,这种语料通常篇幅较小,若想扩大其规模又会受到诸多限制。因此,本文工作主要针对当前获取大规模的人工标注语料所面临的困难和问题而展开,研究采用无标注语料进行韵律结构预测的方法。利用标点符号能表示停顿的性质,本文提出一种采用无标注语料和词“粘连”剔除策略的韵律短语识别方法。
  本文工作可分为下列几个方面:
  (1)标点符号的等级划分与无标注语料的获取
  基于用标点符号模拟韵律标志的思想,利用标点符号能表示停顿且停顿时间长短不同、差异较大的性质,本文提出应该将标点符号划分为不同的等级区别对待,并赋予每一等级不同的权重。通过反复试验,我们获取了标点符号的最佳等级划分方法及各级的最优参数分配。之后,基于多级标点符号获得大规模的无人工标注韵律标志的语料,即无标注语料。
  (2)基于互信息的语法词“粘连”
  互信息在自然语言处理中被描述为衡量两个类或词之间相关程度的尺度。本文基于大规模无标注语料库(仅做了自动分词和词性标注处理),利用互信息对任意两个词性标记的邻接情况进行了统计和度量,并据此将联系较为紧密的语法词对“粘连”起来,形成“粘连单元”。本文认为“粘连单元”内的语法词结合相对紧密,其中出现韵律短语边界的可能性较小,应忽略不计。
  (3)基于最大熵模型及词“粘连”剔除策略的韵律短语自动识别
  首先,基于大规模的无标注语料构建用于韵律短语自动预测的最大熵模型;通过对人工标注语料的分析和统计,为基于句长的Top-K方法确定参数K的取值。其次,对待识别语料进行子句分割,利用构建的最大熵模型,结合Top-K方法,实现了韵律短语的初步预测。最后,基于“粘连”词性对集和“粘连”算法,对待识别语料进行“粘连”处理和标注,并依据标注结果,对韵律短语初始预测结果进行噪声剔除,获得最终的韵律短语识别结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号