采用无标注语料及词“粘连”剔除策略的韵律短语预测

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

科技在进步，时代在发展。在这个“读图”和“听音”的时代，语音技术已不再陌生，让机器开口“说话”也不再是幻想。目前，语音合成的清晰度已达到人们的要求，流畅度却尚待提高，合成的语音自然度低、节奏感差。因此，提升语音合成的流畅度是当前亟待解决的问题。在语音合成技术的文本信息处理中，韵律短语的划分对语音合成的流畅度有着至关重要的影响。
　　目前韵律结构预测方面的研究绝大多数采用人工标注韵律结构的语料，即人工标注语料，这种语料通常篇幅较小，若想扩大其规模又会受到诸多限制。因此，本文工作主要针对当前获取大规模的人工标注语料所面临的困难和问题而展开，研究采用无标注语料进行韵律结构预测的方法。利用标点符号能表示停顿的性质，本文提出一种采用无标注语料和词“粘连”剔除策略的韵律短语识别方法。
　　本文工作可分为下列几个方面：
　　（1）标点符号的等级划分与无标注语料的获取
　　基于用标点符号模拟韵律标志的思想，利用标点符号能表示停顿且停顿时间长短不同、差异较大的性质，本文提出应该将标点符号划分为不同的等级区别对待，并赋予每一等级不同的权重。通过反复试验，我们获取了标点符号的最佳等级划分方法及各级的最优参数分配。之后，基于多级标点符号获得大规模的无人工标注韵律标志的语料，即无标注语料。
　　（2）基于互信息的语法词“粘连”
　　互信息在自然语言处理中被描述为衡量两个类或词之间相关程度的尺度。本文基于大规模无标注语料库（仅做了自动分词和词性标注处理），利用互信息对任意两个词性标记的邻接情况进行了统计和度量，并据此将联系较为紧密的语法词对“粘连”起来，形成“粘连单元”。本文认为“粘连单元”内的语法词结合相对紧密，其中出现韵律短语边界的可能性较小，应忽略不计。
　　（3）基于最大熵模型及词“粘连”剔除策略的韵律短语自动识别
　　首先，基于大规模的无标注语料构建用于韵律短语自动预测的最大熵模型；通过对人工标注语料的分析和统计，为基于句长的Top-K方法确定参数K的取值。其次，对待识别语料进行子句分割，利用构建的最大熵模型，结合Top-K方法，实现了韵律短语的初步预测。最后，基于“粘连”词性对集和“粘连”算法，对待识别语料进行“粘连”处理和标注，并依据标注结果，对韵律短语初始预测结果进行噪声剔除，获得最终的韵律短语识别结果。

著录项

作者
蔡滢滢;
展开▼
作者单位

山西大学;

展开▼
授予单位山西大学;
学科计算机应用技术
授予学位硕士
导师姓名钱揖丽;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音合成;
关键词
语音合成; 无标注语料; 词粘连剔除; 韵律短语识别; 最大熵模型;

相似文献

中文文献
外文文献
专利

1. 采用无标注语料和词“粘连”剔除策略的韵律短语识别 [J] . 钱揖丽 ,蔡滢滢 . 计算机科学 . 2016,第002期
2. 汉语与修纳语韵律词和短语的性质与影响研究 [J] . Herbert Mushangwe1 ,Muchinei Musona2 . 汉语教学方法与技术 . 2017,第002期
3. 藏语韵律词和韵律短语的时长特征研究 [J] . 马宁 ,于洪志 ,李永宏 . 西北民族大学学报（自然科学版） . 2014,第003期
4. 新闻播音中包含四个韵律词的韵律短语初探 [J] . 马月红 ,何伟 . 现代语文（语言研究） . 2012,第002期
5. 采用无标注语料的动词和形容词主观性评级 [J] . 徐戈 ,蒙新泛 ,王厚峰 . 软件学报 . 2013,第005期
6. 基于Viterbi 解码的中文韵律短语边界自动标注 [C] . 杨辰雨 ,朱立新 ,凌震华 . 第十一届全国人机语音通讯学术会议 . 2011
7. 基于语块的汉语韵律短语边界识别研究 [A] . 冯志茹 . 2015

采用无标注语料及词“粘连”剔除策略的韵律短语预测

目录

摘要

著录项

相似文献

相关主题

期刊订阅