首页> 中文学位 >语音半自动标注系统的设计与实现
【6h】

语音半自动标注系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 引言

1.1 研究背景及意义

1.2 语音识别和语音合成概述

1.3 本文的主要研究内容和问题

1.4 论文的组织与结构

第2章 基本声学特征参数

2.1语音基频

2.2语音时长

2.3本章小结

第3章 标注工具的设计

3.1系统框图

3.2算法流程

3.3程序界面

3.4本章小结

第4章 标注工具的应用

4.1实验环境

4.2实验数据

4.3五度值分析

4.4五度字调模型

4.5实验结论

4.6本章小结

第5章 总结与展望

5.1总结

5.2展望

参考文献

攻读学位期间的研究成果

致谢

展开▼

摘要

随着当代信息技术日新月异的发展,人们对语音合成和语音识别的效果提出更高的要求,越来越多的实验室研究成果被应用到实际生活中,各种语音系统产品不断问世。构建大规模的语料库是设计优秀语音系统不可缺少的一项任务,而是否对语料库进行精确标注,则决定语料库质量的优劣,因此语料库的标注在语音研究中起到关键性的作用。大量的人工标注不仅耗时、耗力、成本大,而且由于人耳对于词或语句中单个音节的边界不敏感,标注数据会产生较大的误差。论文设计了一个语音语料的半自动标注系统,能够自动计算出语音语料的边界和基频包络,在此基础上手工矫正自动标注结果,实现语音语料边界和基频包络的准确标注。论文的主要工作与创新如下:
  1.实现了语音基元边界的自动标注算法。对录制好的无时间标注语音文件,采用基于隐Markov模型(Hidden Markov Model,HMM)的强制对齐算法进行时间边界的自动对齐。在 HMM模型训练过程的重估步骤中,引入了确定性模拟退火期望值最大(Deterministic Annealing Expectation Maximization,DAEM)算法,提高了语音基元边界强制对齐的准确性。
  2.实现了语音基频的自动标注算法。在语料时长边界标注的基础上,采用STRAIGHT(Speech Transformation and Representation based on Adaptive Interpolation of w eighted spectrogram)算法提取语音的基频,并对提取出的基频数据进行平滑。根据两峰值点距离是基频周期的关系,获得峰值点标注位置,从峰值点形成的基频包络曲线,可以直接发现漏标、错标的峰值点。通过人工修正,得到更加准确的标注数据。这也就是半自动标注系统的体现。
  3.设计实现了一个语音半标注系统。系统采用图形化用户交互界面,在语音波形上画出每个语音基元的边界,同时将 STRAIGHT算法的基频,转换成语音波形上的峰值点标注。在此基础上,设计实现了手工修改语音基元边界和峰值点标注的功能,以完成更为精确的语音基元边界以及基频包络的标注,最终实现可视化的语音半自动标注系统的设计。
  4.对兰州方言进行了实验语音学分析。利用实现的语音半自动标注系统,标注了兰州方言单字的边界和基频,并进行了实验语音学分析,验证了兰州方言单字的语音学结论。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号