首页> 中文学位 >语音合成系统中自动分词技术的研究
【6h】

语音合成系统中自动分词技术的研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1引言

1.2语音合成技术简介

1.2.1波形合成法

1.2.2参数合成法

1.2.3规则合成法

1.3语音合成技术的发展现状

1.4本文研究背景及意义

1.5中文自动分词的发展现状

1.6本文主要研究内容

第2章中文自动分词技术

2.1中文自动分词的定义及特点

2.2中文自动分词研究的重点与难点

2.2.1分词技术的重点

2.2.2分词技术的难点

2.3中文自动分词算法分类

2.3.1基于字符串匹配的分词算法

2.3.2基于理解的分词算法

2.3.3基于统计的分词算法

2.4几种典型中文自动分词系统

2.4.1清华大学分词系统

2.4.2北大计算语言所分词系统

2.4.3复旦分词系统

2.4.4中科院ICTCLAS分词系统

2.5本章小结

第3章分词算法设计与实现

3.1总体设计思想

3.2词典的建立

3.2.1词典的设计

3.2.2待切分字符串的预处理

3.3算法流程

3.3.1分词系统基本流程

3.3.2正向最大匹配算法流程

3.3.3逆向最大匹配算法流程

3.4系统界面设计

3.5本章小结

第4章系统测试与结果评价

4.1系统评价参数

4.2系统测试分析

4.2.1短句分词

4.2.2段落分词

4.2.3算法准确度对比

4.3系统的不足与展望

4.4本章小结

结论

参考文献

攻读学位期间发表的学术论文

致谢

展开▼

摘要

语音合成技术是信息处理领域的一个重要分支,是人工智能的一个重要研究方向。语音合成的核心技术主要体现在文本分析和合成语音时的韵律控制。其中文本分析是语音合成的基础,主要包括:特殊符号转换、词的切分等。自动分词的准确率严重影响到后续模块输出语音流的自然度,是文本分析系统的核心内容。 本文主要目标是设计并实现一个中文自动分词系统。在分析了自动分词面临的主要困难的基础上,旨在降低分词难度和提高分词精度。本文采用了基于改进词典和机械分词相结合的分词算法,运用基于词典的方法处理文本并结合正反向最大匹配分词方法消除歧义。本文算法在两个方面进行了改进。首先是在分词词典方面,将以往单一的词典分为基本词典和特征词词典两个部分。改进了基本分词词典在内存中的存储结构,采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行存储,提高了匹配查找的速度。在匹配过程中结合特征词词典大大提高了机械分词的准确率,提高了对姓名、地名和数量词的正确切分率,减少这些词所引起的歧义数量,节省了歧义处理时间,提高了分词速度。 其次是在机械分词方面的改进,实现了正向与反向最大匹配分词结合的双向分词匹配,在进行分词时,可以根据需要分别选择正向或反向最大匹配。系统同时实现了屏幕分词与文件分词的两项功能。对比过去单一的分词方式,此系统提供了两种分词模式,对比分词结果,有利于把握分词的准确性。根据个人喜好及用途还可以选择屏幕分词与文件分词,极大方便了使用者。 测试结果表明分词算法具有较高的分词速度与准确率,在歧义的处理上也是比较准确的。基本上可以满足语音合成系统中文本分析实际应用的要求。分词系统在歧义处理等方面仍然有一些不足之处,还不能解决所有在中文自动分词中遇到的问题,仍然有不少未登录词和歧义目前还不能解决。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号