首页> 中文学位 >基于词片网格的语音文档主题分类
【6h】

基于词片网格的语音文档主题分类

代理获取

目录

文摘

英文文摘

第1章 绪论

1.1 论文研究目的和意义

1.2 国内外研究和发展现状

1.3 本文的研究内容及章节安排

1.3.1 完成的主要工作

1.3.2 章节安排

第2章 语音文档主题分类系统框架

2.1 主题分类简介

2.2 本文系统框架

2.3 前端处理

2.3.1 声学模型

2.3.2 语言学模型

2.3.3 HTK工具包

2.4 本章小结

第3章 单候选分类系统

3.1 分词

3.2 向量空间模型

3.2.1 向量空间模型定义

3.2.2 特征项权重的选择

3.2.3 向量相似度

3.3 分类器

3.3.1 奇异值分解

3.3.2 分类器

3.4 本章小结

第4章 多候选分类系统

4.1 多候选结构lattice介绍

4.2 混淆网络介绍

4.3 聚类算法

4.4 抽取词汇信息

4.4.1 词信息抽取算法描述

4.4.2 提取词汇信息程序实现

4.5 多候选VSM及分类器

4.6 本章小结

第5章 实验结果与分析

5.1 实验的软硬件环境

5.2 性能评价方法

5.3 实验结果与分析

5.3.1 单候选分类系统实验结果及分析

5.3.2 多候选分类系统实验结果及分析

5.3.3 两分类系统对比

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

语音文档主题分类是指根据语音文档的属性或内容,将大量的文档映射到多个预先定义好的主题中,语音分类是语音识别的一个重要研究方向,具有广泛的应用前景,得到人们越来越多的关注。伴随着多媒体时代的到来,汉语言文档分类技术的研究变得必不可少。
   针对这一现状,本文从构建汉语音文档分类系统出发,利用HTK平台将语音文档识别成one-best单候选和lattice多候选两种结构,并结合传统文本分类思想,将4个类别8700多个语音片段合并为748个语音文档的训练测试集,实现了语音文档的主题分类。
   该分类系统以单候选one-best分类系统为基线系统,与多候选lattice分类系统相对比。在基线系统中,以传统的文本分类系统为框架。而在多候选分类系统中,用混淆网络对lattice进行结构优化,并且在混淆网络的结构上基于词片进行词汇的提取。该方法采用混淆网络为分类的中间结构,突出了多候选之间的竞争关系,避免了传统方法因寻找识别结果中的最优路径而带来的误差,以保证分类的正确。并且后验概率的引入能够有效地减小了识别误差对分类效果的影响。分类器设计部分采用当前经典的奇异值分解方法,构建了类中心分类器。实验表明,与单侯选分类系统相比,引入混淆网络的多候选分类系统能提供更多的竞争候选,在特征项向量稀疏的情况下,具有更好的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号