基于词片网格的语音文档主题分类

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语音文档主题分类是指根据语音文档的属性或内容，将大量的文档映射到多个预先定义好的主题中，语音分类是语音识别的一个重要研究方向，具有广泛的应用前景，得到人们越来越多的关注。伴随着多媒体时代的到来，汉语言文档分类技术的研究变得必不可少。
　　针对这一现状，本文从构建汉语音文档分类系统出发，利用HTK平台将语音文档识别成one-best单候选和lattice多候选两种结构，并结合传统文本分类思想，将4个类别8700多个语音片段合并为748个语音文档的训练测试集，实现了语音文档的主题分类。
　　该分类系统以单候选one-best分类系统为基线系统，与多候选lattice分类系统相对比。在基线系统中，以传统的文本分类系统为框架。而在多候选分类系统中，用混淆网络对lattice进行结构优化，并且在混淆网络的结构上基于词片进行词汇的提取。该方法采用混淆网络为分类的中间结构，突出了多候选之间的竞争关系，避免了传统方法因寻找识别结果中的最优路径而带来的误差，以保证分类的正确。并且后验概率的引入能够有效地减小了识别误差对分类效果的影响。分类器设计部分采用当前经典的奇异值分解方法，构建了类中心分类器。实验表明，与单侯选分类系统相比，引入混淆网络的多候选分类系统能提供更多的竞争候选，在特征项向量稀疏的情况下，具有更好的分类性能。

著录项

作者
陈晶;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科信号与信息处理
授予学位硕士
导师姓名张磊;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音信号处理;
关键词
网格; 语音识别; 文档映射; 文本分类系统; 主题分类; 网络; 分类器设计; 最优路径; 中间结构; 语音分类; 研究方向; 识别误差; 文档识别; 媒体时代; 竞争关系; 结构优化; 基线; 后验概率; 分类性能; 分类效果;

相似文献

中文文献
外文文献
专利

1. 基于局部敏感哈希算法的语音文档主题分类 [J] . 何学文 ,张磊 . 大众科技 . 2012,第003期
2. 基于子词PSPL的汉语语音文档索引 [J] . 陆明明 ,张连海 ,屈丹 . 应用科学学报 . 2013,第003期
3. 基于词片的语言模型及在汉语语音检索中的应用 [J] . 郑铁然 ,韩纪庆 ,李海洋 . 通信学报 . 2009,第003期
4. 基于连续语音识别算法和词树约束的汉语词组语音识别 [J] . 杨浩荣 ,孙甲松 . 中文信息学报 . 1998,第004期
5. 基于词级DPPM的连续语音关键词检测 [J] . 王勇 ,张连海 . 计算机工程 . 2014,第005期
6. 基于词片的语言模型及在汉语语音检索中的应用 [C] . 郑铁然 ,韩纪庆 ,李海洋 . 2008中国计算机网络安全应急年会（信息内容安全分会） . 2008
7. 基于LSH的语音文档主题分类研究 [A] . 何学文 . 2012

基于词片网格的语音文档主题分类

目录

摘要

著录项

相似文献

相关主题

期刊订阅