电话语音数据的幂律分布特性

摘要

数据的幂律分布特性广泛见诸于自然语言处理以及网络挖掘等领域,并被应用于相应领域研究,取得了一定的实际效果.本文研究了电话语音数据MFCC参数的幂律分布特性.通过提取大量语音数据的MFCC参数,将提取的所有参数映射到一个码本上面进行码字频率统计,发现其中少量的码字大量出现,而大量的码字只出现了很少的次数甚至没有出现.此外,将所有MFCC参数进行聚类,然后参照“词袋”模型将每个语音表征为这些聚类中心的直方图统计,发现对任何一个语音而言,其直方图中大量分量是为0的,只有少部分的分量是有非零值的.即电话语音数据的分布具有幂律分布的特性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号