【24h】

Latent Topic Modeling for Audio Corpus Summarization

机译:音频语料库摘要的潜在主题建模

获取原文

摘要

This work presents techniques for automatically summarizing the topical content of an audio corpus. Probabilistic latent semantic analysis (PLSA) is used to learn a set of latent topics in an unsupervised fashion. These latent topics are ranked by their relative importance in the corpus and a summary of each topic is generated from signature words that aptly describe the content of that topic. This paper presents techniques for producing a high quality summarization. An example summarization of conversational data from the Fisher corpus that demonstrates the effectiveness of our approach is presented and evaluated.
机译:这项工作提出了自动汇总音频语料库主题内容的技术。概率潜在语义分析(PLSA)用于以无监督的方式学习一组潜在主题。这些潜在主题按其在语料库中的相对重要性进行排序,并从恰当描述该主题内容的签名词中生成每个主题的摘要。本文介绍了产生高质量摘要的技术。呈现并评估了Fisher语料库中的对话数据的示例摘要,以证明我们的方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号