【24h】

Segmentation thématique: processus itératif de pondération intra-contenu

机译:主题细分:内容内加权的迭代过程

获取原文

摘要

Dans cet article, nous nous intéressons à la segmentation thématique d'émissions télévisées exploitant la cohésion lexicale. Le but est d'étudier une approche générique, reposant uniquement sur la transcription automatique sans aucune information externe ni aucune information structurelle sur le contenu traité. L'étude porte plus particulièrement sur le mécanisme de pondération des mots utilisés lors du calcul de la cohésion lexicale. Les poids TF-IDF sont estimés à partir du contenu lui-même, qui est considéré comme une collection de documents mono-thème. Nous proposons une approche itérative, intégrée à un algorithme de segmentation, visant à raffiner la partition du contenu en documents pour l'estimation de la pondération. La segmentation obtenue à une itération donnée fournit un ensemble de documents à partir desquels les poids TF-IDF sont ré-estimés pour la prochaine itération. Des expériences menées sur un corpus couvrant différents formats des journaux télévisés issus de 8 chaînes françaises montrent une amélioration du processus global de segmentation.
机译:在本文中,我们对利用词汇衔接的电视节目主题分割感兴趣。目的是研究一种仅基于自动转录而无需任何外部信息或有关处理内容的任何结构信息的通用方法。该研究更具体地涉及在词汇衔接的计算过程中所使用的单词的加权机制。 TF-IDF权重是根据内容本身估算的,该内容被视为单个主题文档的集合。我们提出了一种与分段算法集成的迭代方法,旨在将内容的划分细化为文档,以估计权重。在给定迭代中获得的分段提供了一组文档,可从中重新估计TF-IDF权重以进行下一个迭代。对涵盖来自8个法国频道的不同格式电视新闻的语料库进行的实验表明,在全球细分过程中有所改善。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号