首页> 外文会议>Conference on traitement automatique des langues naturelles et rencontres des etudiants chercheurs en informatique pour le traitement automatique des langues >Un modèle segmental probabiliste combinant cohésion lexicale et rupture lexicale pour la segmentation thématique
【24h】

Un modèle segmental probabiliste combinant cohésion lexicale et rupture lexicale pour la segmentation thématique

机译:结合词法衔接和词法破裂的概率分割模型进行主题分割

获取原文

摘要

L'identification d'une structure thématique dans des données textuelles quelconques est une tâche difficile. La plupart des techniques existantes reposent soit sur la maximisation d'une mesure de cohésion lexicale au sein d'un segment, soit sur la détection de ruptures lexicales. Nous proposons une nouvelle technique combinant ces deux critères de manière à obtenir le meilleur compromis entre cohésion et rupture. Nous définissons un nouveau modèle probabiliste, fondé sur l'approche proposée par Utiyama et Isahara (2001), en préservant les propriétés d'indépendance au domaine et de faible a priori de cette dernière. Des évaluations sont menées sur des textes écrits et sur des transcriptions automatiques de la parole à la télévision, transcriptions qui ne respectent pas les normes des textes écrits, ce qui accroît la difficulté. Les résultats expérimentaux obtenus démontrent la pertinence de la combinaison des critères de cohésion et de rupture.
机译:在任何文本数据中识别主题结构是一项艰巨的任务。大多数现有技术可以在最大化段内的词汇内凝聚量或在词汇中的检测中休息。我们提出了一种结合这两个标准的新技术,以便在内聚力和破裂之间获得最佳折衷。我们根据Utiyama和Isahara(2001)提出的方法,定义了一个新的概率模型,保护了现场的独立性和低价。评估是关于书面文本和电视上的言语的自动转录,转录物不符合书面文本标准的成绩单,这增加了困难。获得的实验结果证明了内聚力和破裂标准的组合的相关性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号