首页> 外文OA文献 >Application de techniques de forage de textes de nature prédictive et exploratoire à des fins de gestion et d'analyse thématique de documents textuels non structurés
【2h】

Application de techniques de forage de textes de nature prédictive et exploratoire à des fins de gestion et d'analyse thématique de documents textuels non structurés

机译:预测性和探索性文本钻探技术在非结构化文本文档的管理和主题分析中的应用

摘要

Depuis les dix dernières années, on observe une hausse considérable du nombre d'initiatives visant à numériser et à rendre disponible le patrimoine informationnel des organisations et des différentes branches du savoir. Les conséquences découlant de ces initiatives sont importantes et très nombreuses. Elles ont entre autres conduit à l'émergence d'applications permettant différentes opérations complexes d'analyse et de gestion des documents. Malgré la diversité de ces applications, on constate que l'ensemble des disciplines reliées à l'analyse et à la gestion des documents textuels sont axées sur la compréhension et l'informatisation des processus d'identification des contenus thématiques et d'analyse thématique. Le projet que nous présentons aborde précisément les problématiques de l'identification des thèmes et de l'assistance à l'analyse thématique des documents textuels. L'objectif général du projet est de développer et de valider deux méthodologies informatiques fondées respectivement sur la catégorisation et la classification automatiques permettant d'assister efficacement l'identification des thèmes et, surtout, l'analyse thématique des documents textuels. Il vise ainsi à effectuer un transfert de concepts et de méthodologies provenant, d'une part, des recherches théoriques et pluridisciplinaires portant sur l'analyse thématique et, d'autre part, des recherches appliquées en classification et en catégorisation automatiques des données afin de proposer une méthodologie et un prototype d'application flexible visant à assister le chercheur dans son travail d'analyse thématique des textes. Le défi principal de ce projet réside donc dans l'opérationnalisation de l'analyse thématique en employant certaines stratégies de classification et de catégorisation automatiques des textes. Au niveau cognitif, nous proposons d'explorer la pertinence et la fécondité de certaines théories d'inspiration linguistique et littéraire ayant abordé la question du thème pour nous aider dans l'identification du contenu thématique et l'analyse thématique des documents textuels. À ce niveau, notre objectif est de démontrer comment les théories retenues, celles de Kintsch et Van Dijk, de Rimmon-Kenan et de Rastier, ont défini le thème de telle sorte qu'il est possible d'en assister informatiquement l'identification et l'analyse à l'aide de la méthodologie que nous proposons. Au niveau informatique, un premier volet de notre démarche consiste à explorer et à comparer les performances des opérations de catégorisation et de classification automatiques à des fins d'identification du contenu thématique et d'analyse thématique des documents textuels non structurés. Les résultats sont évalués en appliquant un système de catégorisation hybride neuro-flou et un algorithme de classification neuronal non supervisé sur un corpus d'articles de journaux. Par ailleurs, la classification et la catégorisation sont des opérations traditionnellement appliquées à des documents entiers. Nous proposons une manière alternative de réaliser ces processus : notre démarche consiste d'abord à segmenter chacun des documents puis à soumettre aux processus de regroupement les différents segments de texte. Cette démarche a l'avantage de pouvoir attribuer plusieurs catégories thématiques à chaque document, ce qui est plus difficilement réalisable lorsque les documents sont traités en entier. Finalement, dans bon nombre d'applications d'analyse et de gestion des documents textuels, le processus de catégorisation est effectué en utilisant un plan de classification ou une taxinomie de catégories prédéfinies. Le développement de ces taxinomies, bien qu'il puisse être assisté dans certains cas par des applications informatiques, s'avère coûteux et très complexe. Dans ce projet, nous démontrerons qu'il est possible, en l'absence de taxinomies, d'employer certains termes du lexique initial du corpus comme étiquettes thématiques.ud______________________________________________________________________________ udMOTS-CLÉS DE L’AUTEUR : analyse thématique, identification de thèmes, Lecture et Analyse de Textes Assistées par Ordinateur (LATAO), classification automatique, catégorisation automatique.
机译:在过去的十年中,旨在数字化和提供组织和知识的不同分支的信息遗产的举措的数量已大大增加。这些举措的后果是巨大的,而且是众多的。除其他事项外,它们还导致了应用程序的出现,这些应用程序允许文档分析和管理的不同复杂操作。尽管这些应用程序的多样性,但我们发现与文本文档的分析和管理相关的所有学科都集中在理解和计算机化识别主题内容和主题分析的过程上。我们正在介绍的项目专门解决了确定主题和协助文本文档主题分析的问题。该项目的总体目标是开发和验证分别基于自动分类和分类的两种计算机方法,从而可以有效地帮助主题识别,尤其是文本文档的主题分析。因此,它旨在从概念分析和多学科研究方面转移概念和方法论,另一方面,将其应用于数据的自动分类和分类中以进行研究。提出了一种灵活的应用方法和原型,旨在协助研究人员对文本进行主题分析。因此,该项目的主要挑战在于通过使用某些文本自动分类和分类策略来进行主题分析。在认知水平上,我们建议探讨某些语言和文学灵感理论的相关性和成果,这些理论和主题已接近主题问题,以帮助我们识别主题内容和对文本文件进行主题分析。在此级别上,我们的目标是证明保留的理论(金斯和范·迪克,里蒙·肯南和拉斯蒂尔的理论)如何定义主题,以便可以帮助进行计算机识别和使用我们提出的方法进行分析。在IT级别,我们方法的第一部分包括探索和比较自动分类和分类操作的性能,以识别主题内容和非结构化文本文档的主题分析。通过将混合神经模糊分类系统和无监督神经分类算法应用于报纸文章集来评估结果。另外,分类和分类是传统上应用于整个文档的操作。我们提出了执行这些过程的另一种方法:我们的方法首先包括对每个文档进行分段,然后对不同的文本段进行分组过程。这种方法的优点是能够为每个文档分配几个主题类别,而在完全处理文档时,很难实现这一主题。最后,在许多文本文档分析和管理应用程序中,使用分类计划或预定义类别的分类法执行分类过程。尽管在某些情况下可以通过计算机应用程序来辅助这些分类法的开发,但它既昂贵又非常复杂。在这个项目中,我们将证明,在没有分类法的情况下,可以使用语料库的最初词典中的某些术语作为主题标签。 Ud ______________________________________________________________________________ ud作者的关键词:主题分析,主题识别,阅读和分析计算机辅助文本(LATAO),自动分类,自动分类。

著录项

  • 作者

    Forest Dominic;

  • 作者单位
  • 年度 2006
  • 总页数
  • 原文格式 PDF
  • 正文语种 fr
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号