首页> 外文OA文献 >Contributions en faveur d'une meilleure personnalisation de la recherche d'informations - Applications à la tâche questions-réponses, à la recherche de documents audio et à l'accessibilité pour des personnes dyslexiques
【2h】

Contributions en faveur d'une meilleure personnalisation de la recherche d'informations - Applications à la tâche questions-réponses, à la recherche de documents audio et à l'accessibilité pour des personnes dyslexiques

机译:有助于更好地个性化信息检索的贡献-应用于问答任务,搜索音频文档以及阅读障碍者的可访问性

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。
获取外文期刊封面目录资料

摘要

Dans un article récent sur les enjeux de la recherche d'informations, Belkin (2008) rappelle que la question de la personnalisation est annoncée comme majeure depuis une vingtaine d'années mais que la plupart des tentatives vers une étude systématique ont échoué. S'il n'est pas question de prétendre que les évaluations TREC Interactive puis TREC Hard et TREC ciQA, pour ne mentionner qu'elles, n'ont abouti à rien dans ce domaine, force est de constater que l'utilisateur n'intervient que très peu dans les systèmes de recherche de l'Internet et qu'aussi bien des paradigmes d'évaluation que des stratégies efficaces restent encore à trouver. Dans les différents chapitres qui constituent ce mémoire d'Habilitation, nous présentons trois directions vers une personnalisation de la recherche d'informations. La première correspond à une analyse du besoin en information d'un utilisateur qui permet de distinguer recherche documentaire et recherche de réponses précises sachant que celles-ci peuvent être des informations factuelles, des définitions ou des explications. Cette distinction correspond à celle entre Recherche d'informations (RI) et questions-réponses (QR) mais, pour être utilisables, les systèmes correspondants devront être fusionnés. En outre, il sera utile d'inciter l'utilisateur à changer ses habitudes pour laisser de côté les requêtes mots-clés et (re)venir à des requêtes en langue naturelle. Les solutions logicielles que nous avons développées ont été évaluées dans le cadre des campagnes TREC, CLEF et EQUER.La seconde direction que nous avons suivie est celle de l'aide à la navigation dans de grandes bases documentaires mélangeant fichiers audio et textes. Elle consiste à définir une interface homme-machine permettant un survol chronologique, par l'exploitation de méthodes de reconnaissance de la parole, d'indexation sémantique (LSI), de segmentation thématique et de résumé automatique (campagne d'évaluation DUC), des documents de la collection. Les techniques d'indexation en jeu n'exploitent pas la totalité des traits propres à l'audio (prosodie, hésitations...) et cela fera l'objet de travaux futurs. L'objectif étant de parvenir à des systèmes multimodaux dans lesquels les documents audio ne sont pas extit{noyés} parmi des documents texte plus nombreux et plus verbeux.La troisième direction consiste à prendre en compte la capacité de lecture et d'écriture d'un utilisateur dans le calcul du score de pertinence d'un document vis à vis d'une requête. Les avancées les plus récentes de la technique et de l'imagerie médicale nous offrent des modélisations plausibles de nos fonctionnements cognitifs dont nous pouvons nous inspirer afin de simuler l'humain dans des domaines tels que le langage et la pensée. Nous nous sommes plus particulièrement intéressé aux modèles cognitifs de la lecture et à la tentative de les exploiter afin de définir des systèmes de recherche d'informations capables d'estimer l'effort nécessaire à la compréhension d'un document et d'être suffisamment robustes pour accepter des requêtes mal orthographiées. Les modèles de recherche d'informations usuels permettent d'ordonner des documents en fonction de la quantité d'informations qu'ils véhiculent vis à vis de ce que l'utilisateur a exprimé dans sa requête tout en tenant compte, dans le meilleur des cas, du taux de nouveautés apportées par rapport à d'autres documents déjà connus. Il s'agit d'une vision purement informationnelle de la pertinence posant l'hypothèse que plus le nombre d'informations nouvelles est grand, plus le document est susceptible d'intéresser l'utilisateur. Cela s'avère exact dans une certaine mesure mais ne tient pas compte du fait que les besoins sont différents suivant le niveau d'expertise de l'utilisateur : une personne novice dans un domaine sera certainement plus intéressée par un document de vulgarisation que par une étude approfondie, au vocabulaire et à la structure complexes. Cela est vrai à plus forte raison pour des personnes ayant des difficultés élevées de lecture tels les dylsexiques. Il s'agit alors de définir de nouvelles mesures prenant en compte cet aspect tout en offrant la possibilité de présenter d'abord les documents les plus "simples", les plus "lisibles".La problématique de la personnalisation et de la prise en compte de l'utilisateur en recherche d'informations renvoie naturellement à celle, bien plus large, des fondements du traitement automatique des langues, au croisement de la linguistique et de l'informatique, toutes deux rejointes par la psycholinguistique et la psychologie cognitive pour l'étude des comportements individuels, les neurosciences pour l'étude des racines physiologiques du langage mais aussi par la sémiologie pour des analyses globales des usages et des significations. Ce croisement pluridisciplinaire est un enjeu majeur des années à venir si l'on veut aller au-delà, pour paraphraser K. Sparck-Jones, de la seule étude permettant d'espérer (et encore ne s'agit-il que d'un espoir sans même être convaincu de la significativité des gains) grappiller quelques points de précision en recherche ad-hoc.Il va de soi que les recherches présentées correspondent à un travail d'équipe. Elles sont ainsi l'oe uvre des activités conduites au LIA depuis septembre 2000, et notamment, en respectant l'ordre chronologique, celles de Laurent Gillard, Benoît Favre et Laurianne Sitbon dont j'ai co-encadrées les thèses de Doctorat avec Marc El-Bèze (Université d'Avignon et des Pays de Vaucluse), Jean-François Bonastre (Université d'Avignon et des Pays de Vaucluse) et Philippe Blache (CNRS et Université Aix-Marseille).
机译:Belkin(2008)在最近的一篇关于寻找信息的挑战的文章中回顾说,个性化问题已经被宣布为主要问题已有二十年了,但是大多数系统研究的尝试都以失败告终。如果不是声称TREC Interactive评估,然后是TREC Hard和TREC ciQA评估,更不用说在该领域没有取得任何成果,那么很明显,用户不会干预互联网搜索系统中只有很少的内容,而且还没有找到评估范例和有效策略。在组成本适应性研究论文的不同章节中,我们提出了个性化搜索信息的三个方向。第一个对应于对用户信息需求的分析,这使得有可能区分文献研究并搜索精确答案,因为知道这些答案可能是事实信息,定义或解释。此区别对应于信息检索(IR)和问题与答案(QR)之间的区别,但要使用,必须将相应的系统合并。另外,鼓励用户改变他们的习惯以抛弃关键字查询和(重新)自然语言查询将是有用的。我们开发的软件解决方案已经在TREC,CLEF和EQUER活动的框架内进行了评估,我们遵循的第二个方向是帮助在混合音频和文本文件的大型文档数据库中导航。它通过定义语音识别,语义索引(LSI),主题分割和自动摘要(DUC评估活动)的方法来定义人机界面,以便按时间顺序进行概览,收集文件。游戏中的索引技术并未利用音频的所有特定功能(韵律,犹豫等),这将是未来工作的主题。目的是要实现一种多模式系统,在这种系统中,音频文档不会在越来越多的冗长的文本文档中被嵌入 textit。第三方向在于考虑读写能力。 “用户在计算与请求有关的文档的相关性分数时。技术和医学成像的最新进展为我们的认知功能模型提供了合理的模型,我们可以从中获得启发,从而在语言和思想等领域模拟人类。我们对阅读的认知模型以及试图利用它们以定义信息检索系统的尝试特别感兴趣,这些信息检索系统能够估计能够理解文档的工作量并且足够健壮。接受拼写错误的请求。通常的信息搜索模型可以根据用户在考虑到用户请求时表达的信息量(在最佳情况下)来订购文档,与已知的其他文档相比,新添加的比例。假设新信息的数量越多,文档对用户的吸引力就越大,这就是纯粹的相关性信息视图。事实证明这在一定程度上是正确的,但没有考虑到需求根据用户的专业水平而有所不同的事实:与该领域的新手相比,一个刚接触该领域的人一定会对它更感兴趣。深入学习,具有复杂的词汇和结构。对于阅读困难的人(如双性恋者)来说,情况尤其如此。因此,这是一个在考虑这一方面的同时定义新措施的问题,同时提供了首先呈现最“简单”文档,最“易读”文档的可能性。的用户寻找信息自然是指在语言学和计算机科学的交汇处,语言语言学和认知心理学共同为自动语言处理奠定了更广阔的基础。研究个人行为,神经科学不仅研究语言的生理根源,而且还通过符号学研究其用途和意义。如果我们想进一步讲解K,则跨学科交叉是未来几年的主要挑战。Sparck-Jones,这是唯一允许希望的研究(尽管这甚至是一个希望,甚至都没有相信收益的重要性),可以在即席研究中收集到一些精确度。提出的研究与团队合作相对应。因此,它们是自2000年9月以来在LIA开展的活动的工作,尤其是尊重时间顺序,包括Laurent Gillard,BenoîtFavre和Laurianne Sitbon的活动,我与Marc共同指导了博士论文El-Bèze(阿维尼翁和沃克斯克鲁斯大学),Jean-FrançoisBonastre(阿维尼翁和沃克斯克鲁斯大学)和Philippe Blache(CNRS和艾克斯-马赛大学)。

著录项

  • 作者

    Bellot Patrice;

  • 作者单位
  • 年度 2008
  • 总页数
  • 原文格式 PDF
  • 正文语种 fr
  • 中图分类

相似文献

  • 外文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号