【24h】

Similarité de second ordre pour l'exploration de bases textuelles multilingues

机译:探索多语言文本基础的二阶相似性

获取原文

摘要

Cet article décrit l'utilisation de la technique de similarité de second ordre pour l'identification de textes semblables au sein d'une base de rapports d'incidents aéronautiques mélangeant les langues française et anglaise. L'objectif du système est, pour un document donné, de retrouver des documents au contenu similaire quelle que soit leur langue. Nous utilisons un corpus bilingue aligné de rapports d'accidents aéronautiques pour construire des paires de pivots et indexons les documents avec des vecteurs de similarités, tels que chaque coordonnée correspond au score de similarité entre un document dans une langue donnée et la partie du pivot de la même langue. Nous évaluons les performances du système sur un volumineux corpus de rapports d'incidents aéronautiques pour lesquels nous disposons de traductions. Les résultats sont prometteurs et valident la technique.
机译:本文介绍了使用二阶相似性技术来识别航空事件报告数据库中使用法语和英语混合显示的相似文本的方法。该系统的目标是,对于给定的文档,无论其语言如何,都可以找到内容相似的文档。我们使用对齐的航空器事故报告双语语料库来构建枢轴对,并使用相似度向量对文档进行索引,以使每个坐标对应于给定语言的文档与相同语言的枢轴部分之间的相似度得分。我们在大量的航空事故报告中对其进行了评估,以评估该系统的性能。结果是有希望的,并验证了该技术。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号