首页> 外文OA文献 >Processos de construção automática de tesauro
【2h】

Processos de construção automática de tesauro

机译:自动同义词库构建过程

摘要

Com o progresso da tecnologia, a quantidade de informação disponível em formato digital tem aumentado rapidamente. Esse aumento se reflete na crescente importância de sistemas de Recuperação de Informações (RI) eficientes, obtendo as informações corretas quando requisitadas pelos usuários. Tesauros podem ser associados a sistemas de RI, permitindo que o sistema realize consultas não apenas pelo termo-chave, mas também por termos relacionados, obtendo documentos relacionados, que antes não eram recuperados. A criação manual, processo longo e oneroso que dava origem aos primeiros tesauros, passa a ser realizada automaticamente, através de diferentes métodos e processos disponíveis atualmente. Com esta motivação, este trabalho propõe estudar três processos de construção automática de tesauros. Um método utiliza técnicas estatísticas para a identificação dos melhores termos relacionados. Outro método utiliza conhecimento sintático, sendo necessário extrair, além das categorias gramaticais de cada termo, as relações que um verbo tem com seu sujeito ou objeto. O último método faz a utilização de conhecimento sintático e de conhecimento semântico dos termos, identificando relações que não são aparentes. Para isso, esse último método utiliza uma adaptação da técnica de Análise Semântica Latente. Foram desenvolvidos estes três métodos de geração tesauros a partir de documentos do domínio de privacidade de dados. Os resultados foram aplicados a um sistema de RI, permitindo a avaliação por especialistas do domínio. Como conclusão, observamos que, em determinados casos, é melhor a aplicação de técnicas que não utilizem conhecimento semântico dos termos, obtendo melhores resultados com métodos que utilizam apenas o conhecimento sintático dos mesmos.
机译:随着技术的进步,数字格式的可用信息量迅速增加。这种增加反映在有效的信息检索(IR)系统日益重要的意义上,该系统可以在用户请求时获取正确的信息。同义词库可以与IR系统关联,从而使系统不仅可以通过关键字来查询,还可以通过相关术语来进行查询,从而获得以前未检索到的相关文档。手动创建是一个漫长而又昂贵的过程,它产生了第一个同义词库,现在可以使用当前可用的不同方法和过程自动执行。出于这种动机,这项工作建议研究同义词库自动构建的三个过程。一种方法是使用统计技术来确定最佳的相关术语。另一种方法使用句法知识,除了提取每个术语的语法类别外,还必须提取动词与其主语或宾语之间的关系。后一种方法使用术语的句法和语义知识,识别不明显的关系。为此,后一种方法使用了潜在语义分析技术的改编。这三种同义词库生成方法是根据数据隐私领域中的文档开发的。将结果应用于IR系统,可以由该领域的专家进行评估。作为结论,我们观察到,在某些情况下,最好应用不使用术语语义知识的技术,而仅使用其语法知识的方法可获得更好的结果。

著录项

  • 作者

    Granada Roger Leitzke;

  • 作者单位
  • 年度 2011
  • 总页数
  • 原文格式 PDF
  • 正文语种 Português
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号