首页> 外文OA文献 >Extração e alinhamento de hierarquias em páginas WEB
【2h】

Extração e alinhamento de hierarquias em páginas WEB

机译:WEB页面上的层次结构的提取和对齐

摘要

A heterogeneidade das formas como as informações são apresentadas na web é uma característica que dificulta a análise de dados entre diferentes fontes. Mesmo em estruturas hierárquicas, que possuem uma relação mínima de ordem, não há um padrão para como exibir os elementos e como referenciar os mesmos. Por isso, o foco principal deste trabalho é apresentar uma ferramenta visual e extensível que centraliza e auxilia operações sobre tais estruturas em páginas da internet. Para tanto, foi elaborada a ferramenta PLATAL (Plataforma de Extração e Alinhamento de Hierarquias), voltada para facilitar as diversas operações de alinhamento de hierarquias. A ferramenta possui quatro módulos principais: um para extração de hierarquias de páginas da internet, tornando-as disponíveis para manipulação em formatos padrões da web semântica; um para alinhamento automatizado dessas hierarquias, baseado em diversas heurísticas e técnicas de alinhamento de ontologias; um para alinhamento manual de hierarquias, possibilitando a criação de alinhamentos de referência; e por fim, um para avaliação de alinhamentos, através da análise de precisão e abrangência. Para avaliar as heurísticas de alinhamento, foram realizados experimentos no domínio de comércio eletrônico. Os resultados foram comparados com o produzido por outras ferramentas descritas na literatura. Portanto, este trabalho contribui como uma forma de viabilizar a criação de hierarquias alinhadas a partir das estruturas heterogêneas encontradas na web.
机译:Web上信息呈现方式的异质性使得很难分析不同来源之间的数据。即使在具有最小顺序比率的分层结构中,也没有关于如何显示元素以及如何引用它们的标准。因此,这项工作的主要重点是提供一种可视化和可扩展的工具,该工具可以集中并协助对Internet页面上的此类结构进行操作。为此,开发了PLATAL工具(用于层次结构提取和对齐的平台),旨在促进层次结构对齐的各种操作。该工具有四个主要模块:一个用于从互联网页面中提取层次结构,使其可用于标准语义Web格式的操作;另一个则包含以下内容:一种用于基于不同的启发式和本体对齐技术来自动对齐这些层次结构;一种用于层次结构的手动对齐,允许创建参考对齐;最后,通过对精度和全面性的分析来评估比对。为了评估比对启发法,在电子商务领域进行了实验。将结果与文献中描述的其他工具产生的结果进行了比较。因此,这项工作有助于简化根据网络上的异构结构创建层次结构的方式。

著录项

  • 作者

    Souza Bernardo Severo de;

  • 作者单位
  • 年度 2012
  • 总页数
  • 原文格式 PDF
  • 正文语种 Português
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号