【24h】

Looking at the Web through XML glasses

机译:通过XML眼镜看Web

获取原文

摘要

The Web so far has been incredibly successful at deliveringinformation to human users. So successful actually, that there is now anurgent need to go beyond a browsing human and make informationaccessible to applications, in order to offer automation,inter-operation and Web-awareness among services. To do so, informationfrom Web sources needs to be accessible in a structured way. XML and itsvarious extensions (data-models, query languages) are a step in thisdirection. Unfortunately, the Web is not yet a well organized repositoryof nicely structured XML documents but rather a conglomerate of volatileHTML pages, for which structure has to be extracted. To address thisproblem, we present the World Wide Web Wrapper Factory (W4F), a Javatoolkit for the generation of wrappers for Web sources. Our maincontributions are: (1) an expressive language to specify the extractionof complex structures from HTML pages; (2) a declarative mapping to XMLdocuments, with the automatic generation of the corresponding DTDs; (3)some visual supports to make the engineering of wrappers faster andeasier As an illustration, we show how we can, via W4F intermediation,transparently query HTML sources from an XML query language
机译:到目前为止,Web在交付方面已经取得了令人难以置信的成功 给人类用户的信息。实际上如此成功,以至于现在有一个 迫切需要超越浏览人类并获取信息 应用程序可以访问,以便提供自动化, 服务之间的互操作和Web意识。为此,信息 需要以结构化的方式访问Web来源中的内容。 XML及其 各种扩展(数据模型,查询语言)是其中的一步 方向。不幸的是,Web还不是一个组织良好的存储库 结构良好的XML文档,但由volatile组成 HTML页面,必须为其提取结构。为了解决这个问题 问题,我们提出了一种Java万维网包装厂(W4F)。 用于生成Web资源包装器的工具包。我们的主要 贡献是:(1)一种表达语言来指定提取 HTML页面的复杂结构; (2)到XML的声明性映射 文档,并自动生成相应的DTD; (3) 一些视觉上的支持,以使包装器的工程设计更快,并且 作为示例,我们展示了如何通过W4F中介, 从XML查询语言透明地查询HTML源

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号