【24h】

Towards XML schema extraction from deep web

机译:致力于从深度网络中提取XML模式

获取原文
获取原文并翻译 | 示例

摘要

Today, not all the web is fully accessible by the Web search engines. There is a hidden and inaccessible part of the web called the deep web. Many methods exist in the literature to access and to integrate the huge structured data contained in the deep web. In this paper, we propose our approach to extract the XML schema describing a selected deep web source. Our approach is based on the static and the dynamic analysis of the HTML forms giving access to the selected deep web source. Our approach uses two knowledge database during its process: our proprietary identification tables and Wordnet. The XML schema extracted will be used to integrate the associated deep web source into a mediation system without extracting all its information.
机译:今天,并不是所有的网络都可以被网络搜索引擎完全访问。网络中有一个称为“深层网络”的隐藏且不可访问的部分。文献中存在许多访问和集成深层网络中包含的巨大结构化数据的方法。在本文中,我们提出了一种提取描述选定深度Web源的XML模式的方法。我们的方法基于对HTML表单的静态和动态分析,可以访问选定的深层Web源。我们的方法在其过程中使用两个知识数据库:我们的专有标识表和Wordnet。提取的XML模式将用于将关联的深层Web源集成到中介系统中,而无需提取其所有信息。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号