首页> 外文会议>Integrated Design amp; Process Technology vol.1(IDPT-Vol.1, 2005) >DATA EXTRACTION FROM REPOSITORIES ON THE WEB:A SEMI-AUTOMATIC APPROACH
【24h】

DATA EXTRACTION FROM REPOSITORIES ON THE WEB:A SEMI-AUTOMATIC APPROACH

机译:从网络存储库中提取数据:一种半自动方法

获取原文
获取原文并翻译 | 示例

摘要

The World Wide Web (WWW) is becoming the most important source of information for businessrnintelligence and information dissemination. Past information gathering techniques like surfing andrnsifting are proving insufficient in processing the vast volumes of data readily available from thernWeb. In addition, companies are being forced to integrate this vast data repository within specificrncost, time, and reliability spectrums. This paper presents the fundamentals of a system calledrn“Browser Harness” (B2H) that extracts the requested data from Web sites in a supervised fashion.rnThe algorithmic background of this system is based on the tag structure of web pages, as HTML isrnthe predominate choice for rendering web page content on the WWW. B2H is an interactive toolrnfor harnessing data from semi-structured and structured web pages by analyzing the tag structurernof the input page and locating the data in the HTML code. The extracted data is then exported tornXML, delimited text, or database tables.
机译:万维网(WWW)成为商务智能和信息传播的最重要信息来源。事实证明,过去的信息收集技术(如冲浪和筛选)不足以处理可从TherWeb轻松获得的大量数据。此外,公司被迫在特定的成本,时间和可靠性范围内集成这个庞大的数据存储库。本文介绍了称为“浏览器安全带”(B2H)的系统的基本原理,该系统以监督方式从网站中提取请求的数据。该系统的算法背景基于网页的标签结构,因为HTML是主要的选择用于在WWW上呈现网页内容。 B2H是一种交互式工具,可通过分析输入页面上的标签结构并在HTML代码中定位数据来利用半结构化和结构化网页中的数据。然后将提取的数据导出到XML,分隔文本或数据库表中。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号