Automatic Extraction of Dynamic Record Sections From Search Engine Result Pages

机译：从搜索引擎结果页面自动提取动态记录部分

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

A search engine returned result page may contain search results that are organized into multiple dynamically generated sections in response to a user query. Furthermore, such a result page often also contains information irrelevant to the query, such as information related to the hosting site of the search engine. In this paper, we present a method to automatically generate wrappers for extracting search result records from all dynamic sections on result pages returned by search engines. This method has the following novel features: (1) it aims to explicitly identify all dynamic sections, including those that are not seen on sample result pages used to generate the wrapper, and (2) it addresses the issue of correctly differentiating sections and records. Experimental results indicate that this method is very promising. Automatic search result record extraction is critical for applications that need to interact with search engines such as automatic construction and maintenance of metasearch engines and deep Web crawling.

机译：搜索引擎返回的结果页面可能包含响应于用户查询而组织为多个动态生成的部分的搜索结果。此外，这样的结果页面通常还包含与查询无关的信息，例如与搜索引擎的托管站点有关的信息。在本文中，我们提出了一种自动生成包装器的方法，该包装器用于从搜索引擎返回的结果页上的所有动态部分中提取搜索结果记录。此方法具有以下新颖功能：（1）它旨在明确标识所有动态节，包括那些在用于生成包装程序的示例结果页上未看到的动态节，以及（2）解决正确区分节和记录的问题。实验结果表明该方法是很有前途的。自动搜索结果记录提取对于需要与搜索引擎进行交互的应用程序至关重要，例如元搜索引擎的自动构建和维护以及深层Web爬网。

著录项

来源
《32nd International Conference on Very Large Data Bases(VLDB 2006) vol.2》|2006年|989-1000|共12页
会议地点 Seoul(KR)
作者
Hongkun Zhao; Weiyi Meng; Clement Yu;
展开▼
作者单位

SUNY at Binghamton Binghamton, NY 13902, USA;

University of Illinois at Chicago Chicago, IL 60607, USA;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类 TP311.13;
关键词

相似文献

外文文献
中文文献
专利

1. An Agent Based System Framework for Mining Data Record Extraction from Search Engine Result Pages [J] . P.Kalaivani, Dr.K.L Shunmuganathan International Journal of Engineering Science and Technology . 2012,第4期

机译：基于Agent的系统框架，用于从搜索引擎结果页面中提取数据记录
2. Second Chance: A Hybrid Approach for Dynamic Result Caching and Prefetching in Search Engines [J] . RIFAT OZCAN, ISMAIL SENGOR ALTINGOVDE, B. BARLA CAMBAZOGLU, ACM transactions on the web . 2014,第1期

机译：第二次机会：搜索引擎中动态结果缓存和预取的混合方法
3. How are XML-based Marc 21 and Dublin Core records indexed and ranked by general search engines in dynamic online environments? [J] . A. Hossein Farajpahlou, Faeze Tabatabai Aslib Proceedings . 2011,第6期

机译：在动态在线环境中，常规搜索引擎如何基于XML的Marc 21和Dublin Core记录进行索引和排名？
4. Automatic Extraction of Dynamic Record Sections From Search Engine Result Pages [C] . Hongkun Zhao, Weiyi Meng, Clement Yu International Conference on Very Large Data Bases . 2006

机译：从搜索引擎结果页面自动提取动态记录部分
5. Automatic wrapper generation for the extraction of search result records from search engines. [D] . Zhao, Hongkun. 2007

机译：自动包装器生成，用于从搜索引擎中提取搜索结果记录。
6. SIB Literature Services: RESTful customizable search engines in biomedical literature enriched with automatically mapped biomedical concepts [O] . Julien Gobeill, Déborah Caucheteur, Pierre-André Michel, 2020

机译：SIB文献服务：生物医学文献中的RESTful可定制搜索引擎丰富了自动映射的生物医学概念
7. Automatic Recognition of the Hits Line in Search Engine Result Page [O] . Qian Haibo, Qian ZhongMin 2016

机译：在搜索引擎结果页面中自动识别击中线

Automatic Extraction of Dynamic Record Sections From Search Engine Result Pages

摘要

著录项

相似文献

相关主题

期刊订阅