首页> 外国专利> Enabling a web-crawling robot to collect information from web sites that tailor information content to the capabilities of accessing devices

Enabling a web-crawling robot to collect information from web sites that tailor information content to the capabilities of accessing devices

机译:使网络爬虫机器人能够从网站收集信息,从而根据访问设备的能力定制信息内容

摘要

A web-crawling robot retrieves information from a web server that tailors information content to the capability of an accessing device. A link deriving unit in a proxy server for relaying data exchanged between the robot and the site analyzes a response from the site to the robot, and acquires information on a user agent corresponding to a particular kind of content of a link destination. On the basis of the information, a user agent information editing unit in the proxy server adds user agent information to the content retrieval request from the web-crawling robot to the site so as to disguise it as a content retrieval request issued from a given user agent, thereby acquiring a response corresponding to capabilities of the user agent.
机译:Web爬行机器人从Web服务器检索信息,该服务器根据访问设备的能力定制信息内容。代理服务器中用于中继在机器人和站点之间交换的数据的链接派生单元分析从站点到机器人的响应,并获取与链接目标的特定种类的内容相对应的用户代理信息。基于该信息,代理服务器中的用户代理信息编辑单元将用户代理信息添加到从爬网机器人到站点的内容检索请求中,以将其伪装成从给定用户发出的内容检索请求。代理,从而获取与用户代理功能相对应的响应。

著录项

  • 公开/公告号US7536445B2

    专利类型

  • 公开/公告日2009-05-19

    原文格式PDF

  • 申请/专利权人 TAKAFUMI KINOSHITA;

    申请/专利号US20040751767

  • 发明设计人 TAKAFUMI KINOSHITA;

    申请日2004-01-05

  • 分类号G06F15/16;

  • 国家 US

  • 入库时间 2022-08-21 19:30:06

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号