首页> 中文学位 >支持云计算产品RIA模式页面数据抓取的模型和策略研究
【6h】

支持云计算产品RIA模式页面数据抓取的模型和策略研究

代理获取

目录

摘要

第1章 绪论

1.1 研究背景与目的意义

1.2 国内外研究现状

1.2.1 抓取模型

1.2.2 抓取策略

1.3 主要研究工作与方法

1.4 主要研究内容

第2章 相关技术理论介绍

2.1 构建RIA的关键技术

2.1.1 Ajax的原理和简介

2.1.2 jQuery的原理和简介

2.2 模型和策略的理论介绍

2.2.1 抓取模型架构理论

2.2.2 抓取策略理论

2.3 Scrapy框架介绍

2.4 Selenium简介

2.5 本章小结

第3章 模型与策略分析

3.1 抓取研究面临的问题

3.2 抓取模型问题分析

3.2.1 脚本解析问题分析

3.2.2 用户事件触发问题分析

3.3 抓取策略问题分析

3.3.1 页面建模问题分析

3.3.2 抓取算法问题分析

3.4 本章小结

第4章 模型与策略设计

4.1 抓取模型设计

4.1.1 抓取模型架构设计

4.1.2 脚本解析方案设计

4.1.3 事件触发方案设计

4.1.4 模型主要模块处理流程设计

4.2 抓取策略设计

4.2.1 目标页面建模方案设计

4.2.2 抓取算法方案设计

4.2.3 抓取策略处理流程设计

4.3 本章小结

第5章 实例运行实验

5.1 实验环境

5.1.1 硬件环境

5.1.2 软件环境

5.1.3 实验环境架构

5.2 初始设置

5.2.1 系统支持组件包部署

5.2.2 URLs及Rules初始实验数据设置

5.2.3 Spider模块参数设置

5.3 其它参数设置

5.4 实验及结果

5.5 结果分析

5.6 本章小结

第6章 总结与展望

6.1 总结

6.2 不足与展望

参考文献

致谢

声明

展开▼

摘要

随着云计算产业的发展,越来越多的云计算产品在市场上出现,这在给中小企业和其它用户带来更多降低企业和应用成本的同时,也使得企业和用户在面对大量产品信息的同时不知所措。这一方面是由于云产品具有可高度定制化的特点,令其信息量大增;另一方面是源自这些信息分散地存在于各云产品厂商的服务器上,难以进行集中处理。这些问题阻碍着企业和用户在选择云计算产品应用云计算技术时的有效决策。在传统互联网领域,为了解决从海量信息中有效获取有用信息这一问题,人们开发了搜索引擎,通过抓取分散在Web上的信息,可以实现对Web信息的快速查询。但Web发展到今天,信息在Web上的存在和展现方式已经发生了翻天覆地的变化,以Ajax技术为基础,应用大量如jQuery等前端脚本技术的Web站点,已然形成了将大量信息隐藏在搜索引擎抓取能力之外的RIAs(Rich InternetApplications),而云计算厂商的产品页面则几乎都是复杂的RIA。传统搜索引擎出于技术和成本的考虑,在抓取RIA中的深层网信息时力不从心。因此,为了抓取云计算厂商RIA页面中的产品信息,给企业和用户提供决策的支持,而要研究支持从RIA模式页面中抓取信息的模型和策略。
  本文通过对传统Web抓取技术,也就是网络爬虫,以及现有的在支持Web2.0及Ajax的抓取技术方面的研究,提出了一个支持从RIA中抓取可定制化产品信息的抓取模型和策略。研究在通用的Scrapy抓取框架的基础上,增加了用于存储和处理抓取规则的功能,重写了抓取算法,改善了调度方法,实现了脚本解析、DOM操作和用户事件触发等机制。和传统网络爬虫及现有支持Ajax抓取的系统不同,本模型和策略既不是一个通用的网络爬虫,也不是一个针对个别网站的专用抓取系统,通过特定的事件触发和RIA页面模型遍历算法,本模型和策略可以通过解析抓取规则,实现对用户可定制产品参数的产品RIA页面进行抓取。本模型和策略与传统网络爬虫的主要区别在于能对RIA页面中的脚本进行解析,并根据脚本执行结果操作页面DOM,从而获取隐藏在RIA中的深层信息;与现有的支持Ajax的抓取系统的区别在于,通过对抓取的目标页面重新建模,并采用不同的抓取算法和脚本支持方法,实现模拟用户对RIA页面助用户事件的触发。
  本文对支持从云计算产品RIA页面中抓取数据的抓取模型和策略的研究,对于利用云计算产品信息,为企业和用户提供云计算决策支持有重要意义,同时对获取可定制化产品的信息,对相关产品和行业进行分析也具有一定的应用价值。

著录项

  • 作者

    汪澍;

  • 作者单位

    浙江工商大学;

  • 授予单位 浙江工商大学;
  • 学科 管理科学与工程
  • 授予学位 硕士
  • 导师姓名 张铁柱;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    RIA技术; 云计算产品; 页面数据抓取; 网络爬虫;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号