首页> 中文学位 >分布式JS解析在web信息采集系统中的研究与应用
【6h】

分布式JS解析在web信息采集系统中的研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究的背景和意义

1.2 国内外的研究现状

1.3 本文的主要研究内容

1.4 本文的组织结构

第二章 相关技术的研究

2.1 JavaScript脚本提取解析技术

2.2 Hadoop分布式计算

2.3 本章小结

第三章 动态页面脚本的提取解析与任务调度研究

3.1 Web信息采集系统整体结构

3.2 脚本的提取与解析

3.3 调度算法研究

3.4 脚本提取解析调度算法设计

3.5 本章小结

第四章 脚本提取解析系统的实现

4.1 系统整体结构

4.2 数据文件格式

4.3 系统MapReduce实现

4.4 本章小结

第五章 测试与结果分析

5.1 测试环境

5.2 系统测试与结果分析

5.3 本章小结

第六章 结论

6.1 总结

6.2 展望

参考文献

致谢

展开▼

摘要

随着互联网技术的飞速发展,网络在人们生活当中的应用范围越来越广泛。一方面,由互联网产生的海量数据中包含了许多有利用价值的信息,这就对web信息的采集提出了需求;另一方面,越来越多的新技术被运用于互联网领域,其中动态网页技术,尤其是动态脚本技术的运用,很大程度地提升了网页的功能性、美观性以及用户使用时的体验,但由于原有的网页信息采集系统不能够对脚本进行解析,所以无法实现对动态网页信息的采集。针对此问题,本文设计实现了一个基于分布式计算的网页脚本提取解析系统,并将其与原有信息采集系统相结合,从而实现了信息采集系统对动态网页信息准确、高效的采集。
  首先,通过对JavaScript脚本语言和常用解析引擎的研究分析,设计了脚本提取解析的流程,主要包括脚本程序的提取和解析环境的构建。
  其次,将JavaScript脚本提取解析与Hadoop分布式计算相结合,通过对现有Hadoop调度算法的研究分析,结合脚本提取解析系统实际运行所处的异构集群环境,设计了异构集群环境下基于和声搜索的调度算法。
  再次,为了将脚本提取解析系统与原有信息采集系统相结合,以原有的Nutch系统的文件存储结构为基础,设计了系统整体文件结构和数据存储格式。
  最后,完成了系统的MapReduce编程实现,并在实际的Hadoop平台上进行了测试。通过对测试结果的分析,验证了整合脚本提取解析系统之后的信息采集系统能够对动态网页进行信息采集,并且采用基于和声搜索的调度算法在异构集群环境中提高了脚本提取解析任务的执行效率。可见本文提出的方案实现了信息采集系统对动态网页信息准确、高效的采集,为信息采集相关领域提供了一种技术改进思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号