分布式JS解析在web信息采集系统中的研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的飞速发展，网络在人们生活当中的应用范围越来越广泛。一方面，由互联网产生的海量数据中包含了许多有利用价值的信息，这就对web信息的采集提出了需求；另一方面，越来越多的新技术被运用于互联网领域，其中动态网页技术，尤其是动态脚本技术的运用，很大程度地提升了网页的功能性、美观性以及用户使用时的体验，但由于原有的网页信息采集系统不能够对脚本进行解析，所以无法实现对动态网页信息的采集。针对此问题，本文设计实现了一个基于分布式计算的网页脚本提取解析系统，并将其与原有信息采集系统相结合，从而实现了信息采集系统对动态网页信息准确、高效的采集。
　　首先，通过对JavaScript脚本语言和常用解析引擎的研究分析，设计了脚本提取解析的流程，主要包括脚本程序的提取和解析环境的构建。
　　其次，将JavaScript脚本提取解析与Hadoop分布式计算相结合，通过对现有Hadoop调度算法的研究分析，结合脚本提取解析系统实际运行所处的异构集群环境，设计了异构集群环境下基于和声搜索的调度算法。
　　再次，为了将脚本提取解析系统与原有信息采集系统相结合，以原有的Nutch系统的文件存储结构为基础，设计了系统整体文件结构和数据存储格式。
　　最后，完成了系统的MapReduce编程实现，并在实际的Hadoop平台上进行了测试。通过对测试结果的分析，验证了整合脚本提取解析系统之后的信息采集系统能够对动态网页进行信息采集，并且采用基于和声搜索的调度算法在异构集群环境中提高了脚本提取解析任务的执行效率。可见本文提出的方案实现了信息采集系统对动态网页信息准确、高效的采集，为信息采集相关领域提供了一种技术改进思路。

著录项

作者
郑学通;
展开▼
作者单位

河北工业大学;

展开▼
授予单位河北工业大学;
学科控制科学与工程
授予学位硕士
导师姓名顾军华;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
信息采集; 动态脚本解析; 调度算法; 和声搜索; 分布式计算;

相似文献

中文文献
外文文献
专利

1. 分布式JS解析在Web信息采集系统中的应用 [J] . 梁元 . 电子技术与软件工程 . 2020,第010期
2. 开放分布式资源系统中Web Services的研究与应用 [J] . 张杨 ,乐红兵 . 微计算机信息 . 2009,第027期
3. 作战仿真中基于Web分布式文件系统的研究与应用 [J] . 柳寒冰 ,宿红毅 ,张晗 . 系统工程与电子技术 . 2009,第003期
4. 分布式Web信息采集系统的设计与实现 [J] . 金岳富 ,范剑英 ,冯扬 . 哈尔滨理工大学学报 . 2010,第001期
5. 分布式Web信息采集系统的研究与设计 [J] . 李盛韬 ,成绫 ,余智华 . 计算机工程与应用 . 2003,第016期
6. 天罗Web信息采集系统中的性能优化 [C] . 吴丽辉 ,张凯 ,张刚 . 第二届全国信息检索与内容安全学术会议 . 2005
7. 分布式JS解析系统的设计与构建 [A] . 黄维 . 2014

分布式JS解析在web信息采集系统中的研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅