首页> 中文学位 >分布式JS解析系统的设计与构建
【6h】

分布式JS解析系统的设计与构建

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景

1.2 研究现状

1.3 工作内容

1.4 论文组织结构

2 JS解析与分布式计算

2.1 JavaScript解析

2.1.1 JavaScript脚本语言

2.1.2 JavaScript解析引擎

2.2 Hadoop分布式计算

2.2.1 分布式计算

2.2.2 Hadoop框架

2.2.3 Map/Reduce研究

2.2.4 HDFS文件存取

2.3 本章小结

3 JS解析与任务调度算法研究

3.1 系统整体结构

3.2 JavaScript提取和运行环境

3.2.1 JavaScript提取和解析流程

3.2.2 JavaScript提取算法

3.2.3 JavaScript解析对象

3.3 JavaScript解析任务调度

3.3.1 Map/Reduce原有调度算法

3.3.2 容量调度算法

3.3.3 公平调度算法

3.3.4 自适应调度算法

3.3.5 Map/Reduce调度算法总结

3.4 本章小结

4 分布式JS解析系统的构建

4.1 系统工作流程

4.2 网页爬取

4.3 JavaScript提取

4.4 JavaScript解析任务调度

4.4.1 Datanode状态采集

4.4.2 Namenode任务调度

4.5 JavaScript解析任务调度

4.5.1 JavaScript解析环境管理

4.5.2 Map/Reduce实现

4.6 本章小结

5 分布式JS解析系统的测试与分析

5.1 测试环境

5.2 软件环境搭建

5.3 系统测试与分析

5.3.1 系统测试

5.3.2 结果分析

5.4 测试结果总结

5.5 本章小结

6 总结与展望

6.1 论文总结

6.2 展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

随着互联网技术的飞速发展,网页的页面视图效果越来越美观,使用的页面编程技术也不仅仅局限于HTML、CSS等静态语言。以JavaScript为代表的动态脚本由于其功能强大,使界面观赏程度高等优势越来越受到开发者和用户的青睐。但是由于其编写复杂程度比传统的静态网页技术高,所以在搜索引擎、舆论分析等领域进行网页内容抓取和分析的时候,很难对JavaScript中包含的信息进行解析。所以本论文在设计并构建能够高效解析网页中JavaScript的分布式系统时,能够完成对存在于HTML文档中的JavaScript片段进行高效的提取和分布式解析的功能,并且在分布式计算机集群中合理的进行任务调度。
  该论文主要包括两个研究方向:首先是对网页中存在的JavaScript进行有效的提取和解析;然后结合Hadoop分布式计算技术,在深入分析现有任务调度算法、结合本系统实际情况的基础之上,设计本系统在分布式计算环境中的任务调度算法,合理的进行JavaScript解析任务调度,实现对页面中包含的JavaScript片段的高效解析。通过对JavaScript语法规则和其在网页中的存在形式的研究,设计了JavaScript的提取流程和算法,然后借鉴浏览器解析JavaScript的方法,使用JavaScript解析引擎,构造JavaScript解析环境来实现第一模块。通过对现有Map/Reduce任务调度算法的研究、分析和对比,并结合JavaScript解析任务的具体特点和分布式集群的环境,探究最适合本系统的Map/Reduce任务调度算法。对JavaScript解析任务进行合理调度,然后搭建计算机集群,对设计的分布式JavaScript解析系统进行构建。最后对分布式JS解析系统进行测试,对其应用性能和解析准确性进行验证,并且总结系统的不足,提出后续改进意见。
  本文实现的分布式系统能够对网页中存在的大量JavaScript进行高效、快速的解析。实验结果表明,本系统能够对网页中JavaScript片段内包含的文本文字和超链接内容进行高效、准确的提取和解析。从而,本文的研究和实现工作能够为搜索引擎、舆论分析、数据采集等领域提供更高效可靠的技术支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号