面向动态网页的定向信息提取模型的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Web2.0技术的出现以及快速发展，互联网中出现了越来越多的动态网页。Ajax技术实现了客户端与服务器之间的异步数据传输操作，不仅提高了用户的体验度，而且促进了动态网页的普及和互联网的发展。但是，这也使得依据HTML源码进行信息提取的传统网络爬虫无法提取到动态网页中的动态信息。因此，支持动态网页的信息提取的研究具有一定的实践意义。为此，本文提出了一种面向动态网页的定向信息提取模型。
　　首先，分析了与动态网页定向信息提取相关的理论与技术，同时将研究对象Web页面分为静态网页和动态网页两类，并对其进行了详细的对比分析。在此基础上，分析了动态网页广泛采用的Ajax技术对信息提取带来的挑战。最后，对超文本标记语言、DOM模型和正则表达式在信息提取中的作用进行了详细介绍。
　　其次，分析了传统网络爬虫爬取动态网页的缺陷和不足，提出了一种面向动态网页的定向信息提取模型。其工作流程为首先通过HTTP请求获取网页，然后采用HtmlUnit来解析与执行动态脚本，并模拟提交页面表单；最后，利用jsoup构建DOM树，从而提取页面信息和URL，并存储到数据库中。
　　再次，结合所提出的面向动态网页的定向信息提取模型，给出了各个组成模块的具体实现方法：采用广度优先搜索策略爬取网站中的网页，使用布隆过滤器对URL链接进行去重处理，利用正则表达式和jsoup选择器提取网页信息和URL链接，并采用多线程爬虫技术来提高该模型的性能。
　　最后，基于所提出的面向动态网页的信息提取模型，以燕山大学百度贴吧为爬取对象进行实验，并从模型的效率和性能两个方面进行实验设计。通过对爬取结果进行分析可知，所提出的模型在准确率、召回率和 F值等评价指标下均有较好的结果，验证了所提模型的高效率和高性能。

著录项

作者
盛洁;
展开▼
作者单位

燕山大学;

展开▼
授予单位燕山大学;
学科计算机科学与技术
授予学位硕士
导师姓名宫继兵;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
定向信息提取模型; 动态网页; 动态脚本; 网络爬虫; 超文本标记语言; 布隆过滤器;

相似文献

中文文献
外文文献
专利

1. 面向Sentinel-2影像的LBV和K-T变换水体信息提取模型 [J] . 李健锋 ,叶虎平 ,张宗科 . 遥感信息 . 2020,第005期
2. 基于面向对象和随机森林模型的杭州湾滨海湿地植被信息提取 [J] . 穆亚南123 ,丁丽霞123 ,李楠4 . 浙江农林大学学报 . 2018,第006期
3. 基于面向对象和随机森林模型的杭州湾滨海湿地植被信息提取 [J] . 穆亚南 ,丁丽霞 ,李楠 . 浙江农林大学学报 . 2018,第006期
4. 基于决策树模型的面向对象方法的遥感湿地信息提取 [J] . 孙宇翼 ,谭政 ,石丹丹 . 甘肃科技 . 2016,第001期
5. 面向飞机数字化装配的MBD模型装配信息提取技术 [J] . 潘青 . 航空制造技术 . 2015,第003期
6. 面向指针式仪表的数字信息提取算法设计与实现 [C] . 刘怡文 ,赵海 ,朱剑 . 第八届沈阳科学学术年会 . 2011
7. 面向灾害信息提取的SAR图像并行算法设计与实现 [A] . 吴龙辉 . 2014

面向动态网页的定向信息提取模型的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅