首页> 中文学位 >面向动态网页的定向信息提取模型的设计与实现
【6h】

面向动态网页的定向信息提取模型的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪 论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 要解决的关键技术问题

1.5 论文的组织结构

第2章 理论与技术分析

2.1 Web2.0

2.2 网页页面类型

2.3 Ajax技术

2.4 网页结构分析技术

2.5 本章小结

第3章 面向动态网页的定向信息提取模型的设计

3.1 面向动态网页的定向信息提取问题分析

3.2 面向动态网页的定向信息提取模型设计

3.3 页面爬行策略与流程

3.4 页面分析方法设计

3.5 页面生成方法与流程

3.6 本章小结

第4章 面向动态网页的定向信息提取系统的实现

4.1 系统总体设计

4.2 初始URL模块

4.3 页面爬行模块

4.4 页面分析模块

4.5 页面生成模块

4.6 信息提取模块

4.7 链接过滤模块

4.8 线程管理模块

4.9 系统接口设计

4.10 本章小结

第5章 实验与结果分析

5.1 实验环境设置

5.2 评价指标

5.3 实验结果及分析

5.4 本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

展开▼

摘要

随着Web2.0技术的出现以及快速发展,互联网中出现了越来越多的动态网页。Ajax技术实现了客户端与服务器之间的异步数据传输操作,不仅提高了用户的体验度,而且促进了动态网页的普及和互联网的发展。但是,这也使得依据HTML源码进行信息提取的传统网络爬虫无法提取到动态网页中的动态信息。因此,支持动态网页的信息提取的研究具有一定的实践意义。为此,本文提出了一种面向动态网页的定向信息提取模型。
  首先,分析了与动态网页定向信息提取相关的理论与技术,同时将研究对象Web页面分为静态网页和动态网页两类,并对其进行了详细的对比分析。在此基础上,分析了动态网页广泛采用的Ajax技术对信息提取带来的挑战。最后,对超文本标记语言、DOM模型和正则表达式在信息提取中的作用进行了详细介绍。
  其次,分析了传统网络爬虫爬取动态网页的缺陷和不足,提出了一种面向动态网页的定向信息提取模型。其工作流程为首先通过HTTP请求获取网页,然后采用HtmlUnit来解析与执行动态脚本,并模拟提交页面表单;最后,利用jsoup构建DOM树,从而提取页面信息和URL,并存储到数据库中。
  再次,结合所提出的面向动态网页的定向信息提取模型,给出了各个组成模块的具体实现方法:采用广度优先搜索策略爬取网站中的网页,使用布隆过滤器对URL链接进行去重处理,利用正则表达式和jsoup选择器提取网页信息和URL链接,并采用多线程爬虫技术来提高该模型的性能。
  最后,基于所提出的面向动态网页的信息提取模型,以燕山大学百度贴吧为爬取对象进行实验,并从模型的效率和性能两个方面进行实验设计。通过对爬取结果进行分析可知,所提出的模型在准确率、召回率和 F值等评价指标下均有较好的结果,验证了所提模型的高效率和高性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号