首页> 中文学位 >正则表达式在网页数据采集的应用与研究
【6h】

正则表达式在网页数据采集的应用与研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题的背景及研究目的

1.2 课题的研究现状

1.2.1 基于模版的网页内容提取算法

1.2.2 基于语义信息的网页内容提取算法

1.2.3 基于视觉的网页内容提取算法

1.3 相关技术简介

1.3.1 网页读取技术

1.3.2 正则表达式技术简介

1.4 本章小结

第二章 正则表达式使用与分析

2.1 RegexBuddy3工具使用说明

2.2 NFA引擎下基于表达式的正则优化及回溯问题的处理

2.3 基于结合DFA引擎与NFA引擎的正则表达式优化

2.4 正则表达式优化结果比较与分析

2.5 本章小结

第三章 实例分析----Scholar Google学术采集

3.1 系统数据库设计

3.1.1 数据库表的逻辑设计

3.1.2 采集结果数据表

3.2 系统功能与编程实现

3.2.1 采集系统的设计

3.2.2 系统主界面与功能模块说明

3.2.3 编程实现

3.3 本章小结

第四章 实例分析----澳客网彩票投注采集

4.1 系统数据库设计

4.2 系统功能模块与编程实现

4.2.1 系统采集流程说明

4.2.2 系统主界面与功能模块说明

4.2.3 编程实现

4.2.4 系统采集数据的数据挖掘

4.3 本章小结

第五章 结论与展望

5.1 本文工作总结

5.2 下一步展望

参考文献

致谢

展开▼

摘要

随着Internet的快速发展与普及,人们越来越习惯于通过各种终端(PC、平板、手机等)从互联网来获取信息。基于Web的信息抽取技术就是研究从这些Web网页中如何定制提取出用户需要的信息,并把这些提取出的信息结构化处理。本文的主要工作是采用基于正则表达式的相关技术,以学术谷歌网站的论文采集以及澳客彩票网站的足彩投注数据采集分析两个应用为实例,给出Web网页信息的自动提取问题解决方法。在实现基于NFA引擎正则表达式网页提取基本功能的基础上,本文还对正则表达式的优化进行了分析和比较。本文在网页正则提取的过程中进行了两轮的优化和分析,分别为基于NFA引擎的表达式优化以及在Windows平台下结合NFA引擎与DFA引擎使用的优化分析和比较,其结果以图表的形式加以展示。本文实现两个网页实例采集的解决方案是:首先使用RegexBuddy3工具对目标网页源文件调试正则表达式,然后在.Net平台下,利用测试通过的正则表达式编程实现网页文件正则匹配提取字段、数据记录写入Oracle数据库等操作,并对数据做图表展示分析等。本文的方法能够对学术谷歌论文基本信息的批量提取以及论文的多线程批量下载以及澳客彩票网站足彩信息的批量提取与分析。本文采用的方法支持HTML标签的过滤以及HTML页面内各种数据的采集,对网页采集的记录、字段提取准确性高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号