声明
摘要
第一章 绪论
1.1 课题的背景及研究目的
1.2 课题的研究现状
1.2.1 基于模版的网页内容提取算法
1.2.2 基于语义信息的网页内容提取算法
1.2.3 基于视觉的网页内容提取算法
1.3 相关技术简介
1.3.1 网页读取技术
1.3.2 正则表达式技术简介
1.4 本章小结
第二章 正则表达式使用与分析
2.1 RegexBuddy3工具使用说明
2.2 NFA引擎下基于表达式的正则优化及回溯问题的处理
2.3 基于结合DFA引擎与NFA引擎的正则表达式优化
2.4 正则表达式优化结果比较与分析
2.5 本章小结
第三章 实例分析----Scholar Google学术采集
3.1 系统数据库设计
3.1.1 数据库表的逻辑设计
3.1.2 采集结果数据表
3.2 系统功能与编程实现
3.2.1 采集系统的设计
3.2.2 系统主界面与功能模块说明
3.2.3 编程实现
3.3 本章小结
第四章 实例分析----澳客网彩票投注采集
4.1 系统数据库设计
4.2 系统功能模块与编程实现
4.2.1 系统采集流程说明
4.2.2 系统主界面与功能模块说明
4.2.3 编程实现
4.2.4 系统采集数据的数据挖掘
4.3 本章小结
第五章 结论与展望
5.1 本文工作总结
5.2 下一步展望
参考文献
致谢