正则表达式在网页数据采集的应用与研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的快速发展与普及，人们越来越习惯于通过各种终端(PC、平板、手机等)从互联网来获取信息。基于Web的信息抽取技术就是研究从这些Web网页中如何定制提取出用户需要的信息，并把这些提取出的信息结构化处理。本文的主要工作是采用基于正则表达式的相关技术，以学术谷歌网站的论文采集以及澳客彩票网站的足彩投注数据采集分析两个应用为实例，给出Web网页信息的自动提取问题解决方法。在实现基于NFA引擎正则表达式网页提取基本功能的基础上，本文还对正则表达式的优化进行了分析和比较。本文在网页正则提取的过程中进行了两轮的优化和分析，分别为基于NFA引擎的表达式优化以及在Windows平台下结合NFA引擎与DFA引擎使用的优化分析和比较，其结果以图表的形式加以展示。本文实现两个网页实例采集的解决方案是:首先使用RegexBuddy3工具对目标网页源文件调试正则表达式，然后在.Net平台下，利用测试通过的正则表达式编程实现网页文件正则匹配提取字段、数据记录写入Oracle数据库等操作，并对数据做图表展示分析等。本文的方法能够对学术谷歌论文基本信息的批量提取以及论文的多线程批量下载以及澳客彩票网站足彩信息的批量提取与分析。本文采用的方法支持HTML标签的过滤以及HTML页面内各种数据的采集，对网页采集的记录、字段提取准确性高。

著录项

作者
左智斌;
展开▼
作者单位

内蒙古大学;

展开▼
授予单位内蒙古大学;
学科计算机科学与技术
授予学位硕士
导师姓名斯勤夫;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
正则表达式; 网页信息采集; 学术谷歌; 信息抽取;

相似文献

中文文献
外文文献
专利

1. 正则表达式和编码在网络犯罪案件取证中的应用 [J] . 张敬华 . 警察技术 . 2020,第006期
2. 正则表达式在网页表单验证中的应用 [J] . 孙立友 ,梁宏英 . 数字技术与应用 . 2017,第001期
3. 正则表达式在网页课表抓取中的应用 [J] . 申圣兵 . 科技风 . 2017,第012期
4. 正则表达式在网页表单验证中的应用 [J] . 孙立友1 ,梁宏英2 . 数字技术与应用 . 2017,第001期
5. 正则表达式的研究和在网页抓取中的应用 [J] . 陈忠菊 . 电脑编程技巧与维护 . 2014,第023期
6. 正则表达式在网络搜索中的应用 [C] . DAI Sha ,代莎 ,WANG Yu . 第19届全国计算机新科技与计算机教育学术大会 . 2008
7. 后现代主义在网络综艺节目视觉设计中的应用与研究 [A] . 潘静 . 2021

正则表达式在网页数据采集的应用与研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅