基于CSS选择器技术的信息提取系统设计与实现

张晓然; 张峰

首页> 中文期刊> 《电脑编程技巧与维护》 >基于CSS选择器技术的信息提取系统设计与实现

基于CSS选择器技术的信息提取系统设计与实现

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展,社交媒体的壮大,个人用户和自媒体登上历史舞台,对于网络信息的整理和分析正在成为运营个人账户和自媒体的一种必要技能.现存网页爬虫技术非常成熟,但是对于自媒体和小团队来说功能冗余、复杂度相对较高,并且由于网页爬虫的设计是基于全量网页分析设计的,而自媒体和小团队往往只对有限的网址目标感兴趣,如果采用网页爬虫技术会得到很多无用信息,还需要投入精力清洗数据费时费力.设计实现一种基于CSS选择器技术的目标信息抽取系统,可以通过配置文章特征,利用DOM数据自动提取目标文章,实现更精准的信息收集.另外,由于采用模拟DOM响应的方式获取信息,同步解决了URL动态生成,网页爬虫无法抓取文章URL的问题.

著录项

来源
《电脑编程技巧与维护》 |2019年第8期|101-103|共3页
作者
张晓然; 张峰;
展开▼
作者单位

国家计算机网络应急技术处理协调中心河北分中心;

石家庄050021;

国家计算机网络应急技术处理协调中心河北分中心;

石家庄050021;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
网页爬虫; 目标抽取; DOM响应;

相似文献

中文文献
外文文献
专利

1. 基于CSS选择器的HTML信息抽取研究 [J] . 刘全志 ,于治楼 . 信息技术与信息化 . 2015,第003期
2. 基于CSS选择器的深网结果页抽取方法 [J] . 陶磊 ,莫倩 . 北京工商大学学报（自然科学版） . 2009,第002期
3. 第三次国土调查信息提取业务管理系统设计与实现 [J] . 吴海平 ,刘朋飞 ,苏卫平 . 测绘技术装备 . 2019,第003期
4. 高光谱遥感地质灾害信息提取系统设计与实现 [J] . 叶成名 ,李尧 ,崔鹏 . 中国地质灾害与防治学报 . 2018,第005期
5. 基于脉冲反相技术的医用高频超声组织谐波信息提取技术的研究 [J] . 李跃杰 ,汤四媛 ,王立伟 . 中国医疗器械杂志 . 2008,第006期
6. 基于高光谱遥感技术的岩石矿物蚀变信息提取技术研究 [C] . 汪玮 ,周可法 ,周曙光 . 第十届全国数学地质与地学信息学术研讨会 . 2011
7. 基于CSS选择器的Web信息抽取的研究与实现 [A] . 冯亚维 . 2015

基于CSS选择器技术的信息提取系统设计与实现

摘要

著录项

相似文献

相关主题

期刊订阅