网络爬虫
网络爬虫的相关文献在2002年到2022年内共计1696篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播
等领域,其中期刊论文1253篇、会议论文42篇、专利文献325855篇;相关期刊519种,包括科技资讯、电脑编程技巧与维护、电脑知识与技术等;
相关会议37种,包括第十二届中国智能交通年会、2016年全国工业控制计算机技术年会 、第10届全国计算机支持的协同工作学术会议暨中国计算机学会协同计算专委年度工作会议等;网络爬虫的相关文献由3448位作者贡献,包括范渊、周东、毛红霞等。
网络爬虫—发文量
专利文献>
论文:325855篇
占比:99.60%
总计:327150篇
网络爬虫
-研究学者
- 范渊
- 周东
- 毛红霞
- 王冬
- 张军
- 王锦群
- 郑禄
- 雷建云
- 马尧
- 于俊凤
- 刘强
- 崔志伸
- 朱世伟
- 李晨
- 肖军
- 刘佳
- 刘庆
- 刘旋
- 刘翠琴
- 匡芳君
- 姚王平
- 孙媛
- 孙杰
- 席文强
- 廖耀华
- 张丹
- 张学颖
- 张志成
- 张春菊
- 张盼
- 张美德
- 张铭君
- 张雪英
- 徐蓓蓓
- 曾剑平
- 朱卫平
- 朱少楠
- 朱文鹏
- 朱龙腾
- 李宪毅
- 李思思
- 杨爱芹
- 杨绪升
- 杨鹏
- 毛腾跃
- 汤恩义
- 王林
- 王纯斌
- 罗邦慧
- 苏畅
-
-
蓝骁
-
-
摘要:
文章使用网络爬虫工具,从电商网站上抓取了5种生鲜食品的顾客评价信息4 480条,通过EXCEL工具结合手工梳理分析,厘清了影响生鲜宅配顾客感知服务质量的三大因素,即货物的完好程度、物流包装及物流时效。通过数据分析得出结论:针对不同类型的生鲜食品,顾客关注的配送质量侧重点差异比较明显;另外,三大因素之间是相互影响的,货物的完好程度与运输时效以及运输包装形式直接相关,包装的完好程度、包装方式以及安全环保性在很大程度上影响了货物的完好程度,物流时效在一定程度上影响了货物的完好程度,货物的完好程度也影响了顾客对时效的评价。
-
-
杨璐嘉;
刘钊颖
-
-
摘要:
很多人都有类似这样的经历,这种"聊啥来啥"的现象让人们在接受"贴心"服务的同时也越发感到疑惑:"难道App在‘偷听’我们聊天?"刚和朋友聊天提起某款商品,打开购物App后,首页随即出现同类产品的推送广告;家人商量打算去某地旅游后,某旅游App马上"奉上"该地最佳旅游攻略……如今,很多人都有类似这样的经历,这种"聊啥来啥"的现象让人们在接受"贴心"服务的同时也越发感到疑惑:"难道App在‘偷听’我们聊天?"近几年,在侵犯公民个人信息犯罪案件的办理中,网络爬虫技术逐步走进大众视野。
-
-
崔智博;
杨金灵;
李欣仪;
宋青桦;
闻柏智
-
-
摘要:
网络信息复杂繁多与日俱增,人们越来越重视对数据的研究,为了有针对性地检测提取数据,一种全新的搜索引擎技术应运而生,最大限度上解决了网络信息冗杂难辨的问题,使信息更加简洁、有针对性。与早期的搜索引擎原理类似,该文采取春雨医生及患者作为实验样本,通过医患聊天对话框比率、医生职称的加权、综合数据整理分析得出医生的综合素质水平评分,为患者就医提供有价值的信息,对症就医,为患者精准对接医生提供了可靠的信息支持。
-
-
奚增辉;
王卫斌;
陆嘉铭;
瞿海妮
-
-
摘要:
传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进。首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及关键字,利用相似度模型计算关键字向量与电力网页的相似度,并添加到网络爬虫队列中;最后,采用最佳优先搜索策略,将最高相似度网页设定为第一优先级,下载并存储网络舆情相关数据,完成数据爬取,实现数据采集。实验结果表明,本中方法平均召回率高达92%,网页相似性计算准确率高于90%,且数据采集耗时均值为36 min,均优于对比方法。
-
-
张小秋
-
-
摘要:
基于Scrapy框架设计网络爬虫程序,爬取某市二手房数据,并将分析结果通过统计图呈现出来。通过分析网站数据结构及Scrapy框架网络爬虫设计思路,详细展示了基于Scrapy框架进行数据爬取、数据分析的实现方法,并对网络爬虫存在的安全问题、法律问题进行了说明。
-
-
潘天岳
-
-
摘要:
元宇宙是连接虚拟与现实的超级数字媒介,将引领未来世界的互联网变革,也将对个体用户的网络生活产生深刻影响。利用网络爬虫技术对Bilibili视频弹幕网站上的274个元宇宙相关视频页面进行爬取并得到3070条评论,通过对所得评论进行文本词频分析、构建词云图、共词分析、社会网络和语义网络分析以及情感分析,发现Z世代用户对元宇宙这一概念拥有基本认知;元宇宙在游戏领域的应用备受Z世代用户关注;大量用户认为元宇宙是资本套利的工具,将对个人与社会产生消极影响;部分用户对元宇宙相关技术的实现持怀疑态度。以上结论揭示了Z世代用户对元宇宙这一新技术的感受和评价,对元宇宙的引入、推广与创新具有参考价值。
-
-
童云峰
-
-
摘要:
网络爬虫技术具有中立性,网络爬虫行为有善恶之分。恶意网络爬虫行为侵犯数据法益,符合相关犯罪构成要件,确实存在一定的刑事风险。然而,我国刑法理论对爬虫行为入罪讨论过剩、出罪研究不足;司法实践对网络爬虫行为的法律适用从民事侵权、不正当竞争上升为刑事犯罪,且刑事判决日趋递增,使得网络爬虫行为刑事风险不断扩张,导致网络爬虫技术被污名化,甚至有被扼杀之危险,这一趋势在行为认定方面不断突破罪刑法定原则底线。必须明确网络爬虫行为合法性边界,抓取开放数据和单纯违反行业规则的爬虫行为无需适用刑法,突破反爬防护措施和抓取非开放数据并非都要承担刑事责任,从形式违法和实质侵害两个维度,具体划定网络爬虫行为刑法规制的限度。
-
-
宋慧琪;
陈鹏伟;
张孙博文;
何环珠;
陈佑成
-
-
摘要:
目的:满足茶叶消费者和生产商对包装设计的系统性需求。方法:基于网络评论研究法,利用后羿采集器抓取京东平台茶叶包装网购评价数据,通过清洗获得5 560条评论共280 876字,对评论文本进行文本预处理、构建语义分析,包括提取中文分词、提取关键词汇、构建核心语义等步骤,并在此基础上利用扎根理论对有效评论进行文本编码、开放性编码、主轴编码、选择性编码,以此构建茶叶包装优化设计理论模型,并进行理论饱和度检验。结果:包装特点、容量大小、包装材质、做工品质是茶叶包装设计过程中的重要要素。结论:该理论模型的核心范畴要素能够适用于白茶及乌龙茶类的包装设计,有效满足消费者及生产商的系统性需求,且具有良好的应用价值。
-
-
李敏
-
-
摘要:
盈余质量可以衡量一个企业在未来期间可持续发展的能力,文章以高科技新能源材料行业的领军企业容百科技为例,通过网络爬虫技术爬取与该企业业务相同或相似的26家上市企业2017—2020年的财务数据,从盈利能力、获现能力与成长能力等方面,利用多目标系统模糊优选理论,根据相对优属度与行业排名综合评价该企业的盈余质量,并提出优化盈余质量的建议,同时为评价该行业其他公司盈余质量的优劣提供参考。
-
-
赵怡
-
-
摘要:
大数据时代,数据分析和挖掘的技术不断革新,网络爬虫成为互联网企业中最普遍的一种数据获取手段。但由于缺乏具体的法律规定,仅通过彼此之间的Robots协议进行自我约束,企业之间的爬虫行为标准混乱,国内外相关司法判决结果也存在重大差异。因此,应当建立网络爬虫Robots协议默示许可制度,确定数据归属个人和平台共有,从而实现数据保护与利益共享之间的平衡非常必要。
-
-
张元
- 《第16届教育技术国际论坛暨首届智慧教育国际研讨会》
| 2017年
-
摘要:
在教育大数据背景下,传统的搜索引擎已经不能满足教师获取线上教育数据的需求,网络爬虫作为搜索引擎组成部分,在数据获取方面的作用尤为重要.文章从如何获取K12教育教学资源出发,研究Python网络爬虫技术,设计了一个爬虫程序,并应用于案例分析.该程序不仅仅可以运用在K12平台上,还可以运用在同类型的网站,比如中国地理网、研究生招生信息网、信息技术教育与科研网等。比如地理老师需要大量的有关地形图片,中国地理网数据是对外开放,可以通过本程序在其平台上通过关键词“地形”,批量下载图片。
-
-
-
岳杰;
吕志坚
- 《北京科学技术情报学会2016年学术年会》
| 2016年
-
摘要:
采用网络爬虫开源工具进行网络数据爬取是实现快速爬取的重要方法,为高效爬取数据提供了重要途径.本文对当前的网络爬虫开源工具进行研究,按照其编程语言、适应操作系统及优缺点进行分类总结,以期为网络爬虫工具的使用及后续开发提供借鉴.
-
-
宋书克;
尤相增;
薛恩泽;
张冉
- 《中国大坝工程学会2018学术年会》
| 2018年
-
摘要:
小浪底工程大坝安全监测系统涵盖外部变形、内观、巡视检查、泥沙淤积测验、地震监测、环境监测信息等,由于实施阶段性、技术性以及其他经济因素等影响,监测数据源从简单的文件数据到复杂网络数据库分布分散存在,呈现典型的多源异构特点.为满足安全监测分析需要,小浪底工程基于网络服务和网络爬虫程序实现多源异构监测数据自动汇集和数据融合,并基于微信平台实现消息自动应答并捕捉记录半结构化监测信息,对多源异构监测信息融合进行了有益探索,取得了较好的应用效果.
-
-
Pan Meiyu;
潘美瑜;
Zhang Meng;
张萌;
Xing Zeyu;
邢泽钰
- 《第十二届中国智能交通年会》
| 2017年
-
摘要:
网络舆情是对交通数据来源的一个有力补充,它常常包含着事件的内容、致因分析以及发布者的个人情感倾向等更丰富的内容.如今移动互联网群体的数量日趋庞大,自媒体顺势而生,成为了新媒体的中坚力量.本文以微博社交平台为主要数据来源,利用网络爬虫技术实时获取与城市交通系统相关的一系列文本数据;通过对中文语义库的二次开发实现对城市交通问题的事件特征提取与致因挖掘,同时研究文本背后的情感特征,最终开发出一套完整的以微博文本为研究对象的交通网络舆情数据收集——数据分析——特征提取——情感分析的方法论.
-
-
-
吴丽彬;
齐威;
项勇
- 《第22届国际广播电视技术讨论会》
| 2017年
-
摘要:
本文简要介绍了一种互联网视听节目舆情监控系统,描述了互联网视听节目舆情监控数据采集相关技术,包括跨平台分布式Web爬虫技术、分布式Web爬虫集群部署方案、Web信息提取技术以及互联网视听节目舆情监控数据挖掘与舆情分析技术.目前,该系统已作为舆情监管子系统,应用于互联网视听节目搜索与分布式研判监管工作中,为监管工作提供技术支撑.
-
-
吴丽彬;
齐威;
项勇
- 《第22届国际广播电视技术讨论会》
| 2017年
-
摘要:
本文简要介绍了一种互联网视听节目舆情监控系统,描述了互联网视听节目舆情监控数据采集相关技术,包括跨平台分布式Web爬虫技术、分布式Web爬虫集群部署方案、Web信息提取技术以及互联网视听节目舆情监控数据挖掘与舆情分析技术.目前,该系统已作为舆情监管子系统,应用于互联网视听节目搜索与分布式研判监管工作中,为监管工作提供技术支撑.
-
-
吴丽彬;
齐威;
项勇
- 《第22届国际广播电视技术讨论会》
| 2017年
-
摘要:
本文简要介绍了一种互联网视听节目舆情监控系统,描述了互联网视听节目舆情监控数据采集相关技术,包括跨平台分布式Web爬虫技术、分布式Web爬虫集群部署方案、Web信息提取技术以及互联网视听节目舆情监控数据挖掘与舆情分析技术.目前,该系统已作为舆情监管子系统,应用于互联网视听节目搜索与分布式研判监管工作中,为监管工作提供技术支撑.
-
-
吴丽彬;
齐威;
项勇
- 《第22届国际广播电视技术讨论会》
| 2017年
-
摘要:
本文简要介绍了一种互联网视听节目舆情监控系统,描述了互联网视听节目舆情监控数据采集相关技术,包括跨平台分布式Web爬虫技术、分布式Web爬虫集群部署方案、Web信息提取技术以及互联网视听节目舆情监控数据挖掘与舆情分析技术.目前,该系统已作为舆情监管子系统,应用于互联网视听节目搜索与分布式研判监管工作中,为监管工作提供技术支撑.