聚焦爬虫
聚焦爬虫的相关文献在2005年到2022年内共计82篇,主要集中在自动化技术、计算机技术、信息与知识传播、农业基础科学
等领域,其中期刊论文64篇、会议论文5篇、专利文献12743篇;相关期刊52种,包括产业与科技论坛、中国管理信息化、军民两用技术与产品等;
相关会议5种,包括第二届信息、电子与计算机工程国际学术会议、2010第六届全国多智能体系统与控制学术年会、2009年全国开放式分布与并行计算学术年会等;聚焦爬虫的相关文献由200位作者贡献,包括崔志明、赵朋朋、余伟等。
聚焦爬虫—发文量
专利文献>
论文:12743篇
占比:99.46%
总计:12812篇
聚焦爬虫
-研究学者
- 崔志明
- 赵朋朋
- 余伟
- 余放
- 傅彦
- 刘丽杰
- 刘云
- 周安林
- 孙明
- 屈鸿
- 张博
- 张斌
- 张旭
- 张马路
- 彭浩
- 戴经国
- 曾广朴
- 李宇轩
- 李小平
- 李旻松
- 李盼池
- 李石君
- 杨济海
- 林春杰
- 林椹尠
- 王旭
- 范会联
- 蔡欣宝
- 袁柱
- 邵领
- 金苗娟
- 陈洪平
- 陈端兵
- 高辉
- 黎文丹
- Du Junping
- Wang Xu
- 乔平安
- 任静
- 何永贤
- 何锋考
- 余建桥
- 倪林
- 倪贤贵
- 冯嘉辉
- 冯国忠
- 刘伟光
- 刘国涛
- 刘娜
- 刘徽
-
-
高巍;
马辉;
李大舟;
王淮中
-
-
摘要:
传统的聚焦爬虫不能很好地处理所爬取的数据,很难从原始数据中提取有价值的信息,同时,大量冗余的数据对计算机的存储能力带来了挑战.本研究提出了一种基于抽取式文本摘要技术的爬虫算法,将改进的TextRank算法应用于网络爬虫中,从而解决用户如何在快速浏览和吸收特定领域新闻所有内容的同时节约计算机内存资源的问题.本研究用Glove模型训练数据集,对文本进行词向量表示,将k-means算法思想融入TextRank算法中,提出一种改进的TextRank模型.实验结果表明:提出的改进的TextRank模型抽取得到的摘要质量优于传统TextRank和TopicModel模型,其综合评价指标达到了52.21%,比TopicModel模型高10.29%,比传统TextRank模型高15.55%;结合了抽取式文本摘要技术的聚焦爬虫与传统聚焦爬虫爬取的文件占用空间比为1:12,解决了爬虫会占用大量计算机资源的问题.
-
-
郭银芳;
韩凯;
郭峰明;
王国升;
李雪萌
-
-
摘要:
随着互联网的飞速发展,大数据成为互联网技术行业的流行词汇。如今,想要获取大量的数据,爬虫无疑是非常便利的工具。文章介绍了爬虫的原理以及网页的分析方法,对Scrapy框架进行了介绍﹐并用Scrapy对网站进行了数据的爬取,最后利用数据可视化工具对数据进行处理,以便更加直观地对数据进行分析。文章以拉勾网为爬虫对象,在爬虫的过程中,总结了爬虫遇到的问题和解决办法。此外,文章利用Scrapy框架对程序进行了优化,提升了爬取效率。
-
-
周璐;
杨保岑;
李伟凡;
张秋实
-
-
摘要:
本文通过研究内河航道综合信息服务中多源助航数据获取的关键技术,从数据源分析、API及web数据聚焦抓取应用等方面,阐明航道助航信息获取对象、获取方式、存储数据库等要素关系,并以长江航道图APP为例提出航标、水位、航道通告、天气、AIS等助航数据的动态集成与应用的解决方案,实现了多源数据的融合叠加与实时动态更新,为船舶航行提供有效决策参考,以更好满足船舶辅助航多元化的需求,提升船舶航行安全保障.同时,为航运各业务环节提供智能化、一体化航道信息服务,实现了航道多源数据融合、互通.
-
-
-
林汨圣;
王扬
-
-
摘要:
在工作和研究中持续更新大量的资料和数据是建筑师的职业基础.传统人工搜索互联网的方式工作量大且挖掘率低,对网站数据源的利用往往不够充分.国内大部分建筑类网站采用HTML文本标记数据,对HTML采用网络聚焦爬虫有助于建筑师高效定位并规范化储存专业数据.通过对建筑类主流网站结构特征进行分析,总结建筑学3种专业爬虫需求.基于Python的语言特征,提出公开数据类和建筑档案类2种爬虫策略.实测结果表明爬虫策略具有数据采集实时性好、易管理维护的优点,同时均运行高效且稳定,可为建筑专业大数据分析提供更多高质量的数据源.
-
-
林春杰;
金苗娟
-
-
摘要:
实现高效获取互联网中特定领域信息的有效途径是使用聚焦爬虫,针对聚焦爬虫在判断主题相关时缺少语义信息的问题,提出了一个基于语义相似度计算的聚焦爬虫框架.该框架抽取网页的主题词、内容和链接信息作为网页特征,计算主题相似度.通过链接的主题相关度计算,过滤URL和判断URL的重要程度.最后给出了对比试验,验证了该方法的有效性.
-
-
林春杰;
金苗娟
-
-
摘要:
实现高效获取互联网中特定领域信息的有效途径是使用聚焦爬虫,针对聚焦爬虫在判断主题相关时缺少语义信息的问题,提出了一个基于语义相似度计算的聚焦爬虫框架.该框架抽取网页的主题词、内容和链接信息作为网页特征,计算主题相似度.通过链接的主题相关度计算,过滤URL和判断URL的重要程度.最后给出了对比试验,验证了该方法的有效性.
-
-
王松;
刘洪基;
叶晓波
-
-
摘要:
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题.从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬取,按照预先设置的关键字和栏目信息进行分类搜索,把最符合条件和要求的信息爬取下来供选择、判断、分析和利用.这种方法可在一定程度上解决搜索引擎查询信息的需求问题,提升用户体验,提高检索效率.
-
-
林椹尠;
袁柱;
李小平
-
-
摘要:
针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法.对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重.引入基于Word2 vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页.与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优.
-
-
-
-
蔡欣宝;
陈洪平;
赵朋朋;
崔志明
- 《2009年全国开放式分布与并行计算学术年会》
| 2009年
-
摘要:
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.
-
-
-