首页> 中文期刊> 《西安工程大学学报》 >应用主题爬虫的电力网络舆情数据采集

应用主题爬虫的电力网络舆情数据采集

     

摘要

传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进。首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及关键字,利用相似度模型计算关键字向量与电力网页的相似度,并添加到网络爬虫队列中;最后,采用最佳优先搜索策略,将最高相似度网页设定为第一优先级,下载并存储网络舆情相关数据,完成数据爬取,实现数据采集。实验结果表明,本中方法平均召回率高达92%,网页相似性计算准确率高于90%,且数据采集耗时均值为36 min,均优于对比方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号