首页> 中文期刊> 《科技创新与应用》 >建筑类网站聚焦爬虫策略研究

建筑类网站聚焦爬虫策略研究

         

摘要

在工作和研究中持续更新大量的资料和数据是建筑师的职业基础.传统人工搜索互联网的方式工作量大且挖掘率低,对网站数据源的利用往往不够充分.国内大部分建筑类网站采用HTML文本标记数据,对HTML采用网络聚焦爬虫有助于建筑师高效定位并规范化储存专业数据.通过对建筑类主流网站结构特征进行分析,总结建筑学3种专业爬虫需求.基于Python的语言特征,提出公开数据类和建筑档案类2种爬虫策略.实测结果表明爬虫策略具有数据采集实时性好、易管理维护的优点,同时均运行高效且稳定,可为建筑专业大数据分析提供更多高质量的数据源.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号