首页> 外文OA文献 >Designing and Implementation of Information Collection and Classification System Based on Web Crawler
【2h】

Designing and Implementation of Information Collection and Classification System Based on Web Crawler

机译:基于Web Crawler的信息收集与分类系统的设计与实现

摘要

在互联网走进世界每一个角落的今天,互联网信息在不断地膨胀,每日互联网将产生大量的数据,其中涵盖了每天发生发展的各种各样的事件,可谓覆盖人们生产生活的方方面面,这其中包含了大量富有价值的数据,同时又有绝大部分我们不关心的数据,如何从如此海量的信息中抽取有价值的数据,是我们急需思考的问题。 系统使用蜘蛛爬虫技术,结合实际需求开发互联网采集系统,使用定向采集思想,快速定位采集符合业务需求的互联网数据,然后将采集结果数据通过文本聚类,归类出符合特性条件的数据集合,以方便后续其他业务的数据支持。本系统采用java语言面向对象的思想,lucene搜索引擎技术做底层数据检索支持,开源的中文分词器IK,应用...
机译:在互联网走进世界每一个角落的今天,互联网信息在不断地膨胀,每日互联网将产生大量的数据,其中涵盖了每天发生发展的各种各样的事件,可谓覆盖人们生产生活的方方面面,这其中包含了大量富有价值的数据,同时又有绝大部分我们不关心的数据,如何从如此海量的信息中抽取有价值的数据,是我们急需思考的问题。 系统使用蜘蛛爬虫技术,结合实际需求开发互联网采集系统,使用定向采集思想,快速定位采集符合业务需求的互联网数据,然后将采集结果数据通过文本聚类,归类出符合特性条件的数据集合,以方便后续其他业务的数据支持。本系统采用java语言面向对象的思想,lucene搜索引擎技术做底层数据检索支持,开源的中文分词器IK,应用...

著录项

  • 作者

    周茜;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种 zh_CN
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号