首页> 中文会议>第二十四届全国计算机信息管理学术研讨会 >基于文本模型的通用Web信息采集系统设计与实现

基于文本模型的通用Web信息采集系统设计与实现

摘要

随着Web上信息爆炸性增长,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。本文主要分析和介绍一种通过建立网页资源库、结合Spider技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化、通用性较强的Web信息采集系统的设计实现思路,该系统能自动跟踪相关网站或网页,对其文本模型信息进行比较分析、抽取和规整入库等。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号