首页> 中文期刊> 《计算机工程与科学》 >基于历史网页的事件报导信息系统设计与分析

基于历史网页的事件报导信息系统设计与分析

             

摘要

Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆.迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加.这些网页不仅来源于不同的URL,而且还包含同一个URL的不同内容版本,其中许多内容目前在中国互联网上已经不复存在.如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题.本文描述一个实验性系统(HisTrace)框架.该系统旨在支持人们从Webinfomall中尽量准确、完整地提取与重要历史事件相关的网络新闻报道,并按照报道发生的时间顺序将它们不重复地展示出来.由于Webinfomall的海量性,也由于网络信息的复杂性和随意性,这其中有不少挑战.本文对其中的主要环节进行了分析.最后,我们简要介绍了系统的初步实现情况.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号