摘要:随着时间的流逝,中国互联网上出现过的信息资源会成为一笔宝贵的财富,会为各领域和各行业提供持续价值.为了使历史网页不会随时间的流逝而改变,并且每日不断记录网站的变化,不更改以前的保存结果,需要一个适合于Web规模的存档系统.在本文中,提出Web Infomall系统,它是专为搜集、组织与服务大量的网页而设计的,该系统从2001年以来收录了约85亿网页,每天还以约100万到200万网页的数量增加.在保存下来的网页集合中,可以通过时间和空间URL两个维度来定位一个网页.因此对于一个URL,可能有一组在不同时间抓取的网页与其对应.在系统中,排好序的网页是依照一定的时空粒度放在一起的.这样的好处是,指定URL和时间,用户能够有效地检索到相应网页;或者根据URL范围和时间范围,获得某些批次的网页.