摘要:搜索引擎的网页搜集子系统通常都以WWW的网页构成的有向图结构为依据,从一个网页到达它所链接的其他网页,如此递归下去,不断扩大搜集的信息覆盖面.本文以这种覆盖能力为研究对象,建立量化模型从多个角度考察网页搜集系统对WWW信息资源的覆盖程度.文章首先分析了搜集系统搜集网页不完全性的若干因素,指出信息覆盖率这一概念的研究意义,由此提出了三类比较重要的信息覆盖率概念,它们分别是数量覆盖率、质量覆盖率和可视WWW信息的覆盖率.本文的主要研究工作围绕其中前两类展开,在建立"采取—权值计算—验证"的覆盖率评测模型之后,以北京大学"燕穹"网页信息博物馆为考察对象并获得其搜集的网页数据,以不同的方式对中国Web进行取样.采用PageRank和HITS这两类典型的权值算法计算出其中的重要网页作为样本,从量和质的角度上考察"燕穹"网页信息博物馆的信息覆盖率,得到合理的数量和质量覆盖率实验数据,从而验证了"燕穹"系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性.