摘要:随着Internet的迅猛发展,Web网页上的信息呈现爆炸式的增长,而网页噪音是任何网页都不可避免的部分,它也是影响阅读网页和进行Web信息处理的一个重要因素.本文提出了一种基于网页框架和规则的网页去噪方法,该方法根据网页中HTML标签〈table〉将网页分成若干部分,并对各个table的长宽比属性进行比较,去掉长宽比很大的部分,然后对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签〈p〉或〈br〉等来区分主题内容和噪音内容,并在此基础上,去除噪音内容.对来自CWT200G(Chinese Web Test collection with 200 GB web pages)中的125个站点的132559个网页进行测试后的结果表明,该方法可以有效的去除网页噪音,将该方法应用于检索,索引文件可以减少约75%,这大大地提高了检索速度.同时,准确度也得到一定提高.