首页> 中文会议>第二十届全国计算机信息管理学术研讨会 >一种通用HTML网页主题信息提取方法

一种通用HTML网页主题信息提取方法

摘要

Web页面所表达的“主题”信息通常隐藏在大量无关结构和文字中,准确完整地提取网页主题信息是影响Web应用服务质量的关键技术之一。目前的提取方法多依赖于网页模板信息,而Web上的网页模板不计其数,因此这些方法缺乏通用性。且随着模板数量的增加,模板库的维护工作也变得日益复杂。本文基于DOM规范,把HTML网页表示成树结构,然后提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的内容,并删除无关内容,最后输出只含主题信息的HTML文档。方法不依赖于模板信息,是一种通用的主题信息提取方法。实验结果证明了方法的准确性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号