【24h】

An Approach of Web Page Information Extraction

机译:网页信息提取的方法

获取原文

摘要

The Web has become the largest information source, but the noise content is an inevitable part in any web pages. The noise content reduces the nicety of search engine and increases the load of server. Information extraction technology has been developed. Information extraction technology is mostly based on page segmentation. Through analyzed the existing method of page segmentation, an approach of web page information extraction is provided. The block node is identified by analyzing attributes of HTML tags. This algorithm is easy to implementation. Experiments prove its good performance.
机译:Web已成为最大的信息源,但噪声内容是任何网页中的不可避免的部分。噪声内容减少了节约的搜索引擎并增加了服务器的负载。信息提取技术已经开发出来。信息提取技术主要基于页面分段。通过分析了页面分段的现有方法,提供了一种网页信息提取的方法。通过分析HTML标记的属性来识别块节点。该算法易于实现。实验证明了它的良好表现。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号