首页> 外文期刊>Journal of software >An Effective Method to Extract Web Content Information
【24h】

An Effective Method to Extract Web Content Information

机译:一种提取Web内容信息的有效方法

获取原文
       

摘要

To simplify the operation of web text content extraction and improve the accuracy of that, a newextraction method based on text-punctuation distribution and tag features (TPDT) is proposed. Combining the distribution of text-punctuation and tag features. Calculating the text-punctuation density in different text blocks and get the maximum continuoussum of density to extracting the best text content from web pages.The method effectively solves the problem of noisy information filtering and text content extraction without the training and manual processing. Experimental results on web pages randomly selected from different portalwebsites show that the TPDT method has good applicability on various news pages.
机译:为了简化网络文本内容提取的操作并提高其准确性,提出了一种基于文本标点分布和标签特征(TPDT)的提取方法。结合文本标点和标签功能的分布。计算不同文本块中的文本标点密度,得到最大的密度连续值,以从网页中提取最佳文本内容。该方法有效地解决了信息过滤和文本内容提取中的噪声问题,无需培训和人工处理。从不同门户网站随机选择的网页上的实验结果表明,TPDT方法在各种新闻页面上具有良好的适用性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号