首页> 中文期刊> 《计算机科学技术学报:英文版》 >Web News Extraction via Tag Path Feature Fusion Using DS Theory

Web News Extraction via Tag Path Feature Fusion Using DS Theory

         

摘要

内容,布局式样,并且分析页与一页极大地不同到另外一个的网新闻的结构。另外,布局风格和一网新闻页的 parse 结构可以有时变化。为这些原因,怎么为巨大、异构的网新闻页与优秀抽取表演设计特征是一个挑战性的问题。我们的广泛的案例研究显示在网内容布局和他们的标签路径之间有潜在的关联。由观察启发了,我们设计抽取展示提取网新闻的一系列标签路径。因为每个特征有它的自己的力量,我们与 DS (Dempster-Shafer ) 证据理论熔化所有那些特征,然后设计内容抽取方法 CEDS。CleanEval 数据集和从著名网站随机选择的网新闻页上的试验性的结果证明有 CEDS 的 F 1-score 分别地比存在流行内容抽取方法 CETR 和 CEPR-TPR 高是 8.08% 和 3.08% 。

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号