首页> 外文会议>Association for Computational Linguistics Annual Meeting >Reformatting Web Documents via Header Trees
【24h】

Reformatting Web Documents via Header Trees

机译:通过标题树重新格式化Web文档

获取原文

摘要

We propose a new method for reformatting web documents by extracting semantic structures from web pages. Our approach is to extract trees that describe hierarchical relations in documents. We developed an algorithm for this task by employing the EM algorithm and clustering techniques. Preliminary experiments showed that our approach was more effective than baseline methods.
机译:我们提出了一种通过从网页中提取语义结构来重新重新格式化Web文档的新方法。我们的方法是提取描述文档中的分层关系的树木。通过采用EM算法和聚类技术,我们开发了一种为此任务的算法。初步实验表明,我们的方法比基线方法更有效。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号