首页> 中文期刊> 《电子技术与软件工程》 >基于Tag-Tree模板的结构化论坛信息提取

基于Tag-Tree模板的结构化论坛信息提取

         

摘要

结构化的论坛网站多采用动态网页生成技术,将后台数据库的记录信息加入HTML模板,以动态地显示在网页上。与此过程对称,本文首先将不同BBS网站的大量网页解析为Tag-Tree,然后计算树的相似度与构建代价生成多类Tag-Tree模板,同时得到每个模板所对应的网页,寻找模板的重复模式确定记录边界。最后,利用模板解析相应网页得到非模板内容,进而采用启发式规则提取结构信息与记录内容。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号