首页> 中文期刊> 《计算机应用与软件》 >基于DTA的信息抽取技术研究

基于DTA的信息抽取技术研究

         

摘要

针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术.其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取.该方法充分利用了HTML文档的树状结构.依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合.经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号