首页> 外文会议>European Conference on Principles of Data Mining and Knowledge Discovery >Information Extraction in Structured Documents Using Tree Automata Induction
【24h】

Information Extraction in Structured Documents Using Tree Automata Induction

机译:使用Tree Automata Incuction结构提取结构提取

获取原文
获取外文期刊封面目录资料

摘要

Information extraction (IE) addresses the problem of extracting specific information from a collection of documents. Much of the previous work for IE from structured documents formatted in HTML or XML uses techniques for IE from strings, such as grammar and automata induction. However, such documents have a tree structure. Hence it is natural to investigate methods that are able to recognise and exploit this tree structure. We do this by exploring the use of tree automata for IE in structured documents. Experimental results on benchmark data sets show that our approach compares favorably with previous approaches.
机译:信息提取(IE)解决了从文件集合中提取特定信息的问题。从HTML或XML中格式化的结构化文档的前面的大部分工作都使用来自字符串的技术,例如语法和自动机等。但是,这些文件具有树结构。因此,研究能够识别和利用这种树结构的方法是自然的。我们通过探索在结构化文件中使用树自动机的使用来实现这一点。基准数据集的实验结果表明,我们的方法与先前的方法有利。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号