首页> 外文OA文献 >Information extraction in structured documents using tree automata induction
【2h】

Information extraction in structured documents using tree automata induction

机译:使用树自动机归纳法提取结构化文档中的信息

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Information extraction (IE) addresses the problem of extracting specific information from a collection of documents. Much of the previous work for IE from structured documents formatted in HTML or XML uses techniques for IE from strings, such as grammar and automata induction. However, such documents have a tree structure. Hence it is natural to investigate methods that are able to recognise and exploit this tree structure. We do this by exploring the use of tree automata for IE in structured documents. Experimental results on benchmark data sets show that our approach compares favorably with previous approaches.
机译:信息提取(IE)解决了从文档集合中提取特定信息的问题。以前在HTML或XML格式的结构化文档中针对IE所做的许多工作都使用了从字符串中进行IE的技术,例如语法和自动机归纳法。但是,此类文档具有树形结构。因此,研究能够识别和利用此树结构的方法是很自然的。为此,我们探索了在结构化文档中针对IE使用树型自动机的方法。在基准数据集上的实验结果表明,我们的方法与以前的方法相比具有优势。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号