基于树自动机的Web信息抽取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的高速发展,传播信息的重要方法之一便是Web,如何准确快速地在庞大的互联网中获取信息,目前已经有很多的科研工作者将此作为研究方向。在这样的背景之下,便产生了Web信息抽取技术。Web信息抽取技术不仅能够从互联网上获得用户需要的信息,另外也能够将获得的信息作为创建数据挖掘系统和智能查询系统的基础。因此,信息抽取技术具有十分广阔的应用前景。
　　信息抽取(IE)是指从一系列的文档中提取出特定的信息。当前大部分信息抽取工作是从半结构化文档XML或HTML中提取信息,目前现有的技术是基于字符串的提取方法,像有限自动机归纳方法。不过,这种方法并没有利用到XML文档的树形结构。在本文中,我们引入了树自动机技术,来代替字符串的提取方法。本文首先介绍了Web信息抽取的相关技术分类和评价指标,并分析了树自动机、文法推理及信息抽取技术。在有秩树自动机推理方面,本文在k-testable推理算法的基础上,提出了g-testable和gl-testable算法,提高了抽取的召回率和准确率,并基于此设计了一个基于有秩树自动机的Web信息抽取系统原型。最后,通过在基准数据集和大型数据上的实验表明,该方法确实要明显优于基于字符串的信息抽取方法。

著录项

作者
杨帆;
展开▼
作者单位

华东交通大学;

展开▼
授予单位华东交通大学;
学科计算机软件与理论
授予学位硕士
导师姓名黄兆华;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
互联网; 信息抽取; 有秩树自动机; 文法推理;

相似文献

中文文献
外文文献
专利

1. 基于单DOM树特征预分类的自适应Web信息抽取方法 [J] . 彭艳兵 ,谢馨庭 . 电子设计工程 . 2017,第019期
2. Web信息抽取中基于结点权重的树编辑距离匹配法研究 [J] . 朱南丽 ,朱晓鸣 ,叶五梅 . 计算机时代 . 2010,第003期
3. 基于DOM树的可适应性Web信息抽取 [J] . 李朝 ,彭宏 ,叶苏南 . 计算机科学 . 2009,第007期
4. 基于MT决策树的Web信息抽取研究 [J] . 张树瑜 ,朱仲英 . 计算机工程与应用 . 2004,第013期
5. 基于 Trie 树和有限状态自动机的中文地址解析模型 [J] . 汪洋 ,刘师培 ,王峥 . 计算机与现代化 . 2016,第007期
6. 格值树自动机与格值上下文无关树文法的等价性 [C] . . 2008年全国理论计算机科学学术年会 . 2008
7. 树自动机与模糊树自动机的代数性质 [A] . 胡忠刚 . 2009

基于树自动机的Web信息抽取

目录

摘要

著录项

相似文献

相关主题

期刊订阅