首页> 中文学位 >基于树自动机的Web信息抽取
【6h】

基于树自动机的Web信息抽取

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景

1.2 Web信息抽取研究现状

1.3 论文的组织结构

第二章 相关技术

2.1 Web信息抽取技术

2.2 自动机技术

2.3 HTML、XHTML 和XML

2.4 本章小结

第三章 信息抽取的方法和算法

3.1 预处理

3.2 将无秩树转化为有秩树

3.3 抽取方法

3.4 树自动机推理算法

3.5 系统设计目标

3.6 Web文档准备阶段

3.7 Web文档信息抽取阶段

3.8 本章小结

第四章 实验结果及其分析

4.1 基准数据集的测试

4.2 大型数据集中的测试

4.3 本章小结

第五章 论文总结与展望

5.1 总结

5.2 展望

参考文献

个人简历 在读期间发表的学术论文

致谢

展开▼

摘要

随着互联网的高速发展,传播信息的重要方法之一便是Web,如何准确快速地在庞大的互联网中获取信息,目前已经有很多的科研工作者将此作为研究方向。在这样的背景之下,便产生了Web信息抽取技术。Web信息抽取技术不仅能够从互联网上获得用户需要的信息,另外也能够将获得的信息作为创建数据挖掘系统和智能查询系统的基础。因此,信息抽取技术具有十分广阔的应用前景。
  信息抽取(IE)是指从一系列的文档中提取出特定的信息。当前大部分信息抽取工作是从半结构化文档XML或HTML中提取信息,目前现有的技术是基于字符串的提取方法,像有限自动机归纳方法。不过,这种方法并没有利用到XML文档的树形结构。在本文中,我们引入了树自动机技术,来代替字符串的提取方法。本文首先介绍了Web信息抽取的相关技术分类和评价指标,并分析了树自动机、文法推理及信息抽取技术。在有秩树自动机推理方面,本文在k-testable推理算法的基础上,提出了g-testable和gl-testable算法,提高了抽取的召回率和准确率,并基于此设计了一个基于有秩树自动机的Web信息抽取系统原型。最后,通过在基准数据集和大型数据上的实验表明,该方法确实要明显优于基于字符串的信息抽取方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号