首页> 中文学位 >自底向上的Web数据抽取方法研究
【6h】

自底向上的Web数据抽取方法研究

代理获取

目录

声明

摘要

第1章 引言

1.1 课题背景

1.2 国内外研究现状

1.3 本文研究的内容

1.4 本文研究思路及组织结构

第2章 相关概念与技术

2.1 Web相关技术

2.1.1 HTML技术

2.1.2 XHTML技术

2.1.3 XML技术

2.1.4 DOM技术简介

2.1.5 XPath技术

2.2 决策树

2.2.1 决策树简介

2.2.2 决策树表示方法

2.2.3 决策树适用的问题

2.2.4 基本的决策树学习算法

2.3 本章小结

第3章 基于实体的数据抽取方法

3.1 基于实体的Web数据抽取模型

3.2 自底向上抽取方法面临的问题和挑战

3.3 实体抽取策略

3.3.1 文本划分策略

3.3.2 实体属性标注

3.4 本章小结

第4章 重复模式抽取与数据抽取策略

4.1 重复模式抽取

4.1.1 确定关键属性

4.1.2 候选重复模式提取

4.1.3 确定实体属性

4.1.4 生成重复模式

4.2 抽取模式化简

4.3 数据抽取

4.3.1 构建抽取模式树

4.3.2 数据抽取策略

4.4 页面分层思想

4.5 本章小结

第5章 实验与分析

5.1 实验环境

5.2 评价标准

5.3 实验结果及分析

5.3.1 二级抽取模型实验

5.3.2 抽取模式生成策略

5.3.3 数据抽取实验

5.4 本章小结

第6章 结论

6.1 本文的主要贡献与结论

6.2 进一步的工作

参考文献

致谢

攻硕期间参加的项目及发表的论文

展开▼

摘要

随着科学技术的发展,各个领域的信息量均飞速增长,而作为新时代信息载体的互联网发展尤为显著。由于Web数据包含来自不同数据源的各个领域的信息,数据形式趋于多样化和复杂化,用户很难快速、准确地找到自己需要的信息。
  为了有效地利用和管理网络中的信息,必须获得网络数据源中的高质量结构化数据,因此,高效而准确的抽取Web数据并进行集成变得越来越重要。本文提出一个针对Web数据的自底向上的抽取方法。与其他抽取方法相比,该方法优先从数据属性标注着手,在此基础之上完成对结构化数据的构建与整合。我们称Web页面中的每个数据字段为一个实体,该方法主要分为两个部分:实体抽取和实体整合。这样可以避免数据抽取过分地依赖网页结构,扩展性更强,获取结构化数据的方式更加灵活。
  本文着重阐述对实体抽取策略及实体整合算法的研究,提出二级抽取模型TLE(Two-LevelExtraction)、重复模式抽取算法FP(FindPattern)和模式化简算法RP(RefinePattern)。TLE是一种将查全规则和查准规则分开的实体属性标注模型,即分别依次应用两种类型的规则以保证实体属性标注有更高的查全率和准确率。FP算法是根据Web页面文本书写的相似性特征从实体属性序列中抽取重复模式的算法。RP算法是采用有限自动机思想化简重复模式的算法,以减小抽取时匹配模式的开销。此外,本文还就抽取后的Web页面信息的分层机制进行了深一步研究。
  经过实验验证,本文提出的自底向上数据抽取方法能够真正有效地抽取Web页面中的结构化信息,并且在查准率和召回率方面都要优于现有典型方法,具有更强的扩展性和普遍性,可以广泛地应用到众多主题的Web数据源信息集成中。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号