自底向上的Web数据抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着科学技术的发展，各个领域的信息量均飞速增长，而作为新时代信息载体的互联网发展尤为显著。由于Web数据包含来自不同数据源的各个领域的信息，数据形式趋于多样化和复杂化，用户很难快速、准确地找到自己需要的信息。
　　为了有效地利用和管理网络中的信息，必须获得网络数据源中的高质量结构化数据，因此，高效而准确的抽取Web数据并进行集成变得越来越重要。本文提出一个针对Web数据的自底向上的抽取方法。与其他抽取方法相比，该方法优先从数据属性标注着手，在此基础之上完成对结构化数据的构建与整合。我们称Web页面中的每个数据字段为一个实体，该方法主要分为两个部分:实体抽取和实体整合。这样可以避免数据抽取过分地依赖网页结构，扩展性更强，获取结构化数据的方式更加灵活。
　　本文着重阐述对实体抽取策略及实体整合算法的研究，提出二级抽取模型TLE（Two-LevelExtraction）、重复模式抽取算法FP（FindPattern）和模式化简算法RP(RefinePattern)。TLE是一种将查全规则和查准规则分开的实体属性标注模型，即分别依次应用两种类型的规则以保证实体属性标注有更高的查全率和准确率。FP算法是根据Web页面文本书写的相似性特征从实体属性序列中抽取重复模式的算法。RP算法是采用有限自动机思想化简重复模式的算法，以减小抽取时匹配模式的开销。此外，本文还就抽取后的Web页面信息的分层机制进行了深一步研究。
　　经过实验验证，本文提出的自底向上数据抽取方法能够真正有效地抽取Web页面中的结构化信息，并且在查准率和召回率方面都要优于现有典型方法，具有更强的扩展性和普遍性，可以广泛地应用到众多主题的Web数据源信息集成中。

著录项

作者
刘桐;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名申德荣;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
Web数据; 实体抽取; 实体整合; 自底向上; 页面分层; 决策树模型;

相似文献

中文文献
外文文献
专利

1. 面向开源社区的Web数据抽取方法研究 [J] . 张方 ,尹刚 ,王涛 . 现代计算机（专业版） . 2017 ,第004期
2. 基于云计算面向网络舆情的Deep Web数据抽取关键技术研究 [J] . 陈巧 ,丁卫泽 ,施佺 . 电脑知识与技术 . 2016 ,第015期
3. 基于领域模式的Web数据抽取与集成系统研究与实现 [J] . 李贵1 ,耿传杰1 ,韩子扬1 . 计算机科学与应用 . 2016 ,第004期
4. Web数据抽取技术的研究和探讨 [J] . 仇岗 ,杨琴 . 电子世界 . 2015 ,第013期
5. 基于隐节点共振致密配对的Web数据文本抽取 [J] . 亢华爱 . 科技通报 . 2015 ,第2期
6. 基于领域模型的Web数据抽取与集成 [C] . LI Gui ,李贵 ,ZHANG Miao . 2012年江苏省计算机学会网络与分布计算专委会和网格与服务计算专委会联合学术年会 . 2012
7. Deep Web数据抽取及精炼方法研究 [A] . 辛洁 . 2014

自底向上的Web数据抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅