基于标签树的列表页面数据抽取技术研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

伴随Internet的飞速发展，Web已经成为一个巨大的、共享的、分布式的信息资源集合，如何从浩瀚的Web信息资源中自动获取用户感兴趣的数据记录或有用的信息，已成为人们深入探讨的课题。目前，大多数Web数据都以非结构或半结构化的形式呈现，缺乏对数据本身的描述，不包含清晰的语义，模式也不太明确，这使得应用程序无法直接解析并利用Web上的海量信息。为了避免“数据爆炸，知识匮乏”的尴尬，从海量的半结构化Web数据中抽取出结构化的、与主题相关的数据，向用户提供增值服务(如监控股市的及时行情、比较各个网站的商品价格、跟踪合作伙伴或竞争对手的动态、集成企业内外部的各种信息等)，各种Web数据抽取技术应运而生，并日渐发挥出强大的作用。因此，Web数据抽取技术有着明显的优势和广阔的前景，是数据提取技术、人工智能信息检索、自然语言理解技术在网络信息处理中的应用，是当今多个领域的研究热点。
　　本论文探讨了针对由模板生成的列表页面，如何检测其通用模板，并将嵌入在模板中的数据抽取出来，实现了列表页面数据的自动抽取。
　　首先，简要叙述了半结构化数据、Web数据抽取、列表页面的概念；
　　接着，深入研究了Web数据抽取技术的发展历史、现有技术，并在对各种技术比较后，指出现有技术的优缺点、未来可能的发展方向；
　　然后，详细介绍了作者前一阶段的学术成果--自动抽取 Web数据的树对齐算法，它是本论文所提出的基于标签树的列表页面数据抽取系统的研究基础和核心部分。本论文实现了此算法，完善了树对齐之前和之后的相关流程，形成了完整的Web数据抽取系统；
　　最后，详细介绍了本论文所提出的基于标签树的列表页面数据抽取系统的设计、实现与实验，该系统构造标签树、挖掘主数据区域、识别数据记录、生成记录模式，逐步缩小目标区域大小，从而抽取用户感兴趣的数据记录或有用的信息。实验证明，该系统能够有效地处理列表页面，抽取数据信息，能够适应广泛的实际需求，并具有深入推广的应用价值。

著录项

作者
景寒星;
展开▼
作者单位

华东师范大学;

展开▼
授予单位华东师范大学;
学科计算机应用技术
授予学位硕士
导师姓名陈少红;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
Web数据抽取; 数据挖掘; 包装器; 列表页面; 标签树匹配;

相似文献

中文文献
外文文献
专利

1. 基于页面标签的Web结构化数据抽取 [J] . 任仲晟 ,薛永生 . 计算机科学 . 2007,第010期
2. 基于树比较的Web页面主题信息抽取 [J] . 朱梦麟 ,李光耀 ,周毅敏 . 微型机与应用 . 2011,第019期
3. 基于扩展DOM树的Web页面信息抽取 [J] . 王磊 ,蒋建中 ,郭军利 . 计算机应用与软件 . 2007,第006期
4. 基于正则表达式的Web页面信息抽取技术研究 [J] . 罗粮 ,朱儒明 . 现代计算机（专业版） . 2017,第015期
5. 基于主题型页面的正文信息抽取技术研究 [J] . 万文兵 . 计算机光盘软件与应用 . 2015,第001期
6. 列表页结构化数据抽取方法研究及应用 [C] . 李贵 ,商鹏程 ,孙平 . 第十七届全国网络与数据通信学术会议(NDCC2010) . 2010
7. 基于DIV标签树的网页主题信息抽取方法 [A] . 杨柱 . 2010

基于标签树的列表页面数据抽取技术研究

摘要

著录项

相似文献

相关主题

期刊订阅