首页> 中文学位 >基于标签树的列表页面数据抽取技术研究
【6h】

基于标签树的列表页面数据抽取技术研究

代理获取

摘要

伴随Internet的飞速发展,Web已经成为一个巨大的、共享的、分布式的信息资源集合,如何从浩瀚的Web信息资源中自动获取用户感兴趣的数据记录或有用的信息,已成为人们深入探讨的课题。目前,大多数Web数据都以非结构或半结构化的形式呈现,缺乏对数据本身的描述,不包含清晰的语义,模式也不太明确,这使得应用程序无法直接解析并利用Web上的海量信息。为了避免“数据爆炸,知识匮乏”的尴尬,从海量的半结构化Web数据中抽取出结构化的、与主题相关的数据,向用户提供增值服务(如监控股市的及时行情、比较各个网站的商品价格、跟踪合作伙伴或竞争对手的动态、集成企业内外部的各种信息等),各种Web数据抽取技术应运而生,并日渐发挥出强大的作用。因此,Web数据抽取技术有着明显的优势和广阔的前景,是数据提取技术、人工智能信息检索、自然语言理解技术在网络信息处理中的应用,是当今多个领域的研究热点。
   本论文探讨了针对由模板生成的列表页面,如何检测其通用模板,并将嵌入在模板中的数据抽取出来,实现了列表页面数据的自动抽取。
   首先,简要叙述了半结构化数据、Web数据抽取、列表页面的概念;
   接着,深入研究了Web数据抽取技术的发展历史、现有技术,并在对各种技术比较后,指出现有技术的优缺点、未来可能的发展方向;
   然后,详细介绍了作者前一阶段的学术成果--自动抽取 Web数据的树对齐算法,它是本论文所提出的基于标签树的列表页面数据抽取系统的研究基础和核心部分。本论文实现了此算法,完善了树对齐之前和之后的相关流程,形成了完整的Web数据抽取系统;
   最后,详细介绍了本论文所提出的基于标签树的列表页面数据抽取系统的设计、实现与实验,该系统构造标签树、挖掘主数据区域、识别数据记录、生成记录模式,逐步缩小目标区域大小,从而抽取用户感兴趣的数据记录或有用的信息。实验证明,该系统能够有效地处理列表页面,抽取数据信息,能够适应广泛的实际需求,并具有深入推广的应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号