首页> 中文学位 >Web数据集成中实体统一问题研究
【6h】

Web数据集成中实体统一问题研究

代理获取

摘要

随着互联网的高速发展,网上数据量也呈指数级增长,Web已经成为一个非常巨大的数据源。为了高效地利用Web上有效信息,研究者们提出了Web数据集成的概念。Web数据集成就是把分散在Web上各个站点的各种数据信息按照一定的联系有机地组织到一起,挖掘数据中包含的深层信息,以满足人们对集成数据的后续使用。由于Intemet上数据的新特点,动态性、多样性、半结构化和非结构化等,使得从Internet上准确快速的集成有价值信息并为市场情报分析提供有价值数据成为了一个巨大的挑战。其中实体统一是Web信息集成框架中最关键问题之一。由于拼写错误,缩写等原因,导致数据抽取和模式匹配之后的数据集合中可能存在大量的相同表象指向不同实体或者不同表象指向同一实体的问题,这个问题大大影响了数据质量。为了避免“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)

著录项

  • 作者

    董傲通;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 李庆忠;
  • 年度 2011
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据集成; 实体统一; 匹配关系图; 模式匹配;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号