首页> 中文学位 >基于Web的房地产数据挖掘及资源决策支持系统
【6h】

基于Web的房地产数据挖掘及资源决策支持系统

代理获取

摘要

随着网络技术的广泛应用,各行各业都建立了网站,用以发布数据,其中Deep Web拥有大量的半结构化数据,使网络构成了一个巨大的、异构的、复杂的、免费的公共数据资源,研究如何应用Web数据挖掘技术,将用户感兴趣的数据从网站抽取出来,在本地进行分析、集成,形成结构化的、完整的、通用的、有应用价值的领域化数据库,并对数据实现以决策支持系统为目的的增值应用,是Web数据挖掘领域中非常值得研究的热点问题。
  本文以抽取房地产网上数据为目的,分析了网上房地产数据的海量性,分布性,动态性,异构性等特点,设计了具有针对性的Web数据挖掘方法与集成方法,建立了面向房地产行业的Web数据挖掘系统模型与数据集成模式,并基于网上数据设计了决策支持系统的功能,在研究过程中,主要完成了以下工作:
  (1)分析房地产网页生成技术,设计针对不同技术的Web数据抽取方法,制定了面向显式数据网页的网页源代码分析法,和面向隐式数据网页的DOM树分析方法,并根据实际情况应用两种方法,提高数据抽取速度。
  (2)分析列表页数据与详情页数据特点,设计不同的数据抽取算法,制定通用Web数据抽取规则与数据清洗规则,并基于规则形成对特定网页模式的抽取方案,设计稳定的包装器,实现Web数据的连续抽取。
  (3)建立Web数据抽取任务库,以任务库为中心,设计任务分发与数据回收策略,研究基于“服务器/客户端”结构模式的分布式Web数据抽取系统,以并行计算的方式来提高系统性能,缩短数据抽取时间,保证数据的时效性。
  (4)建立术语字典,形成“网站术语-术语字典-模式属性”的映射关系,并考虑可扩展性问题;利用术语字典对网络行业词汇进行聚类分析,解决网上异构数据源语义冲突问题,完成对异构数据源的集成。依据术语字典设计通用数据模式,并建立模式之间的关系,完成房地产基础数据库的建立。
  (5)分析网上房地产数据的变化特点,研究本地数据与网上数据的同步更新策略,针对网上数据的增量、内容变动和删除情况,设计数据同步规则,实现本地数据库周期性更新。
  (6)以Java为开发工具,选择HtmlParser与HtmlUnit网页分析工具包,实现数据抽取算法,设计增值应用模型,研究决策系统模型,结合数据库技术完成数据的统计分析与决策支持,实现对Web数据的抽取、集成与应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号