首页> 中文学位 >基于分布式架构的半结构化Web论坛信息抽取系统的研究
【6h】

基于分布式架构的半结构化Web论坛信息抽取系统的研究

代理获取

摘要

随着计算机技术的大规模应用与互联网技术的高速发展,计算机已将我们带入了信息化时代。人们对信息获取并对信息进行处理的需求正走向多元化、综合化。分布在互联网中的Web网页数据中,存在着大量的半结构化数据。随着对半结构化数据研究与应用的深入,从半结构化数据中自动抽取出有价值信息的需求正在日益增加。
   Web论坛现已成为网络上重要的数据源,它为人们提供了大量的有价值的知识和信息。由于大量的网友在Web论坛上交流看法、讨论问题,日积月累使得Web论坛中保存了海量的信息资源。Web论坛风格多样性、内容复杂性、结构多变性等特点,使得从半结构化Web论坛中有效地获取到有价值的信息成为当前信息抽取技术中一个重要的研究方向。通常信息抽取算法所抽取的Web论坛数据集非常庞大,单机难以完成抽取任务,而分布式网络中又有着充足的计算机资源,却不能被利用。所以如何有效地将网络中空闲的机器组织起来,使其相互协作共同完成大规模数据集的抽取任务,是现今半结构化信息抽取技术亟待解决的技术难题。
   本文针对Web半结构化论坛数据的结构特点造成的现有单机论坛信息抽取算法自动化程度低,通用性差,无法对大规模数据集进行抽取等缺点,经过对数据挖掘中的频繁子树挖掘算法与分布式系统结构的详细分析,提出了二者相结合的方法解决现有单机论坛信息抽取方法中的不足。
   本文设计并实现了以频繁子树挖掘技术为基础,以主从分布式结构为系统架构的半结构化Web论坛信息抽取系统。根据系统的需求分析,本系统的体系结构采用分层结构,分别是表示层、控制层和数据处理层。其中表示层负责显示抽取结果,控制层负责抽取任务的分发,数据处理层负责信息的抽取。同时本文深入探讨了系统中各功能模块的基本原理,包括采用ACE中间件技术的分布式节点通信模块,采用一致性哈希算法的任务分发模块,采用频繁子树挖掘算法对待抽取信息定位的频繁模式提取模块,采用最大公共子树匹配算法抽取数据的信息抽取模块。
   系统目前正处于试运行阶段,本文选取了当前中文网站中最具有代表性的10个论坛总共660篇内容帖子页作为实验数据源,同时对系统的抽取性能进行了比较与分析,实验结果表明该系统运行情况稳定、安全实用、操作简单,改善了单机Web论坛信息抽取系统的不足,具有良好的开发和应用前景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号