首页> 中文学位 >社交网络数据采集方法研究及系统实现
【6h】

社交网络数据采集方法研究及系统实现

代理获取

目录

第一个书签之前

摘 要

ABSTRACT

目 录

图目录

表目录

第一章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 社交网络数据采集方法

1.2.2 社交网络数据查询方法

1.3 本文主要工作与创新点

1.4 论文章节安排

第二章 社交网络数据采集与查询系统设计

2.1 背景

2.2 系统总体设计

2.3 系统功能

2.3.1 服务器端

2.3.2 客户端

2.3.3 数据存储

2.4 系统采集与查询核心方法

2.4.1 数据采集方法

2.3.2 数据查询方法

2.5 本章小结

第三章 社交网络自适应数据采集方法

3.1 背景

3.2 方法思路

3.3 重构DOM树

3.3.1 广度优先提取节点

3.3.2 提取信息节点的标签及相关属性

3.3.3 生成DOM树

3.4 自适应数据采集代码生成

3.4.1 采集信息搜索

3.4.2 采集信息定位

3.4.3 信息路径构建

3.5 同构网页链接扩展

3.5.1 链接扩展规则

3.5.2 测试与分析

3.6 本章小结

第四章 基于权重与语义的扩展查询方法

4.1 背景

4.2 基于权重与语义相似性的相关反馈方法

4.2.1 方法思路

4.2.2 方法描述

4.3 扩展查询方法实现

4.3.1 预处理

4.3.2 文本筛选

4.3.3 查询词扩展

4.3.4 再次检索文本

4.4 测试与分析

4.4.1 评价标准

4.4.2 测试与分析

4.5 本章小结

第五章 系统测试与分析

5.1 测试环境

5.2 社交网络数据采集功能测试与分析

5.3 社交网络数据查询功能测试与分析

5.4 本章小结

第六章 总结与展望

6.1 工作总结

6.2 工作展望

致 谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

随着互联网时代的到来,诞生了各式各样满足用户需求的社交网站,不同的社交网站有着自身独特的结构,而数据隐藏在结构中,网站网页结构好比一棵树,数据就是树枝上的果实,如何快速、简便的从树上摘取果实,成为人们争先研究的课题。同时,海量数据并不意味着海量重要信息,在社交网络中获取的大部分数据对用户毫无价值,从海量数据到有价值的信息之间,还存在着数据处理、查询、分析等步骤,因此如何快速准确的查询获取相关数据信息同样具有重要意义。 社交网络中蕴含的信息具有着重要价值,但是社交网络数据的采集通常面临适用范围窄、重复性工作量巨大、数据采集人员需要专业知识等问题,同时从获取的海量数据中查询出满足用户需求的信息也存在一定的问题。本文研究了现有的社交网络数据采集与查询方法,针对日益增长的数据采集与数据查询需求,设计了一套社交网络数据采集与查询系统,该系统满足了具体来说本文提出的观点与完成的工作如下: (1)设计实现了社交网络数据采集与查询系统。为满足对社交网站数据的高效、稳定、可靠地采集,从方便、适用的角度对社交网络数据采集及查询系统进行设计和实现。该系统由服务器端、客户端和数据存储三个部分组成,其中客户端提供用户可视化界面,便于用户使用系统;数据存储提供了稳定、安全的数据存储环境,同时提高了数据查询速率,增强用户体验;服务器端是系统的核心,它包含了数据采集与数据查询两个核心方法。本文通过对数据采集与查询方法的研究,再结合社交网络结构多样性的特点以及对采集数据监控管理的需求,分别提出了社交网络自适应数据采集方法与基于权重与语义的扩展查询方法,使系统数据采集与数据查询性能增强。通过测试及实际应用表明,该系统能够采集大部分社交网站,同时能够实时监控、查询采集的数据。 (2)针对社交网络多样性以及用户海量需求的特点,提出了社交网络自适应数据采集方法。自适应数据采集方法包括重构DOM树、生成数据采集代码、同构网页链接扩展3个部分组成,其中重构DOM树是指通过广度优先算法解析网页源码,获取需要的数据同时结合自身给出的标记信息共同构建新的DOM树;生成数据采集代码用于生成自适应数据采集代码,同时为了增加采集网页的自适应,本文提出了基于相对路径结合绝对路径的采集路径生成方法,这种方法增强了网页数据采集的自适应性;同构网页链接扩展是指通过比较网页相似性,获取满足要求的扩展链接,并使用扩展链接生成链接扩展规则,它实现了快速扩展同构网页链接数 量的目的,并通过测试分析表明链接扩展规则具有普遍适用性与有效性。 (3)针对采集数据的查询与监控,提出了基于权重与语义的扩展查询方法。该方法在自动相关反馈的查询扩展方法上进行改进,在原本基于词频扩展的基础上引入了基于词汇分解与组合判断语义相似性的方法,解决了词不匹配的问题,同时基于局部上下文分析方法计算扩展查询词与原始查询词的不同权重,将权重融入原有查询模型。通过测试分析,结果表明新的扩展查询方法提高了查询结果的准确率同时用户也能够监控采集数据,查看采集数据是否满足自身需求。

著录项

  • 作者

    杨杰;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 信息与通信工程
  • 授予学位 硕士
  • 导师姓名 钱峰;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 呼吸系及胸部疾病;
  • 关键词

    网络数据采集; 方法研究;

  • 入库时间 2022-08-17 11:16:59

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号