首页> 中文学位 >互联网上少数民族信息统计分析的关键技术研究
【6h】

互联网上少数民族信息统计分析的关键技术研究

代理获取

目录

摘要

第一章 绪论

第一节 课题研究背景

第二节 国内外研究现状

一、聚焦爬虫研究现状

二、网页分类研究现状

三、网页关键信息抽取研究现状

四、网页抓取策略研究现状

第三节 VC6.0平台

第四节 本文所做的工作

第二章 相关关键技术

第一节 聚焦爬虫相关技术

一、通用爬虫

二、聚焦爬虫

第二节 网页分类

一、支持向量机

二、贝叶斯分类算法

三、KNN分类算法

第三节 网页关键信息提取

第四节 网页抓取策略

一、广度优先策略

二、最佳优先策略

第三章 基于向量空间模型的算法设计

第一节 向量空间模型

第二节 与算法有关的相关定义

第三节 算法的体系结构

第四节 算法的模块化实现

一、百度搜索模块

二、聚焦爬虫模块

第四章 相关算法的实现

第一节 实现百度搜索中提取相关URL

一、通过关键词对单页源码中URL提取的实现

二、对单个关键词进行URL提取

三、对多个关键词进行URL无重复提取

第二节 聚焦搜索准备

第三节 聚焦搜索实现

第四节 对抓取结果的统计分析

第五章 总结与展望

参考文献

攻读学位期间发表的学术论文目录

致谢

声明

展开▼

摘要

随着网络的迅速发展,互联网已成为海量信息的载体。搜索引擎的出现为人们使用互联网提供了较好的便利性,同时也成为研究网站用户行为的有效工具。近年来伴随着网络的兴起,民族问题是困扰我国发展的一大障碍,其在互联网中的传播也愈来愈突出。如何运用已有搜索引擎对互联网中民族问题的传播进行监督成为目前网络舆情监控的一大课题。本文着重对网络中民族问题特定信息提取面临的关键技术进行研究。
   本文首先介绍了聚焦搜索引擎及相关关键技术发展概况及原理,重点介绍了常见的网页分类算法、网页关键信息提取及抓取策略,为本文所设计的基于搜索引擎的聚焦爬虫算法及实现提供理论基础。搜索引擎搜索结果并不能完全与用户的需求匹配,且在某些情况下给出的搜索信息量明显不足。因此对搜索引擎搜索结果进行进一步聚焦搜索具有一定的价值。
   互联网中信息主要以HTML页面形式出现,而HTML具有明显的分类特点。网页代码中大量的信息与搜索信息关联度很低,使得优化网页代码搜索机制显得极其重要。由于搜索的目的性较强,使得搜索的要求,如对特定事件中网页的共同特点,具有明显的结构化,因此选用空间向量对网页代码进行简化,并基于向量空间模型对问题进行算法设计。
   算法首先将模型分为两大模块,百度搜索模块和聚焦搜索模块。百度搜索模块通过算法实现对搜索词在百度搜索引擎上进行抓取搜索结果对应的URL等信息,得到相应的初始URL队列;聚焦搜索模块实现以此初始URL队列作为起点,基于空间向量模型通过KNN分类算法在网络中实现聚焦爬虫搜索,得到相应的搜索结果。
   最后本文完成对算法的初步实现,并对结果进行简要统计分析。通过搜索结果中所含信息的特点与社会中影响网络传播的事件进行分析,得到搜索结果与社会中敏感信息来源匹配,证明搜索结果的可操作性和有效性,为算法实现的进一步优化提供数据支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号