首页> 中文学位 >分布式校园网垃圾信息识别系统的设计与开发
【6h】

分布式校园网垃圾信息识别系统的设计与开发

代理获取

目录

声明

1 绪论

1.1研究背景

1.2研究意义

1.3研究现状

1.4本文主要研究内容

1.5本文的组织结构

2 垃圾信息识别系统分析

2.1垃圾信息识别相关概念

2.1.1校园网垃圾信息的定义

2.1.2垃圾信息识别技术简介

2.1.3文本分类的定义

2.2系统分析

2.2.1功能需求

2.2.2性能需求

2.3文本预处理关键技术

2.3.1分词技术

2.3.2文本去噪技术

2.3.3文本特征表示

2.3.4文本特征提取

2.3.5反馈学习

2.4系统方案选择

2.5 本章小结

3 垃圾信息识别系统设计与实现

3.1系统设计关键技术

3.1.1贝叶斯分类算法及改进

3.1.2 MapReduce并行编程模型

3.1.3分布式文件存储

3.1.4分布式数据库

3.2系统整体设计

3.3.1模板训练过程

3.3.2训练结果的存储

3.3.3 MapReduce过程实现

3.3.4配置训练

3.4.1分类识别过程

3.4.2 MapReduce实现

3.5 本章小结

4 系统测试以及性能评估

4.1测试环境

4.2评价指标

4.3测试及分析

4.3.1文本去噪测试

4.3.2分词测试

4.3.3英文信息测试

4.3.4中文信息测试

4.3.5算法性能测试分析

4.4本章小结

5 总结与展望

5.1总结

5.2展望

致谢

参考文献

攻读学位期间取得的研究成果

展开▼

摘要

近年来,随着移动互联网技术与数字化校园建设的不断发展,校园网络互动平台已经成为师生交流的主要平台,其为师生提供便利的信息服务时,也成为了不法分子传播垃圾信息的主要阵地。并且这些垃圾信息已经对师生的正常学习生活以及校园文化建设带来了严重的威胁。如何将校园网络平台中的垃圾信息进行快速准确的识别,然后由相应过滤器,将其屏蔽处理已经成为现阶段校园安全建设刻不容缓的任务,本文主要研究工作如下:  1)首先对Hadoop平台进行分析研究,发现其具有较高的可靠性、扩展性、容错性,且对硬件要求低等特性。选择其作为信息识别系统的应用平台。  2)对当前常用的信息过滤算法进行分析比较,发现贝叶斯算法具有高效、简单易实现等优点。选择贝叶斯分类算法作为主要的信息识别算法。  3)垃圾信息识别系统中,在文本分词、去噪阶段,改进TFIDF函数参数设置,将对分类影响权重低的特征量过滤掉,以降低系统的空间与时间成本;在分类阶段,为了降低将有效信息划分为垃圾信息的风险,在分类时引入最小风险因子,将信息划分到风险最小的类别中。  4)在Hadoop平台上利用MapReduce与HBase等组件将改进的垃圾信息识别系统进行编程实现。特别是对训练与分类过程中Map与Reduce过程的编程实现。  通过对分布式校园网垃圾信息识别系统进行性能实验对比后,发现引入Hadoop平台后,系统识别效率有了明显的提高;改进的基于最小风险贝叶斯分类与TFIDF融合的垃圾信息识别系统在识别率、查准率、精确率等方面都有较明显的改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号