首页> 中文学位 >基于机器学习的手机垃圾信息过滤系统设计与实现
【6h】

基于机器学习的手机垃圾信息过滤系统设计与实现

代理获取

目录

第一个书签之前

展开▼

摘要

随着互联网的迅猛发展和移动设备的快速普及,计算机与互联网技术的应用受到越来越多的行业的重视,正在为各行业带来巨大的改变。同时,互联网所带来的问题也慢慢显现出来,尤其在手机端更为突出。越来越多的互联网产品需要手机号注册,这就造成了用户信息的大量外泄,使得手机用户经常收到一些广告甚至是非法辱骂信息。手机端运行的第三方应用大多会推送广告信息,这些信息种类繁多且难以预防,严重影响了人们的健康生活。针对手机端垃圾信息泛滥成灾的问题,本文实现了基于机器学习的手机垃圾信息过滤系统,给予手机用户一个安静美好的使用环境。 针对此问题,本文首先对手机端垃圾信息的来源和用户的需求做了深入的调研,对垃圾信息过滤的研究现状和相关技术做了分析,研究了手机垃圾信息数据从产生到存储和利用的各个业务流程,总结了各个业务流程的主要需求以及实现各个需求的技术难点。其次,本文选择合适的软件过程模型,针对各个业务环节设计了对应的数据模型,然后,对中文分词,停用词去除,关键信息提取,特征项选取和词向量生成等机器学习领域相关技术进行了系统的学习与研究,最后学习了SVM算法的基本原理。作者利用在TCL研究院为期一年的实习机会,在部门组长的带领与指导下,完成了基于机器学习的手机垃圾信息过滤系统的开发,并在TCL品牌智能手机上完成部署。在分词方面通过调用开源框架HanLP的分词接口实现,停用词去除方面实现了基于词典匹配的停用词去除算法,词向量生成方面完成了基于Word2Vec的词向量化训练,文本分类方面实现了基于LibSVM的文本分类器。本系统主要包括注册登录模块、交友模块、信息处理模块、信息过滤模块和模型训练等五大模块。其中登录、交友和信息过滤等功能主要在手机端完成,模型的训练在服务器端实现后导入手机。信息处理模块是本系统的核心模块,主要功能由分词,停用词去除,词向量化生成部分协作完成,模型识别准确率高。 本文在基于机器学习的手机垃圾信息过滤系统开发实现后,对系统进行了充分的功能测试与性能测试。发现了部分系统实现时的漏洞并及时完成修改。经过在TCL品牌智能手机上多次测试,实验数据显示,正常信息的识别准确率达到了99.27%,垃圾信息的识别准确率达到了87.40%。软件第一版整体效果比较理想,可以有效过滤掉手机端的大量垃圾信息。随后,本系统将会在TCL品牌智能手机上全面部署并随着手机的发售供用户正式体验。至此,本文也完成了预期的工作。

著录项

  • 作者

    焦雷强;

  • 作者单位

    西安电子科技大学;

  • 授予单位 西安电子科技大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 李青山,党杰;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    机器学习; 手机; 垃圾; 信息过滤;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号