首页> 中文学位 >基于文本挖掘的公共交通安全信息分类模型研究
【6h】

基于文本挖掘的公共交通安全信息分类模型研究

代理获取

目录

声明

摘要

第一章绪论

1.1研究背景与意义

1.1.1研究背景与问题提出

1.1.2研究目的与意义

1.2.1研究内容

1.2.2研究框架

1.2.3研究方法

1.3研究创新点与难点

1.3.1论文研究的创新点

1.3.2论文研究的难点

第二章研究综述及相关理论

2.1公共交通安全研究现状

2.1.1公共安全研究现状

2.1.2公共交通安全研究现状

2.2文本挖掘应用现状

2.2.1文本挖掘

2.2.2文本挖掘的应用现状

2.2.3 文本挖掘在公共安全领域的应用

2.3文本分类

2.3.1文本分类的一般流程

2.3.2文本分类应用

2.4本章小结

第三章公共交通安全数据预处理

3.1数据获取与清洗

3.1.1数据来源与获取

3.1.3数据清洗与标注

3.2公共交通安全文本分词与表示

3.2.1分词与分词工具

3.2.2 用户词典与停用词表的构建

3.2.3 文本表示

3.3公共交通安全文本预处理结果

3.4本章小结

第四章面向公共交通安全文本的特征选择

4.1可视化分析

4.2特征选择

4.3特征选择结果及分析

4.3.1特征组1

4.3.2特征组2

4.3.3特征组3

4.3本章小结

第五章面向公共交通安全的文本分类模型构建

5.1文本分类模型构建

5.1.1分类算法选取

5.1.2分类器性能评价

5.1.3分类模型构建

5.2分类模型验证

5.3本章小结

第六章总结与展望

6.1总结

6.2研究不足及展望

参考文献

附录

致谢

展开▼

摘要

当前,我国社会现在正处于快速发展和转型时期,迅猛发展的社会信息化和相对匮乏的警察资源,给公安情报部门的传统工作方法带来了前所未有的挑战。随着公安信息技术的不断进步,集中开发利用公安信息资源,构建完善的公安信息化体系,围绕“隋报信息主导警务工作”的总体构想,已成为推进公安工作现代化建设的一项重要战略任务。随着信息获取渠道的扩宽,使得公安人员能获取的信息量急剧增加,浪费了大量资源。本研究面向公共交通安全领域,针对其信息泛滥问题展开研究,试图通过机器学习方法找出上传信息中的无用信息,帮助公安情报研判人员筛去垃圾信息,降低所需甄别信息的数据量,辅助其维稳、反恐工作。 首先,文献综述与相关理论部分,采用了文献分析法,阐述了公共安全及公共交通安全领域的研究现状;对文本挖掘及文本挖掘再公共安全领域的应用现状进行了分析;对本研究中设计的相关理论进行了归纳和总结。 其次,数据预处理部分,本文通过Jieba中文分词对数据清洗后的原始文本进行了分词操作,同时再此步骤中设置了用户自定义词典,完成了停用词去除,对分词效果及分词粒度进行了优化;同时对分词结果进行了词性标注,并按照词性提取数据集,以达到降低特征维度,提高后续分类模型效率的作用。 然后,构建模型部分,本文采用了有监督的机器学习方法。从完成上述预处理操作的数据集集中提取特征指标,再结合公安局自建词表,共得到3组特征词表,分别基于SVM分类算法与kNN分类算法进行分类模型构建,共得到5个有效模型,通过对其准确率的比较,最终选取了以BORUTA特征选择方法与SVM分类算法构建的分类模型作为本文的最终模型,该模型准确率达到81.25%,具有较好的分类性能和效果。 最后,基于构建的分类模型,说明了实际应用时的操作流程,将分类模型引入“津门乘客”信息搜集平台,能有效的降低其无用信息的比例,减小情报人员的工作量,提高情报研判效率,同时为文本挖掘再公共交通安全领域的应用提供了参考。

著录项

  • 作者

    刘申冰;

  • 作者单位

    天津师范大学;

  • 授予单位 天津师范大学;
  • 学科 图书情报
  • 授予学位 硕士
  • 导师姓名 王世文;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    文本挖掘; 交通安全; 信息分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号