首页> 中文学位 >文本分类技术在电子取证方面的应用研究
【6h】

文本分类技术在电子取证方面的应用研究

代理获取

目录

声明

目 录

第1 章绪论

1.1研究背景与意义

1.2国内外研究现状

1.2.1电子取证国内外研究现状

1.2.2文本分类国内外研究现状

1.3.1本论文研究内容

1.3.2本论文章节安排

第2 章相关理论基础

2.1.1概述

2.1.2电子取证的基本原则

2.1.3电子取证的过程

2.1.4网络取证

2.1.5单机取证

2.2文本分类相关理论

2.2.1文本分类预处理

2.2.2中文分词

2.2.3去停用词

2.2.4文本特征表示

2.2.5分类器算法

2.3本章小结

第3 章电子取证文本分类的研究

3.1电子取证文本分析

3.1.1电子取证文本内容的特点

3.1.2文本分类技术在电子取证方面应用的需求

3.2一种用于电子取证文本分类TF-IDF算法的改进

3.2.1 TF-IDF 算法及缺陷分析

3.2.2 TF-IDF 改进算法描述及分析

3.2.3改进算法与朴素贝叶斯或SVM结合的文本分类

3.3实验及结果分析

3.3.1分类效果评估指标

3.3.2实验环境及文本集介绍

3.3.3重要实验流程

3.3.4实验结果比较及分析

3.4本章小结

第4 章电子取证文本分类系统分析与设计

4.1系统需求分析

4.1.1目标用户及功能需求

4.1.2非功能性需求

4.2系统架构设计

4.3系统功能模块设计

4.4数据库设计

4.4.1数据库概念设计

4.4.2数据库逻辑设计

4.5本章小结

第5 章 电子取证文本分类系统的实现

5.1.1开发环境与工具

5.1.2系统配置与创建

5.2文本分类的实现

5.3文本集导入的实现

5.4案件关键词展示的实现

5.5案件权限审批的实现

5.6后台管理的实现

1. 后台管理入口的配置

2. 更改数据库配置

3. 数据库表设计转为 Django模型

3. 迁移数据模型到库

4. 在 WEB后台管理

5.7用户登录的实现

5.8本章小结

结论与展望

结论

进一步工作

致 谢

参考文献

展开▼

摘要

随着大数据时代的飞速发展,人与人之间的网络数据交换愈加频繁。面对迎面而来的各类信息,人们获取有效信息的初衷也越来越难实现,需要付出的成本也越来越来高。特别是在公安电子取证领域,想要在浩如烟海的电子数据中筛选出与案件相关的数据越来越难,电子数据过剩已经成为了生产实践和生活中一个亟待解决的问题。  本文结合生产实践的需要,基于自然语言文本处理、机器学习等相关理论,运用Sklearn和Django等工具,研究并实现一个针对公安电子取证文本分类的系统原型。该系统为用户提供了一种针对电子取证文本量多,分类难的问题的解决方案。另外,本文对中文文本分类的TF-IDF算法进行优化。具体内容如下:  本文首先介绍了课题的研究背景与意义,分析了国内外在电子取证和文本分类方面的研究现状。其次,介绍了电子取证和文本分类相关技术和基本方法。接着,对文本分类常用的TF-IDF算法进行了分析,发现其主要有两个缺点:第一,IDF仅关注在整个训练集具有标识性的特征项,没有考虑特征项在类与类之间的分布问题;第二,没有考虑特征项在类别内部中的分布问题。本文根据信息熵相关理论,通过加入信息熵和卡方检验等元素,对TF-IDF算法进行了改进,并对改进前后的算法进行了实验对比。然后,本文完成了电子取证文本分类系统的分析与设计,内容包括:系统需求分析、架构设计、功能模块设计和数据库设计。之后,本文详细介绍了系统的实现,包括:文本分类、文本集导入、案件关键词展示、案件权限审批、后台管理和用户登录等模块的实现。最后,总结了本文研究并展望了进一步的工作。

著录项

  • 作者

    程新航;

  • 作者单位

    西南交通大学;

  • 授予单位 西南交通大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 陶宏才;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    电子取证,文本分类技术,模块化设计;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号