首页> 中文学位 >一种不良文本过滤方法
【6h】

一种不良文本过滤方法

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 背景

1.2 国内外研究现状

1.3 论文的主要工作

1.4 论文结构

1.5 小结

第二章 相关技术

2.1 不良文本过滤主要方法

2.2 中文分词

2.3文本表示方法

2.4 特征选择算法

2.5 文本分类方法

2.6 评价指标

2.7 本章总结

第三章 不良文本过滤方法设计

3.1不良文本过滤方法

3.2需求分析

3.3设计目标

3.4 术语定义

3.5 不良文本过滤方法设计思路

3.6 不良文本过滤总体设计

3.7 小结

第四章 不良文本过滤系统的实现

4.1 开发环境

4.2 语料库获取

4.3 不良文本过滤实现

4.4 性能分析

4.5 小结

第五章 实验及结果分析

5.1 语料库

5.2 经典KNN方法的最佳实验参数

5.3 训练库相对充分条件下过滤实验及分析

5.4 训练库不充分条件下过滤实验及分析

5.5 小结

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

随着互联网的迅速发展,一些不法分子利用网络来散布反动、色情、诈骗或者暴力等不良信息,对社会的稳定、价值导向,特别是青少年的健康成长构成了极大的危害。如何净化网络环境,过滤掉不良信息,是当前互联网建设和监控上的一个重要的研究热点。
  目前,不良文本过滤主流的研究方法是基于文本内容智能分析的过滤,主要包括向量空间模型法,神经网络法以及语义过滤法。神经网络法以及语义过滤主要缺点在于算法复杂,执行速度慢,向量空间模型则是文档相关度计算量大,缺乏语义因素,基于以上不足,不良文本过滤的研究方向主要集中在提高过滤精度和降低过滤耗时上。本文的主要目的就是设计一个不良文本过滤方法,在保持精度的条件下,最大限度的降低过滤所耗费的时间,并且在不良文本训练库不充分的条件下,也能实现较高的性能。
  本文在分析自然语言处理过程中分词,特征选择,分类方法等在内的基础上,通过对过滤阀值,归一化,文本表示,数据不均衡以及训练库不充分等各种实际情况的分析和实验,提出了一种新的不良文本过滤方法,并最终通过实验验证了方法的有效性。
  具体地说,本文的工作主要包含下列内容:
  1、使用了一种新的文本权重计算方法。该方法充分考虑了特征项在待表示文本中的频数以及指定特征项对于类别区分度的大小两个因素,能够更好的表示文本。
  2、针对常用不良文本过滤方法耗时较长的实际情况,提出了一个不良文本过滤方法。该方法在保证准确率和召回率的基础上,很大程度上降低了不良文本过滤所需求的时间。
  3、针对互联网环境下,训练文本库总是不充分的情况,收集了不充分和相对比较充分的两种语料库,并通过实验证明了本文提出的方法在这两种语料库中的过滤性能上优于经典方法。
  4、针对正反特征项集合数据不均衡性的问题,提出了两种解决数据不均衡型问题的方法,充分考虑了正反特征项的实际作用,在这两种解决不均衡型问题的方法中,都引入了归一化的方法,并通过实验验证了方法的有效性。
  5、设计并验证了基于正反特征项差值的过滤方法,提出了界限值的概念以及界限值的确定方法,使用归一化和非归一化两种思路来进行判定,并通过实验得到了测试文本中最佳界限值。
  6、综合上述实验,得到新的不良文本过滤方法的最佳实现策略,并通过实验验证了该策略的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号