一种不良文本过滤方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅速发展，一些不法分子利用网络来散布反动、色情、诈骗或者暴力等不良信息，对社会的稳定、价值导向，特别是青少年的健康成长构成了极大的危害。如何净化网络环境，过滤掉不良信息，是当前互联网建设和监控上的一个重要的研究热点。
　　目前，不良文本过滤主流的研究方法是基于文本内容智能分析的过滤，主要包括向量空间模型法，神经网络法以及语义过滤法。神经网络法以及语义过滤主要缺点在于算法复杂，执行速度慢，向量空间模型则是文档相关度计算量大，缺乏语义因素，基于以上不足，不良文本过滤的研究方向主要集中在提高过滤精度和降低过滤耗时上。本文的主要目的就是设计一个不良文本过滤方法，在保持精度的条件下，最大限度的降低过滤所耗费的时间，并且在不良文本训练库不充分的条件下，也能实现较高的性能。
　　本文在分析自然语言处理过程中分词，特征选择，分类方法等在内的基础上，通过对过滤阀值，归一化，文本表示，数据不均衡以及训练库不充分等各种实际情况的分析和实验，提出了一种新的不良文本过滤方法，并最终通过实验验证了方法的有效性。
　　具体地说，本文的工作主要包含下列内容:
　　1、使用了一种新的文本权重计算方法。该方法充分考虑了特征项在待表示文本中的频数以及指定特征项对于类别区分度的大小两个因素，能够更好的表示文本。
　　2、针对常用不良文本过滤方法耗时较长的实际情况，提出了一个不良文本过滤方法。该方法在保证准确率和召回率的基础上，很大程度上降低了不良文本过滤所需求的时间。
　　3、针对互联网环境下，训练文本库总是不充分的情况，收集了不充分和相对比较充分的两种语料库，并通过实验证明了本文提出的方法在这两种语料库中的过滤性能上优于经典方法。
　　4、针对正反特征项集合数据不均衡性的问题，提出了两种解决数据不均衡型问题的方法，充分考虑了正反特征项的实际作用，在这两种解决不均衡型问题的方法中，都引入了归一化的方法，并通过实验验证了方法的有效性。
　　5、设计并验证了基于正反特征项差值的过滤方法，提出了界限值的概念以及界限值的确定方法，使用归一化和非归一化两种思路来进行判定，并通过实验得到了测试文本中最佳界限值。
　　6、综合上述实验，得到新的不良文本过滤方法的最佳实现策略，并通过实验验证了该策略的有效性。

著录项

作者
周俊;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名杨国武,薛振中;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
不良文本过滤; 归一化; 数据不均衡; 自然语言处理; 权重计算; 软件开发;

相似文献

中文文献
外文文献
专利

1. 维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法 [J] . 如先姑力·阿布都热西提 ,亚森·艾则孜 ,郭文强 . 计算机应用研究 . 2019 ,第011期
2. 基于多质心的不良文本快速过滤方法 [J] . 黄家裕 ,刘连芳 . 广西科学院学报 . 2010 ,第004期
3. 基于KNN的不良文本过滤方法 [J] . 王洪彬 ,刘晓洁 . 计算机工程 . 2009 ,第024期
4. 一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法 [J] . 王琳 ,冯时 ,徐伟丽 . 计算机应用与软件 . 2012 ,第008期
5. 一种基于二元模型的分层文本过滤方法 [J] . 周聚 ,李培峰 ,朱巧明 . 计算机应用与软件 . 2011 ,第007期
6. 基于多质心的不良文本快速过滤方法 [C] . 黄家裕 ,刘连芳 . 广西计算机学会2010年年会 . 2010
7. 基于深度学习的不文明文本过滤方法研究 [A] . 刘子健 . 2019

一种不良文本过滤方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅