基于语义体与文本聚类的中文垃圾邮件过滤方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅猛发展，电子邮件已逐渐成为人们日常生活中不可缺少的通信方式之一。与此同时，垃圾邮件作为电子邮件的错误衍生品，也发展迅速。尤其是近几年电子商务和移动互联的迅猛发展，促使基于文本形式的企业邮件和手机邮件的增多。另外，中文的语言复杂度远大于英文，导致对中文垃圾邮件的处理不能照搬外国的方法。
　　目前，文本垃圾邮件过滤的主流方法仍然是基于内容的垃圾邮件过滤技术，但大多数方法都是一些基于关键字的与语义无关的垃圾邮件过滤方法，如：贝叶斯方法、基于案例的方法和文本分类方法等，此类方法对垃圾邮件内容所表达的思想缺乏精准的描述。现在新型的文本垃圾邮件利用同义词、近义词等手段，伪装成正常邮件，使传统的方法难以把垃圾邮件和正常邮件进行区分。因此，论文在语义相似度的基础上，利用《知网》在语义分析方面的优势，提出一种基于语义体和文本聚类算法相结合的新型中文文本垃圾邮件过滤方法。本文的研究主要有以下两方面：
　　 1.从具有同义词或近义词的新型中文文本垃圾邮件中提取特征。本文对邮件文本进行分词、去除停用词后，对余下的词语集合进行词义消歧，得到每个词语在邮件中的唯一词义，便于邮件特征的提取；将词语集合中的每个词语作为一条词汇链，并将词义相同或相似的词汇链合并为一条词汇链，利用TFIDF方法从每条词汇链中选取唯一的词语作为该词汇链代表；最后，提取规定个数的词语作为该邮件的特征，即语义体。经仿真实验表明：该方法提取的邮件特征更加准确。
　　 2.针对得到的垃圾邮件的语义体，本文采用基于语义距离的文本聚类算法进行垃圾邮件过滤。该方法利用基于《知网》的文本相似度对邮件集合进行第一次文本聚类，为了避免邮件输入顺序对聚类结果的影响，对经过整理的第一次聚类结果进行第二次文本聚类，使得最终得到的聚类结果更加准确，利用得到的聚类结果完成对垃圾邮件的过滤。
　　通过实验验证，本文方法对具有同义词或近义词的新型垃圾邮件有很好的过滤效果：论文所提方法与传统的邮件过滤方法相比，在对邮件内容的判断中更具客观性，对内容表意不明的垃圾邮件，其方法在邮件识别的召回率方面体现了较大的优势。

著录项

作者
王鹏;
展开▼
作者单位

兰州理工大学;

展开▼
授予单位兰州理工大学;
学科计算机软件与理论
授予学位硕士
导师姓名张秋余;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.098;
关键词
语义体; 词语相似度; 文本聚类; 中文垃圾邮件; 过滤方法;

相似文献

中文文献
外文文献
专利

1. 基于潜在语义分析的中文文本聚类方法研究 [J] . 李华云 . 科技情报开发与经济 . 2008,第027期
2. 基于语义簇的中文文本聚类算法 [J] . 齐向明 ,孙煦骄 . 吉林大学学报（理学版） . 2019,第005期
3. 基于语境和语义的中文文本聚类算法研究 [J] . 吴勇 ,周军 . 科技信息 . 2010,第035期
4. 基于语义列表的中文文本聚类算法 [J] . 马素琴 ,施化吉 ,李星毅 . 计算机应用研究 . 2010,第005期
5. 基于语义的中文文本聚类最佳簇数研究 [J] . 刘金岭 . 计算机工程与设计 . 2010,第009期
6. 基于中文主题的垃圾邮件过滤方法研究 [C] . ZHAO Li ,赵利 ,LIAO Wen-jian . 中国通信学会第六届学术年会 . 2009
7. 基于语义体与模糊聚类的中文垃圾邮件过滤方法研究 [A] . 杨慧娟 . 2011

基于语义体与文本聚类的中文垃圾邮件过滤方法研究

摘要

著录项

相似文献

相关主题

期刊订阅