文本特征选择在网络信息过滤系统中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

如今，网络信息资源的获取成为人们关注的重点，有价值的信息已经成为一种新的财富资源。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术，能够在较大的程度上解决信息杂乱的现象，方便用户准确地定位所需的信息。其中，特征选择方法是目前网络信息过滤领域的研究热点之一，也是本文所研究的主要内容。
　　本文主要针对信息过滤系统中特征选择算法的相关内容，对网络信息过滤系统的研究背景进行了分析。研究了网络信息过滤系统中的关键技术，提出了一种新的方法—神经网络模型来表示文本向量空间；然后对几种特征选择方法的优缺点进行了详细的研究和分析，并对互信息方法的不足进行了改进；将改进的互信息与传统的遗传算法相结合，提出了MI-GA方法，并进行了实验的验证；最后把改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。具体研究内容如下:
　　1、提出了神经网络方法来表示文本向量空间，可以更好的达到文本降维目的。
　　神经网络模型指把文本的向量空间表示转化为神经网络的表示形式。通过对文本进行切词后，每一个词认为是一个神经元，将众多神经元输入到神经网络中进行优化，经过网络中间层的处理以后，输出得到最优的特征子集，这样就达到了降维的目的。采用神经网络的表示法比较合适的领域大多数是根据非常复杂的文本分类进行推理以及需要表示事件状况、性质以及动作之间的关系的领域。把神经网络应用在信息科学领域等许多方面己显示出巨大潜力和广阔的应用前景。
　　2、针对特征选择中的互信息方法的不足进行了改进。
　　对互信息方法的优点和缺点进行了详细分析。互信息的缺点在于，没有考虑词出现的频率，受临界特征的概率影响较大从而造成了互信息评价函数常倾向于选择稀有单词。对其不足进行了改进，并比较了新旧两种互信息方法。
　　3、将改进的互信息与传统的遗传算法相结合，提出了MI-GA方法。
　　提出了把改进的互信息与传统的遗传算法相结合，即 MI-GA方法。从文本分类的效果出发，把 MI-GA方法进行了系统验证，实验结果达到了预期目标，在查全率、准确率和F1测度三个方面都有不同程度的提高，从而有效地保证了文本分类的约简率和准确率。
　　4、将改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。实验表明，该方法在准确率和查全率上要好于其它方法，尤其在特征维数较高时取得了令人满意的测试效果。

著录项

作者
邱烨;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科计算机软件与理论
授予学位硕士
导师姓名刘培玉;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本特征选择; 网络信息过滤系统; 神经网络模型; 遗传算法; 互信息; 文本分类;

相似文献

中文文献
外文文献
专利

1. 模糊集技术在网络信息过滤系统中的应用研究 [J] . 尉永青 ,刘培德 . 西藏大学学报（社会科学版） . 2004,第004期
2. 基于遗传算法的网络信息过滤系统中的特征选择 [J] . 陆宏菊 ,刘培玉 ,崔嘉 . 信息技术与信息化 . 2007,第006期
3. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
4. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程师 . 2017,第012期
5. 基尼指数在文本特征选择中的应用研究 [J] . 林永民 ,朱卫东 . 计算机应用 . 2007,第010期
6. 文本聚类方法在网络入侵检测系统中的应用 [C] . 赵俊忠 ,黄厚宽 ,田盛丰 . 第三届全国CSCW暨第一届全国AIN学术会议 . 2002
7. 模糊遗传算法及其在网络信息过滤系统中的应用研究 [A] . 赵丽娜 . 2010

文本特征选择在网络信息过滤系统中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅