首页> 中文学位 >文本特征选择在网络信息过滤系统中的应用研究
【6h】

文本特征选择在网络信息过滤系统中的应用研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章 绪论

1.1 背景意义

1.2 网络信息过滤

1.3 本文的研究内容

第二章 网络信息过滤系统的关键技术

2.1 数据包截获

2.2 文本表示以及分词技术

2.3 特征选择的框架

2.4 文本分类方法

2.5 本章小结

第三章 信息过滤中的文本特征选择算法及改进研究

3.1 常用的特征选择方法

3.2 互信息方法的改进

3.3 遗传算法简介

3.4 一种新的特征选择算法—MI-GA 组合算法

3.5 实验与结果分析

3.6 本章小结

第四章 文本特征选择在网络信息过滤系统中的实现

4.1 网络信息过滤系统的设计

4.2 系统主要模块的实现

4.3 网络信息过滤效果

4.4 本章小结

第五章 总结与展望

5.1 本文的工作总结

5.2 进一步的工作

参考文献

在读期间发表的论文及参加的项目

致谢

展开▼

摘要

如今,网络信息资源的获取成为人们关注的重点,有价值的信息已经成为一种新的财富资源。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术,能够在较大的程度上解决信息杂乱的现象,方便用户准确地定位所需的信息。其中,特征选择方法是目前网络信息过滤领域的研究热点之一,也是本文所研究的主要内容。
  本文主要针对信息过滤系统中特征选择算法的相关内容,对网络信息过滤系统的研究背景进行了分析。研究了网络信息过滤系统中的关键技术,提出了一种新的方法—神经网络模型来表示文本向量空间;然后对几种特征选择方法的优缺点进行了详细的研究和分析,并对互信息方法的不足进行了改进;将改进的互信息与传统的遗传算法相结合,提出了MI-GA方法,并进行了实验的验证;最后把改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。具体研究内容如下:
  1、提出了神经网络方法来表示文本向量空间,可以更好的达到文本降维目的。
  神经网络模型指把文本的向量空间表示转化为神经网络的表示形式。通过对文本进行切词后,每一个词认为是一个神经元,将众多神经元输入到神经网络中进行优化,经过网络中间层的处理以后,输出得到最优的特征子集,这样就达到了降维的目的。采用神经网络的表示法比较合适的领域大多数是根据非常复杂的文本分类进行推理以及需要表示事件状况、性质以及动作之间的关系的领域。把神经网络应用在信息科学领域等许多方面己显示出巨大潜力和广阔的应用前景。
  2、针对特征选择中的互信息方法的不足进行了改进。
  对互信息方法的优点和缺点进行了详细分析。互信息的缺点在于,没有考虑词出现的频率,受临界特征的概率影响较大从而造成了互信息评价函数常倾向于选择稀有单词。对其不足进行了改进,并比较了新旧两种互信息方法。
  3、将改进的互信息与传统的遗传算法相结合,提出了MI-GA方法。
  提出了把改进的互信息与传统的遗传算法相结合,即 MI-GA方法。从文本分类的效果出发,把 MI-GA方法进行了系统验证,实验结果达到了预期目标,在查全率、准确率和F1测度三个方面都有不同程度的提高,从而有效地保证了文本分类的约简率和准确率。
  4、将改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。实验表明,该方法在准确率和查全率上要好于其它方法,尤其在特征维数较高时取得了令人满意的测试效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号