首页> 中文学位 >基于遗传算法与模糊聚类的网络信息过滤系统的研究
【6h】

基于遗传算法与模糊聚类的网络信息过滤系统的研究

代理获取

目录

文摘

英文文摘

声明

第1章概论

1.1课题的背景和意义

1.1.1课题研究背景

1.1.2课题研究意义

1.2信息过滤研究现状

1.3本文创新点

第2章相关理论与技术

2.1遗传算法

2.1.1遗传算法概述

2.1.2遗传算法产生与发展

2.1.3标准遗传算法构成要素

2.1.4模拟退火遗传算法

2.2模糊聚类知识

2.2.1模糊聚类理论发展

2.2.2模糊矩阵聚类分析

2.3信息过滤关键技术

2.3.1分词技术

2.3.2特征选择

2.3.3文本表示模型

2.3.4权重计算

2.4本章小结

第3章基于模糊聚类的遗传算法研究

3.1基于遗传算法的信息过滤

3.1.1编码及初始种群的产生

3.1.2适应度函数

3.1.3基本遗传操作

3.1.4模拟退火操作

3.1.5遗传参数的设定及终止条件

3.2模糊聚类分析

3.2.1模糊聚类的引入

3.2.2训练文本的模糊聚类

3.2.3聚类结果评价参数

3.3基于模糊聚类的遗传算法

3.3.1遗传训练

3.3.2适应度函数

3.3.3基于模糊聚类的遗传算法训练步骤

3.4本章小结

第4章基于遗传算法与模糊聚类的信息过滤系统的实现

4.1系统结构

4.2系统主要模块

4.3主要界面与过滤效果图示

4.3.1主要界面介绍

4.3.2过滤效果图示

4.4评价标准及测试数据集

4.4.1评价标准

4.4.2测试数据集

4.5系统测试及结果分析

4.5.1抗干扰测试

4.5.1有效性测试

4.6本章小结

第5章结束语

5.1本文主要工作

5.2存在的问题

5.3进一步的工作

参考文献

攻读硕士学位期间的主要成果

致谢

展开▼

摘要

随着Internet的发展和应用,越来越多的商务、日常活动通过Internet进行,网络与人们的生活越来越紧密。然而,网络是双面的,人们在享受网络所带来便利的同时,不可避免地接触到大量不良信息;另外,基于Internet所固有的开放性、动态性和异构性,用户很难准确快捷地从Internet上获取所需信息。这就需要在浩如烟海的动态信息中过滤掉不符合用户信息需求的有害、无用信息,把不相关信息减至最少。因此,网络信息过滤技术已经成为当前研究的热点之一。 如何获得用户的兴趣模板,并依据模板对过滤文档分类,是网络信息过滤中的关键技术。目前常采用文本分类中的相关技术来实现,如:Rocchio、K-元最近邻居、贝叶斯、支持向量机以及遗传算法(GA)等方法。GA在网络信息过滤中的应用主要是为了获得用户的兴趣模板,其效果与适应度函数相关。当前的适应度函数多采用以求个体相似度为基础的方法对种群进行评价。这种方法在评价时,重点在种群个体的相似程度评估上,没有对个体的类别属性进行评价,也没有考虑到特征的典型性及特征包含的类别信息方面的内容,所以获得的用户模型在过滤时效果不是很理想。 1965年,Zadeh提出模糊集理论之后,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性描述,能更客观地反映现实世界。因此,在基于遗传算法的信息过滤中,引入模糊聚类技术来评价,能够更多的考虑到各特征项所属类别的非绝对性、特征的典型性及所包含的类别信息,从种群个体的类别属性上进行评价,从而可获得更准确的用户兴趣模板。 本文在遗传算法中引入了模糊聚类的思想,从模糊聚类的角度对基于GA的信息过滤系统中种群个体进行评价,提出一个基于模糊聚类的遗传算法,然后将该算法应用于信息过滤中,实现了基于遗传算法与模糊聚类的信息过滤系统。最后,在该系统中对其有效性进行了验证。本文具体工作如下: 1.将模糊聚类技术融入遗传算法,对个体进行评价。在计算适应度之前,先采用个体所选择的特征子集将训练文本表示成向量,然后采用模糊相似矩阵直接聚类法对其聚类,最后根据聚类的效果来计算适应度。这种评价方法从个体对文本类别的判定能力方面评价个体,更多的考虑到特征的典型性及所包含的类别信息方面的内容。 2.提高了算法的抗干扰性。适应度函数通过对模糊聚类结果的正确率和紧凑程度两个方面评价的综合来计算适应度值。该函数设置了一个w参数。调整w的取值,可以降低适应度函数对训练文本集中干扰文本的敏感程度,从而提高了算法的抗干扰性。 3.实现了基于遗传算法与模糊聚类的网络信息过滤系统。采用本文中所提出的基于模糊聚类的遗传算法学习训练文本,通过对种群个体进行评估,经过一定代数的迭代训练获得用户的兴趣模板,然后采用改进的Sim函数对待过滤文档比较分类,最终实现信息过滤。通过该系统验证了该方法的有效性。 文中通过从模糊聚类角度评价种群个体,提出了基于模糊聚类的遗传算法。经试验验证,该算法在准确率和F1测度方面均有明显的提高。

著录项

  • 作者

    陆宏菊;

  • 作者单位

    山东师范大学;

  • 授予单位 山东师范大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 刘培玉;
  • 年度 2008
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.08;
  • 关键词

    遗传算法; 模糊聚类; 网络信息过滤系统;

  • 入库时间 2022-08-17 11:04:43

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号