首页> 中文学位 >Web2.0环境下互联网信息过滤理论与方法研究
【6h】

Web2.0环境下互联网信息过滤理论与方法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪论

1.1 Web 2.0时代互联网现状

1.2信息过滤技术

1.2.1信息过滤技术背景

1.2.2 Web 2.0时代的信息过滤面临的挑战

1.3本文的研究内容

1.3.1综合多种媒体特征的信息过滤

1.3.2大规模文本数据的快速谱聚类算法

1.3.3 Web 2.0下互联网热点发现

1.4本文的组织

第2章基于综合媒体特征的信息过滤

2.1 研究现状与问题描述

2.1.1研究现状

2.1.2 问题描述

2.2算法详解

2.2.1 问题定义

2.2.2特征抽取

2.2.3分类算法

2.2.4特征选取算法

2.3 实验及系统分析

2.3.1 实验方案与评价准则

2.3.2实验结果及分析

2.4本章总结

第3章针对大规模数据集的快速谱聚类算法

3.1聚类算法综述

3.1.1 聚类算法分类及介绍

3.1.2谱聚类算法

3.2快速谱聚类算法

3.2.1谱聚类算法的瓶颈及出发点

3.2.2快速谱聚类算法

3.3实验及分析

3.3.1 数据集

3.3.2评价准则

3.3.3实验结果与分析

3.4本章总结

第4章 Web 2.0下互联网热点话题挖掘

4.1 引言

4.1.1 Web 2.0互联网环境

4.1.2话题发现与挖掘

4.1.3热点话题发现研究现状

4.2 Web 2.0下互联网热点挖掘算法

4.2.1 问题定义

4.2.2互联网模型

4.2.3互联网信息热度模型

4.2.4算法详解

4.3实验与分析

4.3.1实验系统

4.3.2实验数据集及参数设定

4.3.3实验结果与分析

4.4本章总结

第5章工作总结与未来展望

5.1 工作总结

5.2未来展望

参考文献

致 谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

互联网近年来得到了迅猛发展,伴随着Web2.0等技术的不断进步,互联网承载的应用与信息活动越来越多,人们对互联网的依赖程度也越来越高。在Web2.0时代,一方面,互联网上的媒体类型呈现多样化特点。多媒体信息携带的听觉和视觉信息与传统的文本信息相结合,进一步丰富了互联网上的信息内容和改善了用户浏览体验。另一方面,在Web2.0时代,用户为互联网的中心。互联网呈现出社会性与动态特性,大量动态的数据涌现。这些数据极大地丰富了互联网内容,给人们提供了众多的信息来源。如何针对多种媒体信息进行有效过滤,及如何从这些用户创造的数据中学习用户的习惯并过滤其中的热点信息,已经成为Web2.0下互联网的重要的研究课题。此外,海量的用户参与为互联网带来了海量数据,如何改进传统算法以适应这些海量数据成为重要的研究课题。
   本文的研究重点是Web2.0下信息过滤。首先分析了Web2.0下信息过滤任务面临的挑战,然后分别对多种媒体信息综合过滤、应用于海量数据的学习算法和挖掘Web2.0用户丰富的反馈数据进行了研究,并提出了应对这些问题的理论与方法。
   论文的主要研究工作与创新成果如下:
   针对Web2.0时代多种媒体信息并存的特点,提出了综合多种媒体特征的信息过滤算法。针对互联网中广告图片过滤问题,综合利用网页中文本信息、图片内容信息等,结合SVM和AdaBoost学习算法,有效地实现了对广告图片的过滤。算法提取了丰富的媒体内容特征、相关的页面布局特征和文本特征,并基于AdaBoost提出了特征选取办法,对特征集合进行筛选和有机的整合。通过实验证实了算法特征集选取的合理性及特征选取算法的可行性,并对比了各种特征的分类效果及分类有效性。
   基于Normalized Cut,提出了一种快速谱聚类算法FSC来对互联网上的海量的文本数据进行快速聚类。FSC首先利用GSASH算法将大规模的高维文本数据快速表示为图,然后利用AMG数值分析方法将谱分析对应的大规模特征值系统迭代化简为较小规模特征值系统,进而取得近似解,并从理论角度分析了这种近似的有效性。实验结果表明,FSC保持了谱聚类算法优点,并且成功的将算法复杂度降低到O(nlogn),进而可以应用到大规模文本聚类问题上来。
   基于热量扩散模型,提出了一种针对Web2.0环境下的信息热度评价与挖掘算法。针对Web2.0时代互联网呈现出的社会性与动态特性,对Web2.0时代的互联网进行建模;将互联网上用户的信息活动看作为热度活动,建立互联网热量扩散模型,利用用户反馈信息对互联网上的信息进行热度评估,并挖掘其中的热点;对热度模型进行了详细的定义,并证明了其稳定性和算法收敛性。实验结果表明,所提算法能很好地模拟互联网上的信息活动,并能有效地挖掘互联网热点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号