首页> 中文学位 >基于web挖掘技术的网页分类研究
【6h】

基于web挖掘技术的网页分类研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1 选题背景

1.2 研究意义

1.3 论文的主要工作

1.3.1 基于分类技术的用户意向挖掘

1.3.2 社会化标签分布及表示

1.3.3 基于社会化标签的网页分类研究

1.4 论文的结构组织

第二章 Web挖掘和分类的相关技术

2.1 Web挖掘概述

2.1.1 Web内容挖掘

2.1.2 Web结构挖掘

2.1.3 Web使用挖掘

2.2 Web 2.0和娱乐意向挖掘

2.2.1 娱乐意向挖掘

2.2.2 Web2.0和社会化标签

2.3 网页分类的技术

2.3.1 数据模型

2.3.2 特征选择

2.3.3 文本分类的算法

2.3.4 文本分类评价

2.4 本章小节

第三章 基于分类技术的用户意向挖掘

3.1 问题描述

3.2 娱乐意向EI定义

3.3 娱乐意向学习模型

3.3.1 数据集的获取

3.3.2 网页娱乐兴趣识别

3.4. 实验分析

3.4.1 评价标准

3.4.2 实验结果及分析

3.5 本章小结

第四章 基于社会化标签网页分类研究

4.1 问题描述

4.2 相关研究工作

4.2.1 社会化标签研究

4.2.2 网页分类研究

4.3 基于标签元数据的网页分类

4.3.1 社会化标签与网页分类的结合

4.3.2 社会化标签表示

4.3.3 基于虚拟文档的网页分类

4.3.4 基于社会化标签的网页分类模型

4.4 实验分析

4.4.1 数据集

4.4.2 分类器和特征选择

4.4.3 评价标准

4.4.4 实验结果

4.5 本章小结

第五章 总结与展望

5.1 本文工作总结

5.2 未来工作展望

致谢

参考文献

附录 已发表论文

展开▼

摘要

随着计算机硬件存储能力和软件环境的不断提高,万维网(World Wide Web)数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变得更加复杂。万维网数据的海量、异构和分布性等特点为该领域的研究提出挑战。近年来,Web挖掘已经引起了信息产业界的极大关注,其主要原因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息和知识。用户在线活动潜在目标是多样化的。理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的意向来摆放娱乐产品。近年来Web2.0的话题在各界都引起了广泛地讨论,网络上Web2.0相关主题的应用正在兴起。它应用包括以用户为中心的发布和知识管理平台,如:维基(Wikis),博客(Blogs),和社会化书签网站,如Del.icio.us和Flickr。社会化标签服务不仅为用户标注提供友好的用户界面,而且允许用户在网络上共享这些标签。本文结合网页内容和标签建立虚拟文档对网页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。主要研究内容如下:
   ⑴用户娱乐意向挖掘。理解用户在线活动的目标和意向为信息提供者带来很大帮助。本文对娱乐意向进行定义,提出了基于网页内容建立机器学习模型学习用户娱乐意向的框架。基于该框架,通过分类算法构建从网页来获取用户的娱乐意向模型。实验结果表明,出现频率高的特征词更大比例具有娱乐意向,网页娱乐意向识别能力取得满意效果。
   ⑵社会化书签的特点及表示。标签作为描述网页的关键字,反映了从用户角度对网页内容的理解,为网页提供了丰富的元数据。本文分析社会化标签系统特点及规律性,建立用户、标签和网页这种多关系异构对象的三部图,并对网页标签表示进行定义。
   ⑶基于社会化标签网页分类。在社会化标签环境下,通常用户根据同一类的标签所标注的网页属于同一类。相应的,用户对同一类网页标注时,所用的标签是同一类的。因此,本文提出了一种基于社会化标签构造网页虚拟文档的表示方法。构建对网页局部文本、网页标签和虚拟文档进行分类的模型。通过实验证实了社会化书签对网页分类的作用,基于虚拟文档的分类算法取得了满意的效果。

著录项

  • 作者

    龚畅;

  • 作者单位

    江南大学;

  • 授予单位 江南大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 钱雪忠,钱炜坤;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;TP311.13;
  • 关键词

    计算机网络; 网络服务; 数据挖掘; 网页分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号