首页> 中文学位 >基于Web内容的用户兴趣挖掘技术研究
【6h】

基于Web内容的用户兴趣挖掘技术研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究背景

1.2兴趣挖掘的研究现状

1.3本文的主要工作及章节安排

第2章Web用户兴趣挖掘模型

2.1 Web挖掘

2.1.1 Web挖掘的意义

2.1.2 Web挖掘的分类

2.1.3 Web挖掘的数据来源

2.1.4 Web挖掘的主要流程

2.2用户兴趣挖掘的途径与方法

2.3 KHN用户兴趣挖掘方法

2.3.1兴趣定义

2.3.2 KHN兴趣挖掘模型

2.4 KHN用户兴趣模型分析

2.4.1页面兴趣提取

2.4.2页面相似度评价

2.4.3文本聚类

2.5本章小结

第3章基于SWN理论的关键字提取

3.1引言

3.2基本概念

3.3小世界网络模型及其在文本关键字提取中的应用

3.3.1小世界网络模型

3.3.2小世界网络模型在文本关键字提取中的应用

3.4关键字提取算法

3.4.1算法的处理思想

3.4.2文档语义结构图生成算法

3.4.3文档关键字提取算法

3.4.4算法的时间复杂度分析

3.5本章小结

第4章兴趣挖掘方法

4.1文本特征选择

4.2文本相似度计算

4.3文本聚类

4.3.1 GN算法

4.3.2 Newman算法

4.3.3基于图的文本聚类算法

4.4兴趣提取

4.5本章小结

第5章实验系统设计与实现

5.1实验原型系统的设计目标及原则

5.1.1实验原型系统的设计目标

5.1.2实验原型系统的设计原则

5.2功能结构设计

5.3关键字提取模块实现

5.4兴趣提取模块实现

5.4.1构图子模块实现

5.4.2聚类子模块实现

5.4.3兴趣生成子模块实现

5.5 Web用户感兴趣页面的捕获模块

5.5.1软件捕获数据包技术

5.5.2 Winpcap简介

5.5.3捕获Web用户感兴趣的页面

5.6实验系统的运行结构

5.7实现环境

5.8本章小结

第6章实验结果与分析

6.1数据集和实验环境

6.2关键字提取系统

6.3文本聚类

6.4兴趣提取

6.5本章小结

第7章结论与展望

7.1本文总结

7.2展望

参考文献

附录

攻读学位期间取得的研究成果

致谢

展开▼

摘要

本文着重从以下几方面进行了研究: (1)关键字提取技术。基于复杂网络理论中的小世界网络模型,提出一种新的关键字提取方法。主要引入小世界网络模型理论中的平均最短路径长度变化量和簇系数变化量来刻画分词的重要性,进而通过适当计算获得文本中的关键字。 (2)文本相似性度量。本文提出的一种新的基于语义的文本相似性度量方法,该方法利用了《知网》的词语语义相似度计算工具。首先计算不同文本中关键字之间的语义相似度,然后进行统计得到文本相似度。该方法有效地结合语义知识,减少了同义词对计算结果的干扰并降低特征项数,为后续的文本聚类奠定良好的基础。 (3)文本聚类技术。基于复杂网络理论中的社团结构发现方法提出一种无监督的文本聚类算法。通过计算每一对文本的相似度,我们构造了一个文本相似关系图,然后使用新的图聚类算法-Newman算法有效地识别文本簇。 (4)兴趣表示和提取。本文提出基于加权特征向量的用户兴趣表示和提取方法。特征向量的元素采用关键字表示。通过统计关键字在文本簇中出现的情况,得到关键字的权值,从而有效地分析出用户兴趣。为了测试兴趣挖掘方法的效果,我们设计和实现了一个兴趣挖掘实验系统,该系统实现了关键字提取、聚类分析以及兴趣提取的算法。核心算法的实验结果表明相关算法是有效的。

著录项

  • 作者

    周雅夫;

  • 作者单位

    西安邮电学院;

  • 授予单位 西安邮电学院;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 马力;
  • 年度 2008
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.01;
  • 关键词

    网络理论; 小世界网络; 语义; 关键字提取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号