首页> 中文学位 >启发式的快速个人博客聚类技术研究和实现
【6h】

启发式的快速个人博客聚类技术研究和实现

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 课题背景

1.2 本文工作

1.3 本文组织

1.4 本文小结

第2章 相关工作

2.1 文本聚类

2.2 文本特征提取

2.2.1 文档频数特征选择

2.2.2 单词权特征选择

2.2.3 单词熵特征选择

2.2.4 主题特征选择

2.3 类别描述

2.3.1 基于统计的类别描述

2.3.2 基于外源数据的类别描述

2.3.3 基于聚类过程的类别描述

2.4 单词相似度计算

2.4.1 潜在语义分析方法(LSA,Latent Semantic Anslysis)

2.4.2 利用本体知识计算

2.4.3 利用大规模的语料计算

2.5 本章小结

第3章 问题描述及数据模型定义

3.1 问题描述

3.2 数据模型定义

3.3 本章小结

第4章 基于时间顺序兴趣集的用户相似度计算

4.1 用户相似度模型

4.2 用户相似度计算框架

4.2.1 兴趣集相似度

4.2.2 兴趣集序列相似度

4.2.3 用户相似度

4.3 分布式的单词相似度计算

4.3.1 单词相似度定义

4.3.2 单词相似度计算

4.4 本章小结

第5章 启发式的个人博客聚类

5.1 启发式的相似内容获取

5.1.1 类别表示源数据获取

5.1.2 基于目标博主的相似博客获取

5.2 综合特征生成

5.2.1 单词熵提取文本特征

5.2.2 基于LDA的主题特征

5.2.3 综合特征

5.3 基于博客平台数据的半自动化聚类簇描述

5.4 本章小结

第6章 系统设计与实现

6.1 系统结构

6.2 启发式数据搜索爬取模块

6.2.1 启发式离线搜索数据爬取模块

6.2.2 启发式在线搜索数据爬取模块

6.3 类别描述求解模块

6.4 相似词计算模块

6.5 用户相似度计算模块

6.6 聚类模块

6.7 本章小结

第7章 实验结果及分析

7.1 聚类评价方法

7.2 实验结果及结果分析

7.2.1 启发式个人博客聚类算法的比较实验

7.2.2 聚类簇描述的实验

7.3 本章小结

第8章 总结和展望

8.1 本文主要工作和贡献

8.2 未来研究工作展望

参考文献

致谢

展开▼

摘要

博客平台作为现在人们记录分享生活的重要网络平台,对于个人来说,博客内容的正确归档描述具有重大意义,本文提出启发式的快速个人博客聚类技术,跟以往对于博客的聚类不同,本文主要针对个人特点,对于单独的个人博客进行聚类,并对聚类簇进行描述。
  本文根据个人博客内容特点,设计一种启发式的相似内容获取,用于用户的辅助聚类,其中相似内容获取是基于博客用户之间的相似度,本文提出一种基于用户兴趣集结合跟时间顺序密切相关的兴趣集序列的用户相似度模型,在此基础上获取相似内容。在类别描述上,本文不同于其他研究,提出一种根据自身博客平台数据的半自动化聚类簇描述方法,结合人工描述和自动描述的方法,事先利用主题提取技术提取类别源数据的主题,对其进行人工描述,然后再根据聚类簇结果的主题信息进行自动匹配,其中类别源数据来源于自身博客平台,更符合数据本身的特点。
  实验结果表明,在个人博客聚类场景下,启发式的快速博客聚类在准确率和召回率上都优于单纯采用聚类算法进行聚类,文中提出的结合人工描述和自动描述的聚类簇描述方法相比于传统自动描述在准确率的基础上也有更好的可读性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号