声明
摘要
图目录
表目录
第1章 绪论
1.1 课题背景
1.2 本文工作
1.3 本文组织
1.4 本文小结
第2章 相关工作
2.1 文本聚类
2.2 文本特征提取
2.2.1 文档频数特征选择
2.2.2 单词权特征选择
2.2.3 单词熵特征选择
2.2.4 主题特征选择
2.3 类别描述
2.3.1 基于统计的类别描述
2.3.2 基于外源数据的类别描述
2.3.3 基于聚类过程的类别描述
2.4 单词相似度计算
2.4.1 潜在语义分析方法(LSA,Latent Semantic Anslysis)
2.4.2 利用本体知识计算
2.4.3 利用大规模的语料计算
2.5 本章小结
第3章 问题描述及数据模型定义
3.1 问题描述
3.2 数据模型定义
3.3 本章小结
第4章 基于时间顺序兴趣集的用户相似度计算
4.1 用户相似度模型
4.2 用户相似度计算框架
4.2.1 兴趣集相似度
4.2.2 兴趣集序列相似度
4.2.3 用户相似度
4.3 分布式的单词相似度计算
4.3.1 单词相似度定义
4.3.2 单词相似度计算
4.4 本章小结
第5章 启发式的个人博客聚类
5.1 启发式的相似内容获取
5.1.1 类别表示源数据获取
5.1.2 基于目标博主的相似博客获取
5.2 综合特征生成
5.2.1 单词熵提取文本特征
5.2.2 基于LDA的主题特征
5.2.3 综合特征
5.3 基于博客平台数据的半自动化聚类簇描述
5.4 本章小结
第6章 系统设计与实现
6.1 系统结构
6.2 启发式数据搜索爬取模块
6.2.1 启发式离线搜索数据爬取模块
6.2.2 启发式在线搜索数据爬取模块
6.3 类别描述求解模块
6.4 相似词计算模块
6.5 用户相似度计算模块
6.6 聚类模块
6.7 本章小结
第7章 实验结果及分析
7.1 聚类评价方法
7.2 实验结果及结果分析
7.2.1 启发式个人博客聚类算法的比较实验
7.2.2 聚类簇描述的实验
7.3 本章小结
第8章 总结和展望
8.1 本文主要工作和贡献
8.2 未来研究工作展望
参考文献
致谢