基于聚类分析的网络论坛舆情信息挖掘技术研究
RESEARCH OF PUBLIC OPINION INFORMATION MINING ON BULLETIN BOARD SYSTEMS BASED ON CLUSTER ANALYSIS
摘 要
Abstract
第1章 绪论
1.1 课题来源
1.2 研究目的和意义
1.3 国内外研究现状
1.3.1 文本挖掘的应用领域
1.3.2 文本挖掘与相关研究工作的关系
1.4 本文研究内容及组织结构
第2章 文本挖掘的技术研究
2.1 网络舆情的概念
2.2 文本挖掘
2.3 文本聚类
2.4 文本表示模型
2.4.1 布尔模型
2.4.2 向量空间模型
2.4.3 概率检索模型
2.5 距离的计算方法
2.5.1 Pearson距离
2.5.2 Cosine距离
2.5.3 Minkowski距离
2.5.4 Kullback-Leibler距离
2.6 文本相似度
2.6.1 文本之间的相似度
2.6.2 文本簇之间的相似度
2.6.3 文本与文本簇之间的相似度
2.7 本章小结
第3章 文本聚类算法质量评价及分析
3.1 平面划分聚类法
3.1.1 K-Means聚类分析
3.1.2 K-Medoids聚类分析
3.1.3 最近邻聚类(Nearest Neighbour)
3.2 基于密度的聚类分析
3.3 层次聚类法
3.3.1 凝聚式层次聚类(HAC)
3.3.2 分裂式层次聚类
3.4 聚类算法质量评价标准
3.4.1 基于人工判定的指标
3.4.2 基于目标函数的指标
3.5 实验结果及分析
3.6 本章小结
第4章 BBS舆情信息挖掘系统预处理模块的设计与实现
4.1 BBS文档的采集
4.1.1 BBS站点信息提取
4.1.2 BBS文本信息存储
4.2 BBS文档的结构化处理
4.2.1 中文词法分析
4.2.2 停用词过滤
4.2.3 特征抽取
4.2.4 特征表示
4.2.5 权重计算
4.2.6 相似度计算
4.3 本章小结
第5章 BBS舆情信息挖掘系统的设计与实现
5.1 系统整体流程
5.2 数据预处理
5.3 基于聚类分析的BBS话题挖掘
5.3.1 基于聚类分析的话题识别
5.3.2 话题识别代价
5.3.3 热度评分
5.4 实验结果及其分析
5.4.1 话题识别实验
5.4.2 话题热度评价实验
5.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
哈尔滨工业大学硕士学位论文原创性声明
哈尔滨工业大学硕士学位论文使用授权书
致谢