首页> 中文学位 >基于聚类分析的网络论坛舆情信息挖掘技术研究
【6h】

基于聚类分析的网络论坛舆情信息挖掘技术研究

代理获取

目录

基于聚类分析的网络论坛舆情信息挖掘技术研究

RESEARCH OF PUBLIC OPINION INFORMATION MINING ON BULLETIN BOARD SYSTEMS BASED ON CLUSTER ANALYSIS

摘 要

Abstract

第1章 绪论

1.1 课题来源

1.2 研究目的和意义

1.3 国内外研究现状

1.3.1 文本挖掘的应用领域

1.3.2 文本挖掘与相关研究工作的关系

1.4 本文研究内容及组织结构

第2章 文本挖掘的技术研究

2.1 网络舆情的概念

2.2 文本挖掘

2.3 文本聚类

2.4 文本表示模型

2.4.1 布尔模型

2.4.2 向量空间模型

2.4.3 概率检索模型

2.5 距离的计算方法

2.5.1 Pearson距离

2.5.2 Cosine距离

2.5.3 Minkowski距离

2.5.4 Kullback-Leibler距离

2.6 文本相似度

2.6.1 文本之间的相似度

2.6.2 文本簇之间的相似度

2.6.3 文本与文本簇之间的相似度

2.7 本章小结

第3章 文本聚类算法质量评价及分析

3.1 平面划分聚类法

3.1.1 K-Means聚类分析

3.1.2 K-Medoids聚类分析

3.1.3 最近邻聚类(Nearest Neighbour)

3.2 基于密度的聚类分析

3.3 层次聚类法

3.3.1 凝聚式层次聚类(HAC)

3.3.2 分裂式层次聚类

3.4 聚类算法质量评价标准

3.4.1 基于人工判定的指标

3.4.2 基于目标函数的指标

3.5 实验结果及分析

3.6 本章小结

第4章 BBS舆情信息挖掘系统预处理模块的设计与实现

4.1 BBS文档的采集

4.1.1 BBS站点信息提取

4.1.2 BBS文本信息存储

4.2 BBS文档的结构化处理

4.2.1 中文词法分析

4.2.2 停用词过滤

4.2.3 特征抽取

4.2.4 特征表示

4.2.5 权重计算

4.2.6 相似度计算

4.3 本章小结

第5章 BBS舆情信息挖掘系统的设计与实现

5.1 系统整体流程

5.2 数据预处理

5.3 基于聚类分析的BBS话题挖掘

5.3.1 基于聚类分析的话题识别

5.3.2 话题识别代价

5.3.3 热度评分

5.4 实验结果及其分析

5.4.1 话题识别实验

5.4.2 话题热度评价实验

5.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

近年来,Internet迅速发展及网络论坛(BBS,Bulletin Board System)的普及,为广大网络用户提供了一个自由交流的空间,BBS已成为表达民意的一个重要平台。但BBS中也存在一些污秽的语言,谩骂等不文明行为,甚至存在一些攻击国家、扰乱社会的言论。为了正确地引导社会舆论,净化网络环境,BBS舆情监控技术应运而生,为政府和网络管理部门提供了有效的管理手段,也便于政府及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。
  本文主要研究内容有:
  首先,分析了当前文本聚类分析中常用的几类方法和聚类算法评价标准,并对平面划分的两种典型算法通过实验进行性能比较。本文研究了 K-Means和K-medoids两种聚类算法在文本挖掘中的应用,并通过实验利用基于人工判定的指标对两类算法在聚类文档的准确率和召回率方面进行了性能比较。实验结果表明,与K-Means算法相比,K-medoids算法无论在准确率还是召回率方面都要高出5个百分点以上,且后者在处理异常数据和噪声数据方面更为鲁棒。在此基础上,对K-medoids算法进行了改进。由于反复计算类内距离之和使得K-medoids算法计算代价较高。针对这一问题,本文在聚类之前,预先计算所有对象之间的相似度,建立相似度矩阵,这样在计算类内距离时,通过查询相似度矩阵的方法,可以大大减少计算代价。
  其次,介绍了本文作者如何将非结构化的BBS文档转换为结构化的文本,BBS文本的预处理过程,主要包括中文词法分析,停用词过滤,文本的特征表示,文本特征选择,权重计算。
  最后,实现了 BBS热点话题挖掘系统。用爬虫程序和文本预处理将 BBS中的话题转换为结构化的文本形式,然后用K-medoids算法对话题进行聚类识别,选取识别代价最低的一次聚类结果用评价函数对话题进行热度排名,选出前十大热点话题。

著录项

  • 作者

    徐东亮;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 董开坤;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    聚类分析; 网络论坛; 舆情信息挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号