首页> 中文学位 >教育领域BBS的热点话题发现研究——以西祠胡同教育版为例
【6h】

教育领域BBS的热点话题发现研究——以西祠胡同教育版为例

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 研究现状

1.2.1 话题发现

1.2.2 BBS热点话题发现

1.3 本文的研究重点

1.4 本文的结构安排

第2章 相关理论和技术研究

2.1 热点话题发现的流程

2.2 BBS概述

2.2.1 BBS的相关概念

2.2.2 BBS的文本特点

2.3 网络数据采集

2.3.1 随机搜索

2.3.2 垂直搜索

2.3.3 定向搜索

2.4 Web信息抽取

2.4.1 Web信息抽取概念

2.4.2 Web信息抽取技术分类

2.4.3 Web信息抽取的评价指标

2.5 文本表示

2.5.1 分词

2.5.2 文本表示模型

2.5.3 特征选择方法

2.5.4 文本相似度计算

2.6 基于时间推移的演化理论

2.7 文本聚类算法

2.7.1 Single-Pass单遍聚类算法

2.7.2 基于语义或本体的聚类算法

2.7.3 增量聚类算法

2.7.4 层次聚类算法

2.7.5 K-means聚类算法

2.7.6 聚类的评价指标

2.8 本章小结

第3章 教育BBS热点话题发现算法设计

3.1 教育BBS热点话题发现系统设计

3.1.1 教育BBS热点话题发现的目标

3.1.2 教育BBS热点话题发现的过程

3.2 教育BBS热点话题发现的方法

3.2.1 BBS教育话题表达规律

3.2.2 BBS数据采集

3.2.3 BBS信息抽取

3.2.4 BBS文本表示

3.2.5 BBS话题发现

3.2.6 BBS热度评价

3.3 本章小结

第4章 教育BBS热点话题发现系统的实现与结果分析

4.1 实验语料与实验环境

4.2 系统数据库设计

4.3 教育BBS信息抽取方法实现与结果分析

4.3.1 关键算法实现

4.3.2 实验数据

4.3.3 实验结果与分析

4.4 教育BBS单遍聚类方法实现与结果分析

4.4.1 聚类算法的实现

4.4.2 实验数据

4.4.3 实验结果与分析

4.5 教育BBS热点话题发现系统的整体实现

4.5.1 界面展示

4.5.2 功能说明

4.6 本章小结

第5章 总结与展望

5.1 本文总结

5.2 工作展望

参考文献

致谢

展开▼

摘要

无处不在的网络、无处不在的通讯和堆积如山的文档,构成了当今社会信息爆炸的基本特征。BBS是目前最流行的网上讨论场所之一,越来越受到网络用户的欢迎。因此,在Web论坛上会产生大量的新的内容,这也使得人们对信息的获得变得越来越难。当然,人们打开论坛,首先关心的是该论坛内讨论最激烈最有价值的话题是什么。但是当面对如此庞大且繁杂的数据,获取这种热门的话题如此之难。为了解决这个难题,本文提出了基于语义和时间推移的单遍聚类方法来发现BBS中的热点话题,该方法是在深入分析和研究BBS的结构、语言模式、文本特点的基础上得出的。
   首先,针对BBS论坛上的数据设计了相应的封闭式的网络蜘蛛,将Web网页上的帖子相关网页下载到本地供以后使用。以西祠胡同的十个教育版块为例,抓取了每个版块前十页的内容。
   其次,针对抓取的信息进行信息抽取,并将抽取的结构化的数据信息存入本地数据库中。这里针对西祠胡同页面的语言模式特点和网页结构分布的规律,提出了一种基于网页结构和正则匹配的BBS信息抽取方法,该抽取方法能够高效且准确的抽取出BBS中的信息。
   接着,由于BBS文本的非规范性导致很多帖子的内容根本没有实际的含义,因此在文本表示时首先需进行预处理,包括分词、去停用词、去噪等。然后对剩下的词通过同义词词林进行语义的映射,将BBS中非规范的词转成相对规范的词,有助于帖子语义信息的处理,将用不同表达方式表达的语句映射为类似方式表达的语句。
   紧接着,对已经处理好的信息进行基于单遍聚类处理以发现话题。在进行聚类处理时考虑到帖子的时间特性及内容特性,认为每个帖子的热度是随着时间的发展而降低的,因此采取一种基于语义及时间推移的单遍聚类方法,在聚类的同时计算每个主题的能量值,话题的总能量值就是组成该话题帖子的能量值之和。
   最后,对于前面已经生成的话题,进行热度的排序。这里热度高低的评价方法包含两个部分,一是用户的关注度,二是话题的爆发性。用户的关注度可从统计的角度来计算,包括浏览数、回复数、参与人数等。话题的爆发性即突发性,可从话题的第一回复时间和平均回复时间来计算。
   基于以上的研究,本文设计了面向教育领域BBS的热点话题发现系统模型,在设计模型的过程中对每种算法也进行了实验研究,实验证明本文的方法是有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号