首页> 中文学位 >基于改进Single-Pass算法的热点话题发现系统的设计与实现
【6h】

基于改进Single-Pass算法的热点话题发现系统的设计与实现

代理获取

目录

声明

摘要

第一章 绪论

1.1 引言

1.2 国内外研究现状

1.3 本文的主要工作

1.4 本文结构安排

第二章 相关理论和技术

2.1 TDT相关知识

2.1.1 TDT中的基本概念

2.1.2 TDT的主要任务

2.1.3 TDT的评测方法

2.2 热点话题发现模型

2.3 文本聚类

2.4 本章小结

第三章 热点话题发现

3.1 热点发现的整体框架

3.2 信息采集

3.2.1 网络爬虫

3.2.2 内容抽取

3.3 信息预处理

3.3.1 中文分词技术

3.3.2 分词、词性标注

3.3.3 特征选择

3.3.4 文本的向量表示

3.4 信息挖掘

3.4.1 Single-Pass聚类算法

3.4.2 改进的Single-Pass算法

3.4.3 热度计算

3.5 抽取案例

3.6 本章小结

第四章 热点话题发现系统

4.1 系统概述

4.2 系统的开发平台与开发环境

4.3 系统数据库表设计

4.4 系统演示

4.5 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

互联网从出现到蓬勃发展至今在人们的经济社会生活中发挥着越来越重要的作用与影响,这是一个前所未有的时代,我们可以在这里享受到海量的信息。然而,在当前情况下,一方面我们能在这种大数据的情况下获取到更多的信息,而另一方面正是因为这种大数据的背景使得网络上的信息多而繁杂,不仅使得信息难以管理,更加大了我们管理和发现有价值的信息的难度。因此,拥有一种能让用户迅速获取自己所需信息的工具已成为了人们的急切需求。
  近几年来搜索引擎的快速发展,减轻了信息过载的压力,在此项技术中我们一般通过输入一些关键字来获取到对自己有用的信息,但是正因为他采用的是关键字匹配的技术,并且没有对结果进行过滤,所以返回的信息必将有很高的信息冗余度,一般只要包含有部分关键字的网页就作为结果被进行了返回,这使得结果中会包含很多实际不相关的网页,最后我们还不得不人工去筛选自己所需的信息造成人力时间的浪费。而对于热点问题,搜索引擎就变的更无能为力,现在的热点话题或事件一般通过网上投票或者一些业界人士的人工筛选产生,因此具有一定的主观性。
  针对以上的问题,通过分析现有的技术和成果,本文设计和实现了以下内容:
  (1)本文通过对热点话题发现的需求分析,结合相关知识构建了热点话题发现系统的整体系统框架,对系统在结构设计及处理流程方面遇到的问题进行了有效的解决。
  (2)在热点话题发现系统的构建实现过程中本文结合了国内外的相关技术和研究,分别对信息采集、信息预处理、话题发现、热点话题热度计算以及用户管理等模块进行了设计与实现,其中为了更好地提高系统性能,本文对其所运用的文本挖掘算法Single-Pass聚类算法在聚类策略、文本向量表示以及相似度计算等方面进行了改进,最后利用热度计算公式将发现的话题按照热度进行排序并利用web技术将相关信息进行了展示,最后表明本文经过这一系列的方法设计的系统可以抽取并发现一些热点话题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号