首页> 中文学位 >中文Blog热门话题检测与跟踪技术研究
【6h】

中文Blog热门话题检测与跟踪技术研究

代理获取

目录

中文Blog热门话题检测与跟踪技术研究

RESEARCH ON CHINESE BLOG HOT TOPIC DETECTION AND TRACKING

摘要

Abstract

第1章 绪论

1.1 课题背景和意义

1.2 几个基本概念

1.3 国内外研究现状和分析

1.4 论文的主要内容和组织

第2章 文本分类与聚类

2.1 文本分类技术

2.2 文本聚类技术

2.3 本章小结

第3章 Blog话题检测与跟踪设计

3.1 报道和话题的表示模型

3.2 特征项权重计算

3.3 相似度计算

3.4 话题检测算法

3.5 话题跟踪算法

3.6 实验结果

3.7 本章小结

第4章 Blog热门话题排序

4.1 排序特征选择

4.2 排序方法

4.3 实验结果

4.4 本章小结

第5章 分布式处理技术

5.1 分布式的总体结构

5.2 通信模块设计

5.3 具体实现技术

5.4 实验结果

5.5 本章小结

结论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

Blog(博客)作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,也使得Blog领域里的信息量成倍增长。为了人们能够快速的从Blog领域有意义的知识,迫切需要对Blog领域的信息进行挖掘。目前,Blog领域的内容挖掘技术主要是从Blog中抽取关键信息,获取统计信息,并在此基础上进行分析的过程。话题检测与话题跟踪技术是基于事件的信息组织技术,以实现对新闻报道信息流中话题的自动检测以及对己知话题的动态跟踪。
  本文面向Blog领域,使用话题检测、话题跟踪和热门话题排序技术对其话题信息进行挖掘,将Blog信息按照所表达的主题进行归类和组织,有效地管理和组织了Blog信息,可以使用户在动态变化的环境下查看自己感兴趣或需要的信息,尽量避免涉足大量的其他信息,并对自己感兴趣的话题进行追踪了解的目的。
  本文首先介绍了话题检测和话题跟踪的基础技术文本聚类和分类技术,并针对Blog领域信息的特点设计了话题检测和话题跟踪技术。在相似度计算中提出了词形和词频相结合的方法和一种新的标题相似度和正文相似度相结合的方法。在提取话题的名称中提出采用tf*df的权重计算方法抽取权重最大的几个词作为话题的名称。本文对Blog领域使用的话题检测和话题跟踪的实验结果进行了测试,实验验证了本文对相似度的两种改进的有效性和在Blog领域使用话题检测和话题跟踪技术的可行性。在热门话题排序技术中,通过对Blog网页的分析,选择话题中的文章数、评论数、评论人数作为排序特征,并提供了四种排序的方法。为了满足处理大规模数据的需求,本文对话题检测,热门话题排序和话题跟踪技术进行分布式处理,实验表明分布式处理能够有效的提高系统的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号