首页> 中文学位 >基于话题检测与跟踪的话题搜索技术研究
【6h】

基于话题检测与跟踪的话题搜索技术研究

代理获取

目录

基于话题检测与跟踪的话题搜索技术研究

THE RESEARCH ON TOPIC SEARCH TECHNOLOGY BASED ON TOPIC DETECTION AND TRACKING

摘要

Abstract

第1章 绪论

1.1 课题研究的背景及意义

1.2 国内外研究现状

1.3 本文研究内容及组织结构

第2章 话题搜索相关知识和关键技术分析

2.1 话题检测与跟踪基础知识概述

2.2 话题检测与跟踪关键技术

2.3 搜索引擎关键技术

2.4 本章小结

第3章 面向网络新闻的话题检测与跟踪

3.1 数据获取及预处理

3.2 话题检测算法

3.3 话题跟踪算法

3.4 实验结果

3.5 本章小结

第4章 面向话题的搜索技术

4.1 话题信息格式

4.2 话题索引与检索

4.3 话题排序

4.4 话题搜索系统处理过程

4.5 话题搜索系统演示

4.6 本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

随着互联网的迅速普及,互联网已经成为一种新兴媒体,与传统的报纸、电视等信息传播媒介相比,网络上的信息传播时间短、突发性强、互动性好。尤其是互联网上发布的新闻信息更能体现这些特点。人们也逐渐开始习惯在网络上浏览新闻,关注自己感兴趣的话题或搜索诸如“最近都发生了什么大事”这样的信息。为了让人们更加快速的从网络上获取信息,需要对网络新闻信息的内容进行深入挖掘,实现对新闻报道信息流中话题的自动检测,并对已有话题进行跟踪,提供以话题为单位的信息搜索服务。
  本文在对话题检测与跟踪这一技术进行研究的基础上,将其应用到Web新闻领域,通过话题检测、话题跟踪技术对新闻报道信息的内容进行挖掘,将报道同一话题的新闻组织到一起,并使用信息检索领域的索引以及检索技术对抽取到的话题信息进行处理,最终提供一种话题搜索服务。
  本文首先介绍了话题检测与跟踪中的相关概念和文本聚类、文本分类等关键技术,并对搜索引擎涉及的关键技术进行了阐述;然后对数据获取及预处理涉及的新闻页面采集、新闻信息抽取、新闻报道的模型表示进行了说明;针对 Web新闻领域信息的特点设计了话题检测与话题跟踪算法,根据词性的不同赋予词语不同的权值,对余弦相似度计算公式进行了改进,通过实验验证了改进后的相似度计算公式对算法性能的提高,并在不同阈值下对话题检测与跟踪算法进行了测试;在话题搜索模块的实现过程中,提出了一种话题信息格式,并对这种结构化的话题信息建立了索引,实现了按内容相关性和按时间顺序进行排序的两种检索结果排序方法,给出了对互联网真实语料的处理结果;最后对系统的整体结构设计进行总结,并展示了部分演示界面。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号