首页> 中文学位 >面向文本数据的话题检测与追踪系统的设计与实现
【6h】

面向文本数据的话题检测与追踪系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 论文结构

2 话题检测与追踪相关技术研究

2.1 基于Heritrix构建特定站点爬虫

2.2 中文分词

2.3 常见聚类算法

2.4 本章小结

3 话题检测与追踪系统设计

3.1 话题检测与追踪框架

3.2 构建关键字共生关系谱图

3.3 基于关键词共生关系的降维算法

3.4 话题特征提取

3.5 话题检测

3.6 话题追踪

3.7 本章小结

4 话题检测与追踪系统实现与评测

4.1 话题检测模块实现与结果

4.2 话题追踪模块实现与结果

4.3 本章小结

5 总结与展望

5.1 总结

5.2 未来工作展望

致谢

参考文献

展开▼

摘要

基于关键词匹配的搜索引擎会返回大量与给定话题无关的记录,而从这些记录中找出与特定话题相关的记录需要大量的时间和精力。因此,基于话题的信息过滤成为了一个十分有意义的研究领域。传统的话题检测与跟踪主要通过文档的层次聚类或者关键词关于文档的分布信息的聚类实现。但这些方法存在无法处理在线文档流、存储开销大、计算复杂度高的缺陷。
  如果两个关键词语在很多文档中共同出现,那么这两个关键词属于相同的话题的概率就很高。本文基于描述关键词的共生关系的谱图研究话题的检测与跟踪技术。对文档分词后构建关键词的共生关系谱图,并对共生关系谱图进行改进,从而保证信息量高的关键词在共生关系谱图中有较大的影响。为了过滤共生关系中的噪声数据,并降低后续基于关键词的特征向量进行分析的时间和空间开销,根据共生关系谱图将关键词投影到低维的特征空间,并尽可能维持关键词的共生关系。在低维空间中通过软聚类的方式分析关键词与话题的相关性,符合关键词能与多个话题相关联的事实,关键词的软聚类分析结果为话题的特征提取建立了基础。最后,通过计算话题和文档的特征向量之间的相关性程度完成话题检测与追踪的任务,并利用反馈信息动态更新话题的特征描述以使话题检测与更新系统具备知识自适应的能力。
  实验结果表明,基于关键词共生关系的话题检测与跟踪算法在准确性、效率和知识自适应等方面都得到了提升。下一阶段,在同样的数据集中将本系统与其他话题检测系统做对比试验分析,分析性能的优劣,并在关键词共生关系的基础之上,研究关键词上下文关系看是否可以提供系统性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号