首页> 中文学位 >形式概念分析在突发事件新闻文本聚类中的应用
【6h】

形式概念分析在突发事件新闻文本聚类中的应用

代理获取

目录

摘要

第一章 绪论

1.1 课题研究的背景与意义

1.1.1 突发事件新闻文本聚类的来源和背景

1.1.2 文本聚类的主要应用

1.1.3 形式概念分析的研究现状

1.2 本文工作

1.2.1 研究的目标

1.2.2 研究的内容

1.2.3 论文的组织

第二章 形式概念分析用于文本聚类的理论基础

2.1 文本聚类理论

2.2 形式概念分析的相关理论

2.2.1 概念格的构造

2.2.2 概念格的简化

2.2.3 概念格的应用

2.3 本章小结

第三章 突发事件新闻文本分析

3.1 突发事件新闻文本特点及分类

3.2 突发事件新闻文本概念格分析

第四章 突发事件文本概念格的构造

4.1 新闻文本预处理

4.2 突发事件特征词选取

4.3 使用tf-idf方法计算新闻特征项权重

4.4 tf-idf方法的改进

4.5 建立突发事件文本形式背景

4.5.1 多值形式背景的构造

4.5.2 多值形式背景转化为单值形式背景

4.6 概念格构造

4.7 概念格的属性约简

4.8 本章小结

第五章 基于概念格的文本聚类

5.1 概念间的相似度计算

5.2 文本间的相似度计算

5.2.1 时间相似度计算

5.2.2 地点相似度计算

5.2.3 内容相似度计算

5.2.4 文本间的相似度计算

5.3 基于概念格的文本聚类

5.4 基于形式概念分析的突发事件新闻文本聚类流程图

5.5 本章小结

第六章 实验与实验结果分析

6.1 实验语料的准备

6.2 文本聚类处理流程示例

6.3 评测机制

6.4 实验结果及分析

6.5 本章小结

第七章 结论和展望

7.1 本文工作总结

7.2 今后研究工作的方向

参考文献

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

声明

展开▼

摘要

文本聚类是聚类方法与自然语言处理相结合在文本处理中的应用,是聚类分析领域的一个重要研究分支。随着近年来互联网新闻文本信息的急剧增多,文本聚类的方法得到了很广泛的应用和研究。然而针对当前文本信息结构和内容的复杂化,文本类型的多样化,传统的文本聚类方法在文本模型表示、特征选择等方面仍然存在不足之处。
  本文以从互联网上收集的2000-2009年期间发生的突发性新闻语料为基础,针对传统向量空间模型特征维数过高的缺点,提出将形式概念分析应用于文本聚类中,将web文档表示成形式背景,最后进行文本聚类。本文的主要工作如下:
  1.对突发事件新闻文本的特点进行了深入的分析,使用概念格模型表示突发事件新闻文本,改进了传统的向量空间模型表示文本的不足。
  2.改进了特征词权重tf-idf计算方法,在一定程度上提高了形式背景反映文本内容的真实性,最终提高了聚类的效果。
  3.针对突发事件新闻文本的特殊性,对相似度计算进行了改进,单独进行时间,地点,内容的相似度计算,最后将这三者结合起来表示文本间的相似度。
  4.设计并实现了基于形式概念分析的突发事件新闻文本聚类的实验系统。此实验系统对本文使用的聚类方法进行了验证。本文使用r,p,F1值进行评测,并与传统方法作了实验比较。实验结果表明,本文提出的将形式概念分析应用于突发事件新闻文本聚类可以改进聚类效果,并在一定程度上降低了聚类的复杂度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号