首页> 中文学位 >时态文本数据的周期性挖掘研究
【6h】

时态文本数据的周期性挖掘研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究现状

1.2.1 文本挖掘研究现状

1.3.2 时态数据挖掘研究现状

1.3.3 周期模式挖掘研究现状

1.3 研究目的和意义

1.4 本文研究内容和论文组织结构

1.4.1 本文研究内容

1.4.2 论文组织结构

2 多粒度时间下的文本数据模型

2.1 文本表示

2.1.1 文本数据预处理

2.1.2 特征表示和特征抽取

2.2 时间的基本概念与性质

2.2.1 时态型的定义

2.2.2 时间粒度的定义

2.3 文本周期模型构造

2.4 本章小结

3 多粒度时间下的文本数据周期研究

3.1 严格周期模式

3.2 宽松周期模式

3.3 支持度和置信度

3.4 本章小结

4 多粒度时间下的文本数据周期模式挖掘算法

4.1 周期模式挖掘定义

4.2 周期模式挖掘算法

4.2.1 挖掘频繁特征项集

4.2.2 周期长度挖掘算法

4.3 实验及分析

4.3.1 挖掘目标

4.3.2 数据准备

4.3.3 结果分析

4.4 本章小结

5 总结与展望

参考文献

致谢

攻读学位期间主要科研成果

展开▼

摘要

生活中的信息随时间不断变化,数据库中记录的信息大都也带有时间维,对带有时间维的数据进行挖掘逐渐成为数据挖掘领域一个非常重要研究课题,周期模式作为时态数据库中用于理解时态数据的一个非常有意义的特征,可以很好的反映事件演变规律,指导现在的生活,越来越受到国内外学者的关注。同时,生活中的信息80%以文本形式存在,然而,目前很少有人研究带有时间维的文本数据,因此考虑文本数据的时间属性,研究时态文本数据的周期模式会是一个非常有趣而且有意义的研究方向。
   本文从以下几个方面对文本周期进行了研究:
   (1)从文本挖掘、周期模式挖掘的研究现状引入了文本周期模式挖掘的研究现状和不足,提出了本文的研究内容;
   (2)在时态型、时态因子、时间粒度的基础上,给出了多粒度时间间隔和粒度转换的定义和性质,构造了一个多粒度时间下的文本周期模型;
   (3)在多粒度时间间隔的基础上提出了周期长度固定不变的严格周期模式和周期长度可以在一定时间段范围内波动的宽松周期模式。并定义了周期模式的支持和置信度,以及周期模式的覆盖关系,证明了周期模式的相关性质;
   (4)研究了周期模式的挖掘算法,提出了基于划分的Apriori算法和借鉴蚁群算法的思想计算周期长度并对1990年到2009年的生物医学文献进行了实验,实验表明算法可以挖掘出一些有效的周期模式。
   本文获得的主要成果和创新点为:1.提出了多粒度时间间隔和粒度转换的数学定义,并给出了相关性质;2.构造了多粒度时间下的文本周期模型;3.提出了周期严格周期模式和宽松周期模式的定义,给出了借鉴蚁群算法思想的周期模式挖掘算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号