首页> 中文学位 >基于极大频繁序列模式的文本分类方法
【6h】

基于极大频繁序列模式的文本分类方法

代理获取

目录

声明

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 应用容器引擎Docker

1.4 深度学习框架PaddlePaddle

1.5 主要研究内容

1.6 论文组织结构

2 基于词语分布规律的词频统计方法

2.1 基本概念

2.2 词语分布规律

2.3 词频判断选择

2.4 基于词语分布规律的词频统计算法

2.5 实验

2.6 本章小结

3 基于极大频繁序列的模式挖掘方法

3.1 定义

3.2 扩展定义

3.3 基于极大频繁序列的模式挖掘模型

3.4 基于极大频繁序列的模式挖掘算法

3.5 实验

3.6 本章小结

4 基于极大频繁序列模式的特征选择方法

4.1 特征加权

4.2 半特征

4.3 R特征

4.4 基于极大频繁序列模式的特征选择模型

4.5 基于极大频繁序列模式的特征选择算法

4.6 实验

4.7 本章小结

5 基于极大频繁序列模式的文本分类方法

5.1 三支决策和形心解

5.2 不确定边界

5.3 分类阈值

5.4 基于极大频繁序列模式的文本分类模型

5.5 基于极大频繁序列模式的文本分类算法

5.6 实验

5.7 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读硕士期间取得的科研成果清单

1 学术论文

2 工程项目

展开▼

摘要

伴随大数据时代的降临,文本数据迅速扩张。面对由此衍生的文本信息,人们需要花费大量时间和精力处理。为了更好地应对这些信息,需要采取文本分类的措施,包括文本预处理、文本特征选择/提取和文本分类等过程。经典的文本预处理方法直接处理数据,在很大程度上限制了算法的性能。一般而言,文本预处理将词语作为基本单位,缺乏考虑词语之间的关联性。从传统意义上讲,文本特征选择和文本特征提取分开单独进行,无法统筹原始特征和新特征。大多数文本分类方法遵循“基于词语”、“基于主题”和“基于情感”等规则,将文档分成正负两类,忽略了分类边界的模糊性。 利用齐普夫定律和布茨定律,探寻词语分布规律,挑选合适词频的词语,给出基于词语分布规律的词频统计方法,改进文本预处理方法的性能;参考频繁项集理论,选择模式作为基本单位,得到基于极大频繁序列的模式挖掘方法,既可以很好地消除无用信息,又可以得到比单条数据携带更多信息的频繁模式,提高文本预处理方法中词语之间的关联性;依照混合特征思想,结合特征选择和特征提取,提出基于极大频繁序列模式的特征选择方法,产生混合特征,达到兼顾原始特征和新特征的目的;根据形心解方法和三支决策模型,获得基于极大频繁序列模式的文本分类方法,判断主区域文档和边界区域文档的类别,解决分类边界模糊的问题,细化分类过程,实现更加全面的文本分类方法。 论文主要研究基于极大频繁序列模式的文本分类方法,提出基于词语分布规律的词频统计方法(Term Statistical Method based on Law of Term Distribution,简称TSMLTD)、基于极大频繁序列的模式挖掘方法(Pattern Mining Method based on Maximum Frequent Sequence,简称PMMMFS)、基于极大频繁序列模式的特征选择方法(Feature Selection Method based on Maximum Frequent Sequential Pattern,简称 FSMMFSP)和基于极大频繁序列模式的文本分类方法( Text Classification Method based on Maximum Frequent Sequential Pattern,简称TCMMFSP)。 论文方法利用极大频繁序列模式,选择半特征和 R特征,根据形心解和三支决策进行文本分类,解决基于频繁模式的文本分类方法中词频统计、模式挖掘、特征选择和文本分类的问题。论文方法使用应用容器引擎Docker搭配深度学习框架 PaddlePaddle的实验环境,选取实验数据集20Newsgroups、Reuters-21578和 RCV1,添加多种对比方法,将准确率(Accuracy)、精确率(Precision)、召回率(Recall)和度量值(F1)作为评价标准,实验结果证明论文方法的评价标准指数优于一般方法。 论文内容介绍: (1)基于词语分布规律的词频统计方法,发现词语分布规律,挑选合适词频的词语,清洗数据。 (2)基于极大频繁序列的模式挖掘方法,使用频繁项集的挖掘算法,得到频繁序列模式,按照极大频繁项集的要求,筛选极大频繁序列模式。 (3)基于极大频繁序列模式的特征选择方法,结合特征选择和特征提取,给出半特征和R特征等定义,生成基于极大频繁序列模式的混合特征。 (4)基于极大频繁序列模式的文本分类方法,依照形心解方法得到所有文档的形心/质心,计算单个文档到形心/质心的距离,比较单个文档与形心/质心的距离,判断主区域文档的类别,按照三支决策模型,考虑分类边界的模糊性,判断边界区域文档的类别,实现文本分类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号