基于极大频繁序列模式的文本分类方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随大数据时代的降临，文本数据迅速扩张。面对由此衍生的文本信息，人们需要花费大量时间和精力处理。为了更好地应对这些信息，需要采取文本分类的措施，包括文本预处理、文本特征选择/提取和文本分类等过程。经典的文本预处理方法直接处理数据，在很大程度上限制了算法的性能。一般而言，文本预处理将词语作为基本单位，缺乏考虑词语之间的关联性。从传统意义上讲，文本特征选择和文本特征提取分开单独进行，无法统筹原始特征和新特征。大多数文本分类方法遵循“基于词语”、“基于主题”和“基于情感”等规则，将文档分成正负两类，忽略了分类边界的模糊性。利用齐普夫定律和布茨定律，探寻词语分布规律，挑选合适词频的词语，给出基于词语分布规律的词频统计方法，改进文本预处理方法的性能；参考频繁项集理论，选择模式作为基本单位，得到基于极大频繁序列的模式挖掘方法，既可以很好地消除无用信息，又可以得到比单条数据携带更多信息的频繁模式，提高文本预处理方法中词语之间的关联性；依照混合特征思想，结合特征选择和特征提取，提出基于极大频繁序列模式的特征选择方法，产生混合特征，达到兼顾原始特征和新特征的目的；根据形心解方法和三支决策模型，获得基于极大频繁序列模式的文本分类方法，判断主区域文档和边界区域文档的类别，解决分类边界模糊的问题，细化分类过程，实现更加全面的文本分类方法。论文主要研究基于极大频繁序列模式的文本分类方法，提出基于词语分布规律的词频统计方法（Term Statistical Method based on Law of Term Distribution，简称TSMLTD）、基于极大频繁序列的模式挖掘方法（Pattern Mining Method based on Maximum Frequent Sequence，简称PMMMFS）、基于极大频繁序列模式的特征选择方法（Feature Selection Method based on Maximum Frequent Sequential Pattern，简称 FSMMFSP）和基于极大频繁序列模式的文本分类方法（ Text Classification Method based on Maximum Frequent Sequential Pattern，简称TCMMFSP）。论文方法利用极大频繁序列模式，选择半特征和 R特征，根据形心解和三支决策进行文本分类，解决基于频繁模式的文本分类方法中词频统计、模式挖掘、特征选择和文本分类的问题。论文方法使用应用容器引擎Docker搭配深度学习框架 PaddlePaddle的实验环境，选取实验数据集20Newsgroups、Reuters-21578和 RCV1，添加多种对比方法，将准确率（Accuracy）、精确率（Precision）、召回率（Recall）和度量值（F1）作为评价标准，实验结果证明论文方法的评价标准指数优于一般方法。论文内容介绍：（1）基于词语分布规律的词频统计方法，发现词语分布规律，挑选合适词频的词语，清洗数据。（2）基于极大频繁序列的模式挖掘方法，使用频繁项集的挖掘算法，得到频繁序列模式，按照极大频繁项集的要求，筛选极大频繁序列模式。（3）基于极大频繁序列模式的特征选择方法，结合特征选择和特征提取，给出半特征和R特征等定义，生成基于极大频繁序列模式的混合特征。（4）基于极大频繁序列模式的文本分类方法，依照形心解方法得到所有文档的形心/质心，计算单个文档到形心/质心的距离，比较单个文档与形心/质心的距离，判断主区域文档的类别，按照三支决策模型，考虑分类边界的模糊性，判断边界区域文档的类别，实现文本分类。

著录项

作者
李长镜;
展开▼
作者单位

河北师范大学;

展开▼
授予单位河北师范大学;
学科计算机科学与技术
授予学位硕士
导师姓名赵书良;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;中国国内贸易经济;
关键词
频繁序列模式;

相似文献

中文文献
外文文献
专利

1. 基于频繁项特征扩展的短文本分类方法 [J] . 靳一凡 ,傅颖勋 ,马礼 . 计算机科学 . 2019,第0z1期
2. 基于差分隐私的频繁序列模式挖掘算法 [J] . 李艳辉 ,刘浩 ,袁野 . 计算机应用 . 2017,第002期
3. 基于不确定数据的可能频繁闭序列模式挖掘 [J] . 李立波 ,白树仁 ,陈磊 . 计算机应用研究 . 2016,第004期
4. 一种基于逻辑的频繁序列模式挖掘算法 [J] . 刘端阳 ,冯建 ,李晓粉 . 计算机科学 . 2015,第005期
5. 基于最大频繁序列模式挖掘的App-DDoS攻击的异常检测 [J] . . 电子与信息学报 . 2013,第007期
6. 基于最大频繁序列模式树的个性化页面推荐 [C] . 谭小球 ,姚敏 ,顾沈明 . 2006年全国开放式分布与并行计算学术会议 . 2006
7. 基于最长闭频繁序列模式的文本分类方法 [A] . 池云仙 . 2017

基于极大频繁序列模式的文本分类方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅