基于改进TFIDF的混合模型文本分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类技术是从庞大而杂乱的文本中准确而快速的识别所需信息的关键技术。在文本分类的过程中，文本被送入分类器之前首先要对文本进行预处理工作，包括文本分词、去停用词、特征选择和特征提取等。特征选择和特征提取可以排除文本中所含的噪音数据，降低文本特征空间的维度。这一过程十分重要，因为其可以直接影响到分类精度。本文针对特征选择和特征提取进行研究，提出了一种基于向量空间模型与主题模型的混合模型。能使得文本的特征向量尽可能多的携带类别信息的同时又使其维度降低。本文的工作如下:
　　第一，改进TFIDF算法。引入变异系数，提出了一种改进方法TFIDFCV。该方法用变异系数作为权重因子，综合考虑特征词在类间和类内的信息分布，调整TFIDF对特征项的权重计算，可以避免传统的TFIDF方法没有考虑特征项类间和类内的分布情况的缺点，能够更有效的从文本中选择特征。
　　第二，提出混合模型。通过LDA主题模型对文本进行特征提取，可以降低特征空间的维度。分别对名词、动词以及其他词建模，可以有效利用文本中的词性信息，构建一种结合词性的LDA模型，即PST-LDA。以PST-LDA模型和TFIDFCV方法共同处理文本集，结合词频、词性和主题等信息，以期望得到信息承载量更大的特征。
　　第三，实验验证。设计了两组实验，分析验证改进的效果。第一组，TFIDF与TFIDFCV方法在支持向量机下文本分类的效果对比。实验结果表明TFIDFCV方法较TFIDF方法的宏F1值提高了1.21％。第二组，LDA、PST-LDA、TFIDFCV与PST-LDA结合的文本分类效果对比，实验结果表明TFIDFCV与PST-LDA结合的方法宏F1值比PST-LDA提高了1.1％，比LDA提高了0.92％，并且在建模时间上的开销不到LDA的一半。

著录项

作者
陈栋;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名陈利;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
特征选择; 特征提取; 混合模型; 文本分类; 在支持向量机;

相似文献

中文文献
外文文献
专利

1. 结合TFIDF方法与Skip-gram模型的文本分类方法研究 [J] . 邬明强 ,张奎 . 电子技术与软件工程 . 2018,第006期
2. 基于改进TFIDF-Logistic Regression微博暴力文本分类 [J] . 刘思新 ,高珺 ,田一龙 . 吉林大学学报（信息科学版） . 2021,第006期
3. 基于改进的TFIDF和压缩自动编码器文本分类研究 [J] . 靖慧 ,杨振宇 ,于敏 . 山东轻工业学院学报（自然科学版） . 2017,第003期
4. 基于改进的TFIDF和压缩自动编码器文本分类研究 [J] . 靖慧 ,杨振宇 ,于敏 . 齐鲁工业大学学报：自然科学版 . 2017,第003期
5. 基于改进 TFIDF 算法的文本分类研究 [J] . 郑霖 ,徐德华 . 计算机与现代化 . 2014,第009期
6. 一种基于混合模型的文本分类器的研究与实现 [C] . 汪传建 ,石河子大学信息工程学院 ,李晓光 . 第二十一届中国数据库学术会议 . 2004
7. 基于Word2Vec模型和TFIDF方法的文本分类研究 [A] . 张明 . 2019

基于改进TFIDF的混合模型文本分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅