基于改进CHI特征选择的情感文本分类研究

袁磊

首页> 中文期刊> 《传感器与微系统》 >基于改进CHI特征选择的情感文本分类研究

基于改进CHI特征选择的情感文本分类研究

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法.卡方统计量是一种有效的特征选择方法,但分析发现存在负相关现象和倾向于选择低频特征词的问题.为了克服不足之处,在考虑到词频、集中度和分散度等因素的基础上,考虑文本的长短不均衡和特征词分布,对词频进行归一化,提出了一种改进的卡方统计量特征提取算法.利用经典朴素贝叶斯和支持向量机分类算法在均衡语料、非均衡语料和混合长短文本语料上实验,实验结果表明:新的方法提高了情感文本分类的准确率.%In order to improve the accuracy of sentiment text classification,different preprocessing methods of the sentiment of English text is studied,and an improved algorithm of Chi-square statistic (CHI) feature extraction is put forward.CHI is one of the most efficient feature selection methods,but there are two weaknesses,negative correlation phenomenon and tend to choose low-frequency feature words.In order to overcome these two shortcomings,on the basis of taking into account factors of word frequency,concentration information and dispersion information,considering the length of the text is not balanced and the distribution of feature words,word frequency is normalized,CHI feature extraction algorithm is proposed.Using classical naive Bayes and support vector machine(SVM) classification algorithms experiments is carried out on balanced corpus,imbalanced corpus and mixed-length corpus,and experimental results show that the new method improves accuracy of sentiment text classification.

著录项

来源
《传感器与微系统》 |2017年第5期|47-51|共5页
作者
袁磊;
展开▼
作者单位

合肥工业大学计算机与信息学院,安徽合肥230009;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
情感分类; 预处理; 卡方统计量; 特征选择;

相似文献

中文文献
外文文献
专利

1. 文本分类中基于CHI改进的特征选择方法 [J] . 宋呈祥 ,陈秀宏 ,牛强 . 传感器与微系统 . 2019,第002期
2. 文本分类中改进型CHI特征选择方法的研究 [J] . 裴英博 ,刘晓霞 . 计算机工程与应用 . 2011,第004期
3. 基于改进CHI和TF-IDF的短文本分类的研究 [J] . 代继鹏 ,邵峰晶 ,孙仁诚 . 计算机与现代化 . 2021,第006期
4. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
5. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程师 . 2017,第012期
6. 文本分类中一种基于词类间概率分布的特征选择算法 [C] . 邢昊 ,张凌 . 全国搜索引擎和网上信息挖掘学术讨论会 . 2003
7. 基于改进型特征选择算法的文本分类方法研究 [A] . 付鑫 . 2018

基于改进CHI特征选择的情感文本分类研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅