基于对数似然比的中文文本分类特征选择研究

梁伍七; 李斌; 许磊; 江克勤

首页> 中文期刊>安庆师范学院学报（自然科学版） >基于对数似然比的中文文本分类特征选择研究

基于对数似然比的中文文本分类特征选择研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献.针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法.与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确.算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响.采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能.

著录项

来源
《安庆师范学院学报（自然科学版）》|2018年第1期|45-50|共6页
作者
梁伍七; 李斌; 许磊; 江克勤;
展开▼
作者单位

安徽广播电视大学信息与工程学院,安徽合肥230022;

安徽广播电视大学信息与工程学院,安徽合肥230022;

安徽广播电视大学信息与工程学院,安徽合肥230022;

安庆师范大学计算机与信息学院,安徽安庆246133;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
模式识别; 对数似然比; 特征选择; 文本分类; 向量空间模型; KNN分类;
入库时间 2023-07-25 18:25:48

相似文献

中文文献
外文文献
专利

1. 基于对数似然比的中文文本分类特征选择研究 [J] . 梁伍七1 ,李斌1 ,许磊1 . 安庆师范大学学报：自然科学版 . 2018,第001期
2. 文本分类中基于对数似然比测试的特征词选择方法 [J] . 李国臣 . 中文信息学报 . 1999,第004期
3. 中文文本分类中的特征选择研究 [J] . 寇苏玲 ,蔡庆生 . 计算机仿真 . 2007,第003期
4. 中文文本分类中的特征选择研究 [J] . 周茜 ,赵明生 ,扈旻 . 中文信息学报 . 2004,第003期
5. 基于改进TF-IDF特征的中文文本分类系统 [J] . 但唐朋 ,许天成 ,张姝涵 . 计算机与数字工程 . 2020,第003期
6. 应用于语种识别的加权音素对数似然比特征 [C] . ZHANG Jian ,张健 ,XU Jie . 第十三届全国人机语音通讯学术会议 . 2015
7. 中文文本分类和聚类中的特征选择研究 [A] . 雷琼 . 2006

基于对数似然比的中文文本分类特征选择研究

摘要

著录项

相似文献

相关主题

期刊订阅