贝叶斯文本分类中特征词缺失的补偿策略

庞秀丽; 冯玉强; 姜维

首页> 中文期刊>哈尔滨工业大学学报 >贝叶斯文本分类中特征词缺失的补偿策略

贝叶斯文本分类中特征词缺失的补偿策略

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为了解决朴素贝叶斯分类器在处理文本分类任务时,往往存在的特征词缺失问题,即由于语料库中的词语出现分布情况遵循Zipf定律,仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题.引入统计语言模型中的数据平滑算法,通过从已出现词中"折扣"出一定的概率再分配到未出现词中去,来计算缺失特征词的补偿概率,以此克服数据稀疏问题带来的影响.评测数据在去掉停用词的分类过程开放测试中,引入Good-Turing算法的分类性能比Laplace原则提高了3.05%,比Lidstone方法提高1.00%.而在交叉熵选择特征词的算法中,增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高1.95%.通过这种数据平滑的算法,有助于克服因数据稀疏而引发的特征词缺失问题.

著录项

来源
《哈尔滨工业大学学报》|2008年第6期|956-960|共5页
作者
庞秀丽; 冯玉强; 姜维;
展开▼
作者单位

哈尔滨工业大学,管理学院,哈尔滨,150001;

哈尔滨工业大学,管理学院,哈尔滨,150001;

哈尔滨工业大学,计算机科学与技术学院,哈尔滨,150001;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
文本分类; 贝叶斯分类; 特征词缺失; 数据平滑;
入库时间 2022-08-18 02:43:03

相似文献

中文文献
外文文献
专利

1. 一种有效特征词发现的贝叶斯文本分类方法 [J] . 杨晔 ,彭宏 ,林嘉宜 . 系统工程 . 2004,第9期
2. 贝叶斯、RidgeClassifier和fastText算法在匿名新闻文本分类中的对比研究 [J] . 徐炜桢 . 软件 . 2021,第010期
3. 贝叶斯、KNN和SVM算法在新闻文本分类中的对比研究 [J] . 祁小军 ,兰海翔 ,卢涵宇 . 电脑知识与技术 . 2019,第025期
4. 智能搜索中基于特征选择和贝叶斯的文本分类算法浅析 [J] . 杨小强 . 广播电视信息 . 2013,第008期
5. 朴素贝叶斯在文本分类中的应用 [J] . 熊志斌 ,刘冬 . 软件导刊 . 2013,第002期
6. 通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能 [C] . 张阳 ,李战怀 ,卢维扬 . 第十九届全国数据库学术会议 . 2002
7. 文本分类中的贝叶斯特征选择 [A] . 冯国忠 . 2011

贝叶斯文本分类中特征词缺失的补偿策略

摘要

著录项

相似文献

相关主题

期刊订阅