一种新的基于统计的自动文本分类方法

刘斌; 黄铁军; 程军; 高文

首页> 中文期刊>中文信息学报 >一种新的基于统计的自动文本分类方法

一种新的基于统计的自动文本分类方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别.为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法.多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布.基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题.实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题.实验系统证明了新方法的有效性.

著录项

来源
《中文信息学报》|2002年第6期|18-24|共7页
作者
刘斌; 黄铁军; 程军; 高文;
展开▼
作者单位

中国科学院计算技术研究所,北京,100080;

中国科学院研究生院,北京,100080;

中国科学院文献情报中心,北京,100080;

中国科学院计算技术研究所,北京,100080;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
自动文本分类; 多层次特征提取; 基于核的距离加权KNN算法; 样本重要性分析;

相似文献

中文文献
外文文献
专利

1. 一种基于词上下文向量的文本自动分类方法 [J] . 郭少友 . 情报科学 . 2008,第7期
2. 一种基于粗糙-神经网络的文本自动分类方法 [J] . 王效岳 ,白如江 . 情报学报 . 2006,第004期
3. 一种基于模糊聚类的汉语文本自动分类方法 [J] . 卢忠良 ,王家云 ,荣融 . 计算机应用与软件 . 2003,第010期
4. 一种新的基于软集合理论的文本分类方法 [J] . 袁鼎荣 ,谢扬才 ,陆广泉 . 广西师范大学学报（自然科学版） . 2011,第001期
5. 一种新的基于段向量的文本自动摘要方法 [J] . 申强强 ,熊泽宇 ,熊岳山 . 计算机工程与科学 . 2019,第006期
6. 一种新的基于kNN和Rocchio的文本分类方法 [C] . 张政 ,周水庚 ,周傲英 . 第二十一届中国数据库学术会议 . 2004
7. 面向文本挖掘的同频词统计规律及短文本分类方法 [A] . 李晓超 . 2015

一种新的基于统计的自动文本分类方法

摘要

著录项

相似文献

相关主题

期刊订阅