首页> 中文会议>2009年全国模式识别学术会议暨首届中日韩模式识别学术研讨会 >基于字特征的中文文本分类技术研究

基于字特征的中文文本分类技术研究

页面导航

摘要
著录项
相似文献
相关主题

摘要

大量非结构化文本信息的存在和文本信息的重要性，使得文本挖掘已经成为数据挖掘研究的一个热点。文本分类是文本挖掘中的一个重要子任务。本文研究了基于字特征的中文文本分类技术。实验结果表明字特征选择是中文文本分类的一种有效建模方法。在基于复旦大学新闻语料库的实验中，使用信息增益(IG)技术进行特征选择，用余弦相似度来度量文档间的相似性，采用KNN分类器，文本分类的正确率达到86.92%，宏平均分类性能达到接近87%的水平。

著录项

来源
《2009年全国模式识别学术会议暨首届中日韩模式识别学术研讨会》|2009年|774-778|共5页
会议地点南京
作者
张煜斌; 陆建峰; 杨静宇;
展开▼
作者单位

中国自动化学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP391.43;
关键词
中文文本; 分类技术; 文本信息; 信息增益技术; KNN分类器;

相似文献

中文文献
外文文献
专利

1. 基于双字耦合度支持向量机模型的中文文本分类技术研究 [J] . 李锐 . 机电工程技术 . 2017,第012期
2. 基于支持向量机的中文农业文本分类技术研究 [J] . 魏芳芳 ,段青玲 ,肖晓琰 . 农业机械学报 . 2015,第S1期
3. 基于文本分类的中文垃圾邮件过滤技术研究 [J] . 朱军 ,饶元 ,傅雷扬 . 长江大学学报（自然版）理工卷 . 2012,第001期
4. 基于机器学习的中文文本分类技术研究 [J] . 贾昱晟 . 电脑知识与技术 . 2011,第021期
5. 基于改进TF-IDF特征的中文文本分类系统 [J] . 但唐朋 ,许天成 ,张姝涵 . 计算机与数字工程 . 2020,第003期
6. 中文文本分类中一种基于语义的特征降维方法 [C] . 胡涛 ,刘怀亮 . 《图书情报工作》杂志社、图书情报工作研究会第25次图书馆学情报学学术研讨会 . 2011
7. 基于特征表示的中文极短文本分类方法研究 [A] . 岳永政 . 2020

基于字特征的中文文本分类技术研究

摘要

著录项

相似文献

相关主题

期刊订阅