一种基于紧密度的半监督文本分类方法

郑海清; 林琛; 牛军钰

首页> 中文期刊> 《中文信息学报》 >一种基于紧密度的半监督文本分类方法

一种基于紧密度的半监督文本分类方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

自动的文本分类已经成为一个重要的研究课题.在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的.因此这种文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分类器如果直接应用到这类问题上,也难以取得令人满意的效果.因此,本文提出了一种基于紧密度衡量的方法来解决这一类问题.由于没有标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例的训练集合,从而提高分类器的性能.该方法不需要借助特别的外部知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境中.在TREC'05(国际文本检索会议)的基因项目的文本分类任务语料上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成绩.

著录项

来源
《中文信息学报》 |2007年第3期|54-60|共7页
作者
郑海清; 林琛; 牛军钰;
展开▼
作者单位

复旦大学,计算机科学与工程系,上海200433;

复旦大学,计算机科学与工程系,上海200433;

复旦大学,计算机科学与工程系,上海200433;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
计算机应用; 中文信息处理; 文本分类; 半监督机器学习; 支持向量机; 紧密度;

相似文献

中文文献
外文文献
专利

1. 一种半监督局部线性嵌入算法的文本分类方法 [J] . 夏士雄 ,李佑文 ,周勇 . 计算机应用研究 . 2010,第001期
2. 基于多粒度建模的半监督文本分类方法研究 [J] . 余本功 ,汲浩敏 . 现代情报 . 2021,第006期
3. 基于网络表示的半监督问答文本情感分类方法 [J] . 陈潇 ,李逸薇 ,刘欢 . 郑州大学学报（理学版） . 2020,第002期
4. 基于改进三体训练法的半监督专利文本分类方法 [J] . 胡云青 ,邱清盈 ,余秀 . 浙江大学学报（工学版） . 2020,第002期
5. 基于特征扩展的半监督协同短文本分类方法研究 [J] . 付学敏 . 电脑知识与技术：学术版 . 2018,第10Z期
6. 基于优化样本分布抽样集成学习的半监督文本分类方法研究 [C] . 徐禹洪 ,黄沛杰 . 第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会 . 2017
7. 基于半监督学习的WMS元数据文本多标签分类方法 [A] . 张敏 . 2019

一种基于紧密度的半监督文本分类方法

摘要

著录项

相似文献

相关主题

期刊订阅