首页> 外文期刊>電子情報通信学会技術研究報告 >文脈木重み付け法を用いた半教師付き学習による文書分類
【24h】

文脈木重み付け法を用いた半教師付き学習による文書分類

机译:基于上下文树加权法的半监督学习的文档分类

获取原文
获取原文并翻译 | 示例
       

摘要

文書分類問題は,ベタトル空間モデルやサポートベクターマシンなど様々な手法により研究されてきた.一方,F.M.J.Willemsらにより提案された文脈木重み付け法(以下CTW法と略す)は非常に優れた圧縮性能を示す.このCTW法を自動分類へ応用する手法が提案されており,DNA解析などで大変良い性能を示すことが知られている.本研究では学習データ数が十分でない場合を想定し,CTW法を用いた文書分類に対して,カテゴリが未知のデータを用いた半教師付き学習を行う手法を提案する.また新聞データを用いた計算機実験を行い,正分類率によりその有効性を示す.%The Text Classification problem has been investigated by various techniques, such as a vector space model, a support vector machine and so on. On the other hand, Context-Tree Weighting(CTW) algorithm that has been proposed by F.M.J.Willems shows a very good compression performance. Automatic classification method applied to this CTW has been proposed, and it shows very good performance, e.g. DNA analysis. In this paper, we consider the semi-supervised leaning of the document classification for the case where the number of the learning data is not sufficient. Then we propose the semi-supervised learning methods using CTW algorithm. Moreover, the experimental results using a newspaper data set are shown, and we show the efficiency of proposed methods.
机译:文献分类问题已经通过各种方法进行了研究,例如,字母空间模型和支持向量机,而FMJ Willems等人提出的上下文树加权方法(以下简称为CTW方法)具有很好的压缩性能。已经提出了将该CTW方法应用于自动分类的方法,并且已知其在DNA分析等方面表现出非常好的性能。在该研究中,假设训练数据的数量不足,则使用CTW方法。我们提出一种使用类别未知的数据进行半监督学习的方法,并使用报纸数据进行计算机实验,并通过正确的分类率来证明其有效性。文本分类问题已通过向量空间模型,支持向量机等多种技术进行了研究。另一方面,FMJWillems提出的上下文树加权(CTW)算法显示出了很好的效果。提出了一种适用于该CTW的自动分类方法,该方法具有很好的性能,例如DNA分析。本文针对学习数据数量较多的情况,考虑了文档分类的半监督学习。不足,然后我们提出了使用CTW算法的半监督学习方法,此外,还显示了使用报纸数据集的实验结果,并给出了所提方法的效率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号