首页> 外文期刊>電子情報通信学会技術研究報告 >文脈木重みづけ法を用いた文書分類の誤り確率について
【24h】

文脈木重みづけ法を用いた文書分類の誤り確率について

机译:基于上下文树加权法的文档分类错误概率

获取原文
获取原文并翻译 | 示例
       

摘要

The text classification problem has been investigated by various techniques, such as a vector space model, a support vector machine, and so on. On the other hand, the Context-Tree Weighting (CTW) algorithm has been proposed as an outstanding data compression. Furthermore, experimental results have been reported using the CTW algorithm for the text classification. In this paper, we assume that each document with same category arises from one stochastic model for the text classification using the CTW algorithm. Then we propose an analysis method to obtain the classification error probability for the document with the finite length.%性能の良いデータ圧縮法として文脈木重みづけ法が知られており,これを用いた文書分類法が提案されている.本研究では各カテゴリの文書は1つの確率モデルから生起することを仮定し,新規テスト文書の文書長が有限の場合の分類誤り確率を評価する.このとき新規テスト文書に対する理想符号長の平均と分散を評価し,中心極限定理を用いることにより各カテゴリの分類誤り確率を近似する手法を提案する.
机译:文本分类问题已经通过向量空间模型,支持向量机等多种技术进行了研究。另一方面,上下文树加权(CTW)算法被提出作为一种出色的数据压缩方法。另外,也有报道使用CTW算法进行文本分类的实验结果。在本文中,我们假设具有相同类别的每个文档均源于使用CTW算法进行文本分类的随机模型,然后提出了一种分析方法上下文树加权方法被称为具有良好性能的数据压缩方法,并且提出了使用该方法的文档分类方法。在这项研究中,我们假设每个类别中的文档均来自一个概率模型,并在新测试文档的文档长度有限时评估分类错误概率。这时,我们评估新测试文档的理想代码长度的均值和方差,并提出一种使用中心极限定理来近似估计每个类别的分类错误概率的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号