首页> 外文期刊>電子情報通信学会技術研究報告. 回路とシステム. Circuits and Systems >遺伝的プログラミングによる分類関数近似を用いた文書分類とその応用
【24h】

遺伝的プログラミングによる分類関数近似を用いた文書分類とその応用

机译:基于遗传规划的分类函数近似的文档分类及其应用

获取原文
获取原文并翻译 | 示例
       

摘要

多量のデータ蓄積に対してクラスタ分類や検索を自動的·効率的に実施し,意思決定に用いることが求められている。 報告では,遺伝的プログラミング(Genetic Programming:GP)手法を用いて,文書クラスタ分類の手法を提案し,その応用について述べる。これまでのテキスト分類手法ではキーワード出現頻度などの特徴ベクトルを用いてサンプル間の距離を求めていたが,精密な解析には適当ではない。 報告では特徴ベクトルによる非線形の分類関数近似を行うことにより柔軟なシステム構成法を提案すると同時に,キーワード出現順序などの条件をGP手法で改善したルールとして記述し,これによるテキスト分類を実施する方法を提案する。 報告では学習データとして分類が判明している文書と特徴ベクトルを与え分類されるクラスタごとに,分類のための分類関数をGPにより構成していく。 次に,クラスタ分類が未知である文書を入力し,これらの個体の中で適合度が最高となるクラスタに所属すると判断する。 応用例として,最初に人工的に生成した文書による分類シミュレーションを取り上げ,次に実際の経済記事のクラスタリング評価問題を示す。
机译:需要自动且有效地执行聚类分类和检索以获取大量数据,并将其用于决策。在本报告中,我们提出了一种使用遗传编程(GP)方法进行文档聚类分类的方法,并描述了其应用。在传统的文本分类方法中,样本之间的距离是使用诸如关键词出现频率之类的特征向量来计算的,但是它不适合用于精确分析。在该报告中,我们提出了一种灵活的系统配置方法,该方法通过使用特征向量执行非线性分类函数逼近,并同时描述条件,例如关键字出现顺序作为GP方法改进后的规则,并以此为基础进行文本分类。建议。在该报告中,GP通过给每个要分类的聚类提供分类信息的分类功能,方法是给出一个文档,该文档的分类被称为训练数据和特征向量。接下来,输入一个未知的聚类分类的文档,并确定它属于这些个体中具有最高一致性程度的聚类。作为一个应用示例,我们首先使用人工生成的文档进行分类模拟,然后显示实际经济文章的聚类评估问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号