首页> 外文期刊>電子情報通信学会論文誌 >日本語ウェブページを主観的か非主観的かに分類する分類器のジャンル領域拡大化能力の改善:実用的な分類器へ向けて
【24h】

日本語ウェブページを主観的か非主観的かに分類する分類器のジャンル領域拡大化能力の改善:実用的な分類器へ向けて

机译:提高将日语网页分为主观和非主观的分类器的体裁区域扩展能力:面向实用分类器

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では,機械学習法を利用して日本語ウェブページのセンチメント分類に取り組む.分類のたrnめのカテゴリーは「主観的」と「非主観的」である.交差検定用データセットは,限られたジャンル群に分布すrnる日本語ウェブページからなる.まず,交差検定用デー夕セットをほぼ確実に分類する分類器を生成できることrnを示す.その分類器の実用性を評価するために,本論文ではジャンル領域拡大化能力という概念とジャンル領域rn拡大デー夕セットを導入する.ジャンル領域拡大デー夕セットは,交差検定用デー夕セットを構成するジャンルrn群を含む,より多様なジャンル群に分布する日本語ウェブページからなるデー夕セットである.ジャンル領域拡rn大化能力は,交差検定用デー夕セット上で訓練·生成された分類器がジャンル領域拡大データセットを分類するrn能力である.本論文では,交差検定用デー夕セット上で訓練·生成された分類器のジャンル領域拡大化能力が,rn低いことを示す.一方で,分類器のジャンル領域拡大化能力を改善するための方法として,遺伝的アルゴリズムrnを利用したPOSフィル夕リングに基づく素性選択法を提案し,その方法によって分類器のジャンル領域拡大化rn能力を改善でき,ある程度実用的とみなせる分類器を生成できることを示す.
机译:在本文中,我们使用机器学习方法处理日语网页的情感分类。类别类别为“主观”和“非主观”。交叉验证数据集由分布在一组有限类型上的日语网页组成。首先,我们证明rn可以生成几乎可以肯定地对交叉验证数据集进行分类的分类器。为了评估分类器的实用性,本文介绍了体裁区域扩展能力和体裁区域扩展数据集的概念。体裁区域扩展数据集是由分布在各种体裁上的日语网页组成的数据集,包括构成交叉验证数据集的体裁组。体裁区域扩展能力是指在交叉验证数据集上训练并生成的分类器对体裁区域扩展数据集进行分类的能力。在本文中,我们表明在交叉验证数据集上训练和生成的分类器具有较低的流派区域扩展能力。另一方面,作为提高分类器的体裁区域扩展能力的方法,我们提出了一种使用遗传算法rn基于POS滤波的特征选择方法,通过该方法,分类器体裁区域扩展rn我们表明,可以提高该能力,并且可以生成在某种程度上可以视为实用的分类器。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号