首页> 外文OA文献 >An Improved K-Nearest Neighbors Approach Using Modified Term Weighting And Similarity Coefficient For Text Classification
【2h】

An Improved K-Nearest Neighbors Approach Using Modified Term Weighting And Similarity Coefficient For Text Classification

机译:改进的K最近邻方法,使用改进的术语加权和相似系数进行文本分类

摘要

Pengelasan teks automatik adalah penting kerana peningkatan bilangan dokumen digital dan oleh itu ia perlu diurus. Kaedah pemodelan statistik terkini tidak memberi maklumat berguna yang mencukupi tentang topik untuk setiap ciri dan kategori. Tambahan pula, penyarian sifat menggunakan frekuensi kata-frekuensi dokumen songsang (TF-IDF) tradisional menghasilkan pengenalan kategori yang terlalu banyak untuk sesuatu dokumen. Dalam usaha pengelasan pula, kaedah k-jiran terdekat (k-NN) sedia ada dengan jarak Euclid dan skor keserupaan kosinus menghasilkan julat varians yang besar dalam prestasinya. Untuk menangani isu ini, kajian ini mengelaskan topik untuk teks pendek dan panjang dengan menggunakan pendekatan baharu untuk tahap-tahap utama pengelasan teks (iaitu penyarian sifat dan pengelasan teks). Kajian ini juga memperkenalkan TD-IDF dengan logaritma dan k-NN dengan skor keserupaan kosinus yang baharu untuk penyarian sifat dan pengelasan masing-masing. Lagipun, faktor yang memberi kesan terhadap prestasi pembelajaran mesin berselia juga dikenalpasti.ududAutomatic text classification is important because of the increased availability of digital documents and therefore the need to organize them. The current state-of-the-art statistical modeling approaches do not provide sufficient useful information on the topics for each feature and category. Furthermore, feature extraction using traditional term frequency-inverse document frequency (TF-IDF) results in the identification of too many categories for a particular document. In terms of classification, current k-NN approaches with Euclidean distance and cosine similarity score produce a wide range of variance in performance. To address these issues, this study classifies topics for short and long texts using a new method for the main stage (i.e., feature extraction and text classification). The study also introduces TF-IDF with logarithm and k-NN with a new cosine similarity score for feature extraction and classification, respectively.
机译:由于数字文档数量的增加,自动文本分类很重要,因此需要进行管理。最新的统计建模方法没有提供有关每个功能和类别的主题的足够有用的信息。另外,使用传统的反向文档频率(TF-IDF)搜索属性会导致识别出太多的文档类别。在分类的基础上,现有的具有Euclid距离和余弦相似性得分的k -NN方法(k-NN)在性能上产生很大范围的差异。为了解决这个问题,本研究使用一种新方法将文本分类的主要阶段(即文本表征和文本分类)分类为短文本和长文本。这项研究还介绍了具有对数的TD-IDF和具有新余弦相似性得分的k-NN,以对其进行表征和分类。此外,还确定了影响受监督机器学习性能的因素:自动文本分类非常重要,因为数字文档的可用性越来越高,因此需要对它们进行组织。当前的最新统计建模方法无法提供有关每个功能和类别的主题的足够有用的信息。此外,使用传统术语频率反文档频率(TF-IDF)进行特征提取会导致为特定文档识别太多类别。在分类方面,当前具有欧几里得距离和余弦相似性得分的k-NN方法在性能上会产生很大的差异。为了解决这些问题,本研究使用主要阶段的新方法(即特征提取和文本分类)对短文本和长文本的主题进行了分类。该研究还介绍了具有对数的TF-IDF和具有新的余弦相似度得分的k-NN,分别用于特征提取和分类。

著录项

  • 作者

    Kadhim Ammar Ismael;

  • 作者单位
  • 年度 2016
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号