首页> 外文OA文献 >Implementasi Algoritma Term Frequency ??? Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
【2h】

Implementasi Algoritma Term Frequency ??? Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

机译:词频算法的实现官方脚本文件分类的逆文件频率和向量空间模型

摘要

Pada kenyataannya dokumen naskah dinas diinstansi masih disimpan dan dicari secara manual. Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem klasifikasi dokumen naskah dinas secara otomatis dengan banyak kategori sehingga dapat mempermudah dalam penyimpanan dan pencarian dokumen naskah dinas. ud Penelitian ini menerapkan metode text mining dengan supervised learning menggunakan algoritma term frequency ??? inverse document frequency (TF-IDF) dan vector space model. Metode text mining digunakan untuk menentukan kata kunci dokumen secara otomatis. Algoritma TF-IDF melakukan pemberian bobot pada setiap kata kunci disetiap kategori dan vector space model untuk mencari kemiripan kata kunci dengan kategori yang tersedia. Implementasi dari sistem ini menghasilkan vektor pada setiap kategori sebagai data pembelajaran. sehingga nilai vektor tersebut akan dibandingkan dengan nilai dari kata kunci dokumen yang diuji untuk mencari kemiripan / similiarity. ud Hasil penelitian menunjukkan bahwa algoritma TF-IDF dan Vector Space Model dapat mengklasifikasikan dokumen naskah dinas dengan banyak kategori dengan akurasi hasil klasifikasi 70%-75%.
机译:实际上,官方机构的文档文件仍然是手动存储和搜索的。这项研究旨在设计和实现自动分类的官方手稿文件分类系统,以便于官方手稿文件的存储和搜索。这项研究运用术语频率算法在监督学习下应用文本挖掘方法。逆文档频率(TF-IDF)和向量空间模型。文本挖掘方法用于自动确定文档关键字。 TF-IDF算法对每个类别和向量空间模型中的每个关键字进行加权,以查找可用类别中关键字的相似性。该系统的实现产生每个类别中的向量作为学习数据。因此,矢量值将与经过测试的文档关键字的值进行比较,以寻找相似性/相似性。结果表明,TF-IDF算法和向量空间模型可以对很多类别的公文文档进行分类,分类结果的准确率达到70%-75%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号