...
首页> 外文期刊>Procedia Computer Science >BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique
【24h】

BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique

机译:阿拉伯语主题建模的伯特:二型技术的实验研究

获取原文
   

获取外文期刊封面封底 >>

       

摘要

Topic modeling is an unsupervised machine learning technique for finding abstract topics in a large collection of documents. It helps in organizing, understanding and summarizing large collections of textual information and discovering the latent topics that vary among documents in a given corpus. Latent Dirichlet allocation (LDA) and Non-Negative Matrix Factorization (NMF) are two of the most popular topic modeling techniques. LDA uses a probabilistic approach whereas NMF uses matrix factorization approach, however, new techniques that are based on BERT for topic modeling do exist. In this paper, we aim to experiment with BERTopic using different Pre-Trained Arabic Language Models as embeddings, and compare its results against LDA and NMF techniques. We used Normalized Pointwise Mutual Information (NPMI) measure to evaluate the results of topic modeling techniques. The overall results generated by BERTopic showed better results compared to NMF and LDA.
机译:主题建模是一种无监督的机器学习技术,用于在大量文档中找到抽象主题。 它有助于组织,了解和总结大量文本信息,并发现在给定语料库中的文档中不同的潜在主题。 潜在的Dirichlet分配(LDA)和非负矩阵分解(NMF)是最受欢迎的两个主题建模技术。 LDA使用概率方法,而NMF使用矩阵分解方法,但是,基于BERT的主题建模的新技术确实存在。 在本文中,我们的目标是使用不同的预先培训的阿拉伯语模型作为嵌入的二手术语进行实验,并将其结果与LDA和NMF技术进行比较。 我们使用了归一化的点互信息(NPMI)测量来评估主题建模技术的结果。 与NMF和LDA相比,由Bertopic产生的总结果显示出更好的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号