【24h】

Topic Modeling for Maternal Health Using Reddit

机译:使用reddit的母体健康型号的主题

获取原文

摘要

This paper applies topic modeling to understand maternal health topics, concerns, and questions expressed in online communities on social networking sites. We examine latent Dirichlet analysis (LDA) and two state-of-the-art methods: neural topic model with knowledge distillation (KD) and Embedded Topic Model (ETM) on maternal health texts collected from Reddit. The models are evaluated on topic quality and topic inference, using both auto-evaluation metrics and human assessment. We analyze a disconnect between automatic metrics and human evaluations. While LDA performs the best overall with the auto-evaluation metrics NPMI and Coherence, Neural Topic Model with Knowledge Distillation is favourable by expert evaluation. We also create a new partially expert annotated gold-standard maternal health topic modeling dataset for future research.
机译:本文适用主题建模以了解在社交网站上在线社区中的孕产妇健康主题,关注和问题。 我们检查潜在的Dirichlet分析(LDA)和两个最先进的方法:具有知识蒸馏(KD)和嵌入式主题模型(ETM)的神经主题模型(ETM),Reddit收集的母体健康文本。 使用自动评估指标和人工评估,对主题质量和主题推断进行评估。 我们分析了自动指标与人类评估之间的断开连接。 虽然LDA随着自动评估指标对NPMI和连贯性表现最佳,而具有知识蒸馏的神经主题模型是有利的,通过专家评估有利。 我们还创建了一个新的部分专家注释的金标标准孕产妇健康主题,用于将来的数据集进行了建模数据集。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号