首页> 中文期刊>计算机应用 >基于跨语言神经主题模型的汉越新闻话题发现方法

基于跨语言神经主题模型的汉越新闻话题发现方法

     

摘要

针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务.首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题.实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性.

著录项

  • 来源
    《计算机应用》|2021年第10期|2879-2884|共6页
  • 作者单位

    昆明理工大学信息工程与自动化学院 昆明650500;

    云南省人工智能重点实验室(昆明理工大学) 昆明650500;

    昆明理工大学信息工程与自动化学院 昆明650500;

    云南省人工智能重点实验室(昆明理工大学) 昆明650500;

    昆明理工大学信息工程与自动化学院 昆明650500;

    云南省人工智能重点实验室(昆明理工大学) 昆明650500;

    昆明理工大学信息工程与自动化学院 昆明650500;

    云南省人工智能重点实验室(昆明理工大学) 昆明650500;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    跨语言; 主题对齐; 神经主题模型; K-means聚类; 话题发现;

  • 入库时间 2023-07-24 18:51:02

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号