首页> 中文会议>第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 >面向中朝跨语言文本分类的双语主题词嵌入模型的研究

面向中朝跨语言文本分类的双语主题词嵌入模型的研究

摘要

日渐丰富的少数民族跨语言文字信息资源,对其进行有效的管理、挖掘与利用有着重要的应用价值.为了解决语言间的差异,解决语言鸿沟问题,针对中朝跨语言文本分类任务,提出了双语主题词嵌入模型.该模型将主题模型与双语词嵌入模型相结合,解决了一词多义引起的歧义性对跨语言文本分类的精度带来的影响.首先,在大规模包含词对齐信息的平行句对中训练双语单词的词嵌入表示;其次,对双语分类语料进行主题模型的建模,并获得双语单词的双语主题词嵌入表示;最后,将双语单词的双语主题词嵌入表示输入至传统文本分类器与深度学习文本分类器,进行模型的训练与分类预测.实验结果表明,在中朝跨语言文本分类任务中Accuracy达到了91.76%,达到了实际应用水平,并且根据双语单词间的相似度进行排序,该文提出的模型可以对一词多义单词的多个词义有很好的表示.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号