首页> 中国专利> 一种基于平行语料库的跨语种新闻主题相似性对比方法

一种基于平行语料库的跨语种新闻主题相似性对比方法

摘要

本发明公开了一种基于平行语料库的跨语种新闻主题相似性对比方法。步骤如下:(1)平行语料库中每个文档都有独立的主题分布,并且语言描述同一个主题、共享主题分布;首先,检索中文中关于T主题的文章集,基于平行语料库中的中文通用语料库,由LDA主题模型算法得到文章集的中文LDA主题模型;然后,将中文的T主题LDA主题模型映射到广义主题模型空间得到T主题的中文和F语言共享的LDA主题模型,使用LDA算法,由F语言的待筛选的未知主题的文章和平行语料库中的F语言语料库得到F语言LDA主题模型;将这广义空间上的LDA主题模型和F语言LDA主题模型作对比,如果相似则认为此待筛选文章是关于T主题的文章。本发明能够快速准确不经翻译自动筛选出特定主题的文章。

著录项

  • 公开/公告号CN108519971B

    专利类型发明专利

  • 公开/公告日2022-02-11

    原文格式PDF

  • 申请/专利权人 中国传媒大学;

    申请/专利号CN201810245163.4

  • 申请日2018-03-23

  • 分类号G06F40/216(20200101);G06F40/58(20200101);G06F40/289(20200101);G06F40/30(20200101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人刘萍

  • 地址 100024 北京市朝阳区定福庄东街1号

  • 入库时间 2022-08-23 13:06:31

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号