首页> 中国专利> 基于词嵌入的流形主题模型的建模方法

基于词嵌入的流形主题模型的建模方法

摘要

本发明涉及自然语言数据处理领域,提出一种基于词嵌入的流形主题模型的建模方法,包括以下步骤:输入文档集D,将文档集D中的词训练成词嵌入xdn,将所有词嵌入xdn进行归一化处理,并初始化先验参数m,σ2,μ0,C0,α及主题zdn;根据当前的先验参数计算主题‑词分布密集度κ,主题‑词分布的均值向量μ,以及文档‑主题分布πd,然后求出文本中每个词嵌入xdn的主题zdn;执行EM算法的E步,更新变分近似分布q的变分参数λd,ψ,γ,ρ;执行EM算法的M步,通过变分参数更新先验参数,并更新文本中每个词嵌入xdn的主题zdn;计算变分下界vLB,判断vLB是否达到最大值,若是,则输出所有词嵌入xdn的主题zdn;若否,则跳转至步骤二。本发明能够在流形空间中更好地捕捉词嵌入的结构信息,有效避免数据结构信息丢失的问题。

著录项

  • 公开/公告号CN110032642B

    专利类型发明专利

  • 公开/公告日2022-02-11

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN201910234830.3

  • 发明设计人 谭北海;许振豪;

    申请日2019-03-26

  • 分类号G06F16/35(20190101);G06F40/284(20200101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人林丽明

  • 地址 510006 广东省广州市越秀区东风东路729号

  • 入库时间 2022-08-23 13:06:20

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号