首页> 中国专利> 一种基于HDP模型的文档信息提取方法

一种基于HDP模型的文档信息提取方法

摘要

本发明公开了一种基于HDP模型的文档信息提取方法,包括步骤:S1、构建引入窗口机制的WHDP模型;S2、获取待提取信息的文本数据,并对其进行预处理;S3、将预处理后的文本数据输入到WHDP模型中进行处理,提取对应的文档主题分布和主题单词分布作为文本信息提取结果。本方法结合吉布斯采用和消息传播算法实现更新主题概率和动态更新主题个数;利用窗口及移动窗口保证了文本单词的顺序性,降低文本语义的混淆,本发明提出的WHDP模型有更好的收敛性、泛化性,既能自动确定海量文本中的文档主题数,又能避免推理过程词文本上下文信息的丢失。

著录项

  • 公开/公告号CN111222319B

    专利类型发明专利

  • 公开/公告日2021-09-14

    原文格式PDF

  • 申请/专利权人 电子科技大学;

    申请/专利号CN201911111433.3

  • 申请日2019-11-14

  • 分类号G06F40/216(20200101);G06F40/30(20200101);

  • 代理机构51229 成都正华专利代理事务所(普通合伙);

  • 代理人陈选中

  • 地址 611731 四川省成都市高新区(西区)西源大道2006号

  • 入库时间 2022-08-23 12:28:18

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号