首页> 中国专利> 基于二元词主题模型的构建方法

基于二元词主题模型的构建方法

摘要

本发明公开基于二元词主题模型的构建方法,包括以下步骤:步骤1,准备训练文档,对文档进行前数据处理操作,得到每个句子的一元词语列表;步骤2,将得到的一元词列表的一元词相结合形成的二元词表征对应的句子,利用所有句子的二元词形成文档的词袋模型,过滤文档中少于下限频次的低频词和同一词均有出现的文档数目占所有文档的占比大于上限比例的高频词;步骤3,利用文档的词袋模型生成该文档的主题模型,并选择最佳主题个数后输出文档的二元词主题结果。本发明借助将前后词语结合成为二元词语对,从而更加有效的表达词语含义,从而更有助于文档主题的表达。

著录项

  • 公开/公告号CN113449071A

    专利类型发明专利

  • 公开/公告日2021-09-28

    原文格式PDF

  • 申请/专利权人 中电福富信息科技有限公司;

    申请/专利号CN202110601931.7

  • 申请日2021-05-31

  • 分类号G06F16/33(20190101);G06F40/211(20200101);G06F40/216(20200101);G06F40/289(20200101);

  • 代理机构35211 福州君诚知识产权代理有限公司;

  • 代理人彭东

  • 地址 350000 福建省福州市鼓楼区五凤街道软件大道89号12号楼

  • 入库时间 2023-06-19 12:43:46

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号