首页> 中国专利> 基于CRP聚类的词语多原型向量表示及词义消歧方法

基于CRP聚类的词语多原型向量表示及词义消歧方法

摘要

本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法,包括步骤一:对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中目标多义词语按照聚类簇类别标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤二:对目标短文本预处理获得短文本词语序列,识别词语序列中目标多义词语,计算目标多义词语上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间相似度,将相似度最大值聚类簇类别所对应词向量表示作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。本发明解决了词语表示中一词多义表示问题及词义表示中歧义识别问题。

著录项

  • 公开/公告号CN109033307B

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 华北水利水电大学;

    申请/专利号CN201810783010.5

  • 申请日2018-07-17

  • 分类号G06F16/35(20190101);G06F16/33(20190101);G06F40/289(20200101);G06F40/30(20200101);G06K9/62(20060101);

  • 代理机构61223 西安铭泽知识产权代理事务所(普通合伙);

  • 代理人俞晓明

  • 地址 450000 河南省郑州市金水区北环路36号

  • 入库时间 2022-08-23 12:24:23

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号