首页> 中国专利> 领域短语词典构建方法

领域短语词典构建方法

摘要

本申请公开了一种领域短语词典构建方法,包括:挖掘短语;构建领域词库;构建词典模型。挖掘短语包括:将原始数据进行预处理和分词,随后对分词结果采用相邻词频短语挖掘方法,提取出句子中所有可能出现的短语集合。构建领域词库,包括:使用TF‑IDF算法训练短语集合得到带权重的词,再通过权重阈值将词划分为领域相关词和无关词。本申请的领域短语词典构建方法,运用统计词频和词语权重量化短语与领域相关性程度,将深度学习网络与构建领域词典方向相结合,显著提升了领域词典的健壮性,在消费品领域词典构建上有良好的表现,提升了消费品缺陷领域词典的构建效果,能够达到较高的正确率、召回率和F1值。

著录项

  • 公开/公告号CN111985215A

    专利类型发明专利

  • 公开/公告日2020-11-24

    原文格式PDF

  • 申请/专利号CN202010841791.6

  • 发明设计人 吕学强;孙宁;张乐;姜肇财;宋黎;

    申请日2020-08-19

  • 分类号G06F40/242(20200101);G06F40/289(20200101);G06F40/30(20200101);G06F40/216(20200101);

  • 代理机构

  • 代理人

  • 地址 100192 北京市海淀区清河小营东路12号

  • 入库时间 2023-06-19 08:59:45

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号