首页> 中国专利> 一种基于新颖度的中文新词发现方法

一种基于新颖度的中文新词发现方法

摘要

本发明涉及一种基于新颖度的中文新词发现方法,包括将所有候选新词的新颖度从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词后形成新词库并进行新词输出。本发明是基于N‑gram算法建立了二元语料模型,并在二元互信息基础上,结合词语特征,给出了三元到N元互信息的表示方式,并采用互信息与邻接熵阈值过滤。针对互信息只能表现词语出现概率大小,而不能体现是否新词的特点,以旧语料为筛选来源,引入了新颖度来优化和过滤新词候选集合。基于现有准确率和召回率等新词发现评价指标计算复杂、不确定性大的不足,提出了新的t‑MP评价指标替换原来的准确率、召回率和F‑value说明新词发现的结果有效性。使用户可以根据所需发现新词的数量和置信程度来从排序的候选新词中获取最佳新词。

著录项

  • 公开/公告号CN108509425B

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 中国人民解放军陆军工程大学;

    申请/专利号CN201810319616.3

  • 申请日2018-04-10

  • 分类号G06F40/247(20200101);G06F40/284(20200101);

  • 代理机构32326 南京乐羽知行专利代理事务所(普通合伙);

  • 代理人李培

  • 地址 210000 江苏省南京市秦淮区海福巷1号

  • 入库时间 2022-08-23 12:22:09

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号