首页> 中国专利> 一种基于新颖度的中文新词发现方法

一种基于新颖度的中文新词发现方法

页面导航

摘要
著录项
相似文献

摘要

本发明涉及一种基于新颖度的中文新词发现方法，包括将所有候选新词的新颖度从大到小排序，取中间值作为阈值，过滤掉小于阈值的所有词后形成新词库并进行新词输出。本发明是基于N‑gram算法建立了二元语料模型，并在二元互信息基础上，结合词语特征，给出了三元到N元互信息的表示方式，并采用互信息与邻接熵阈值过滤。针对互信息只能表现词语出现概率大小，而不能体现是否新词的特点，以旧语料为筛选来源，引入了新颖度来优化和过滤新词候选集合。基于现有准确率和召回率等新词发现评价指标计算复杂、不确定性大的不足，提出了新的t‑MP评价指标替换原来的准确率、召回率和F‑value说明新词发现的结果有效性。使用户可以根据所需发现新词的数量和置信程度来从排序的候选新词中获取最佳新词。

著录项

公开/公告号CN108509425B

专利类型发明专利
公开/公告日2021-08-24

原文格式PDF
申请/专利权人中国人民解放军陆军工程大学;
展开▼

申请/专利号CN201810319616.3
发明设计人贺伟雄;凌海风;王清;陈海松;苏正炼;骆华东;
展开▼

申请日2018-04-10
分类号G06F40/247(20200101);G06F40/284(20200101);
代理机构32326 南京乐羽知行专利代理事务所(普通合伙);
代理人李培
地址 210000 江苏省南京市秦淮区海福巷1号
入库时间 2022-08-23 12:22:09

相似文献

专利
中文文献
外文文献

1. 一种基于新颖度的中文新词发现方法 [P] . 中国专利： CN108509425B . 2021.08.24
2. 基于最大置信度的中文复合新词发现方法 [P] . 中国专利： CN106339481B . 2019.04.30
3. WORD COMBINATION PROCESSING-BASED NEW WORD DISCOVERY METHOD AND APPARATUS, AND COMPUTER DEVICE [P] . WO2021217936A1 . 2021-11-04

机译：基于词组合处理的新词发现方法和装置，以及计算机设备
4. A COMPUTER BASED NOVEL METHOD FOR IDENTIFYING AND CLUSTERING OF FUNCTIONALLY CLOSELY RELATED PROTEIN TARGEST FOR DISCOVERY OF BROAD AND SPECIFIC MODULATORS [P] . IN2004CH01191A . 2009-08-14

机译：一种基于计算机的新颖方法，用于识别和聚类功能相关的蛋白质目标，以发现广泛的和特定的调制器
5. A method for transmitting an area-based 360 degree video, a method for receiving an area-based 360 degree video, a device for sending an area-based 360 degree video, a device for receiving a 360 degree video based on an area [P] . KR102271444B1 . 2021-07-01

机译：一种用于发送基于面积的360度视频的方法，一种用于接收基于面积的360度视频的方法，一种用于发送基于区域的360度视频的设备，一种用于基于区域接收360度视频的设备