首页> 中国专利> 一种缺少负例的文本分类方法

一种缺少负例的文本分类方法

摘要

本发明公开了一种缺少负例的文本分类方法,属于机器学习和文本分类技术领域。该方法首先确定待分类的数据文本,并自定义文本分类类别;然后基于获取的语料库训练TF‑IDF模型和LSI模型;然后基于训练好的TF‑IDF模型和LSI模型分别构建文本的特征向量,并基于ensemble方法构建组合的文本特征向量;然后采用ROC‑SVM组合算法,训练Basic分类器,并且可结合k‑means聚类方法进行Basic分类器的训练,同时训练label分类器;最后将待分类的文本首先采用Basic分类器进行初始分类,并用Elasticsearch进行筛选,确定候选分类,再采用label分类器将待分类文档准确的分入自定义类别中的一类或者几类中。本发明的方法能够有效地对缺少负例的文本数据进行分类,准确率高、效果好、效率高。

著录项

  • 公开/公告号CN110795564A

    专利类型发明专利

  • 公开/公告日2020-02-14

    原文格式PDF

  • 申请/专利权人 南京稷图数据科技有限公司;

    申请/专利号CN201911058163.4

  • 发明设计人 吴刚;王楠;

    申请日2019-11-01

  • 分类号

  • 代理机构江苏瑞途律师事务所;

  • 代理人刘琦

  • 地址 210000 江苏省南京市秣周东路12号南京未来科技城3号楼1805室

  • 入库时间 2023-12-17 06:34:29

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-10

    实质审查的生效 IPC(主分类):G06F16/35 申请日:20191101

    实质审查的生效

  • 2020-02-14

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号