首页> 中国专利> 基于信息熵的期望交叉熵特征选择文本分类系统及方法

基于信息熵的期望交叉熵特征选择文本分类系统及方法

摘要

本发明公开了一种基于信息熵的期望交叉熵特征选择文本分类系统及方法。本发明系统包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。本发明能够提高文本分类的精度,改善分类效果。

著录项

  • 公开/公告号CN105975518B

    专利类型发明专利

  • 公开/公告日2019-01-29

    原文格式PDF

  • 申请/专利权人 吴国华;

    申请/专利号CN201610278141.9

  • 发明设计人 吴国华;王刘阳;张祯;王玉娟;

    申请日2016-04-28

  • 分类号G06F16/35(20190101);G06K9/62(20060101);

  • 代理机构33246 杭州千克知识产权代理有限公司;

  • 代理人周希良

  • 地址 310018 浙江省杭州市下沙高教园区学林街清雅苑7幢1单元701室

  • 入库时间 2022-08-23 10:24:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-01-29

    授权

    授权

  • 2016-10-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160428

    实质审查的生效

  • 2016-10-26

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20160428

    实质审查的生效

  • 2016-09-28

    公开

    公开

  • 2016-09-28

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号