首页> 中国专利> 基于CHI和分类别关联规则算法的短文本分类方法

基于CHI和分类别关联规则算法的短文本分类方法

摘要

本发明一种基于CHI和分类别关联规则算法的短文本分类方法,将不同类别文本的频繁词集出现频繁度进行了度量,引入了类别频繁因子(LFF),通过LFF合理分配了各文本类别的最小支持度阈值,克服了传统的FP‑Growth算法挖掘出的频繁词集类别出现偏斜的情况,同时在对频繁词集进行类别倾向判断上,采取了CHI检验算法去衡量特征词与类别之间的关联程度,而非采取简单的词语频率统计去衡量,避免了人工设参和实验确定最佳参数的步骤,增强了分类系统的可控制性。同时还提出了基于Hadoop/MapReduce大数据计算平台的并行特征扩展短文本分类算法,对类别频繁因子的计算和特征扩展方法进行了MapReduce并行化设计,提升了短文本分类准确率以及分类效率,提高了系统的可控性。

著录项

  • 公开/公告号CN106202518B

    专利类型发明专利

  • 公开/公告日2019-07-30

    原文格式PDF

  • 申请/专利权人 桂林电子科技大学;

    申请/专利号CN201610583443.7

  • 发明设计人 黄文明;莫阳;邓珍荣;

    申请日2016-07-22

  • 分类号G06F16/35(20190101);

  • 代理机构45112 桂林市华杰专利商标事务所有限责任公司;

  • 代理人杨雪梅

  • 地址 541010 广西壮族自治区桂林市七星区金鸡路1号

  • 入库时间 2022-08-23 10:37:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-30

    授权

    授权

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160722

    实质审查的生效

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20160722

    实质审查的生效

  • 2016-12-07

    公开

    公开

  • 2016-12-07

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号