首页> 中国专利> 一种微博特征项提取方法和改进TF‑IDF归一化方法

一种微博特征项提取方法和改进TF‑IDF归一化方法

摘要

本发明公开了一种微博特征项提取方法和改进TF‑IDF归一化方法,结合CHI方法和改进TF‑IDF归一化方法的方法来提取特征项,从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故,对传统的归一化TF‑IDF归一化方法进行了一些改进,即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度,而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故在改进TF‑IDF归一化方法的同时还结合了CHI统计方法,该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度。

著录项

  • 公开/公告号CN106502990A

    专利类型发明专利

  • 公开/公告日2017-03-15

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN201610969960.8

  • 发明设计人 严萌;朱燕飞;

    申请日2016-10-27

  • 分类号G06F17/27(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人杨炳财;屈慧丽

  • 地址 510062 广东省广州市越秀区东风东路729号大院

  • 入库时间 2023-06-19 01:46:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-11

    发明专利申请公布后的驳回 IPC(主分类):G06F17/27 申请公布日:20170315 申请日:20161027

    发明专利申请公布后的驳回

  • 2017-04-12

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20161027

    实质审查的生效

  • 2017-03-15

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号