首页> 中国专利> 一种短文本特征提取与分类方法

一种短文本特征提取与分类方法

摘要

本发明公开了一种短文本特征提取与分类方法,属于信息处理技术领域。通过对词频、集中度标准差、关联度高的关键词进行加权系数的奖励,再综合三者,得到关键词的特征指数;根据特征指数对初始关键词库进行优化,删除关键词库中对识别文本所属的类别所起作用较小的一些字词,也即减少了会影响文本分类准确性的关键词,使得后续分类更准确。通过将关键词映射成二维坐标平面上的点,将文本数据与关键词库的匹配,得到文本数据对应的点集,将其中的点顺序排列并连接,即得到文本的特征折线,通过特征折线的相似度反应文本的相似度,并对折线相似度算法进行了修正,利用邻居与当前文本的“相似度”来给每个邻居赋予不同的重要性,从而分类更准确。

著录项

  • 公开/公告号CN111753084A

    专利类型发明专利

  • 公开/公告日2020-10-09

    原文格式PDF

  • 申请/专利权人 江南大学;

    申请/专利号CN202010502518.0

  • 发明设计人 王玉;鲁玥;孔祥智;

    申请日2020-06-04

  • 分类号G06F16/35(20190101);G06F16/33(20190101);G06F40/289(20200101);

  • 代理机构23211 哈尔滨市阳光惠远知识产权代理有限公司;

  • 代理人彭素琴

  • 地址 214000 江苏省无锡市滨湖区蠡湖大道1800号

  • 入库时间 2023-06-19 08:30:12

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号