首页> 中国专利> 基于词频分布的文字分类方法、装置、设备及介质

基于词频分布的文字分类方法、装置、设备及介质

摘要

本发明提出了一种基于词频分布的文字分类方法、装置、设备及介质。包括:获取历史短信样本,将历史短信样本分成训练集合以及验证集合,从训练集合中选择关键词并建立对应的矩阵,提取特征值,根据该特征值获取对应关键词的频率向量以及对应的分类组别,根据该频率向量构建向量空间,获取标准化关键词频率向量;根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离,根据距离对短信息进行分类,本发明通过构建向量空间来对短信息进行分类,并在分类结束之后,对分类过程进行优化和迭代,能够高效、精准完成短信息自动分类。

著录项

  • 公开/公告号CN110955774A

    专利类型发明专利

  • 公开/公告日2020-04-03

    原文格式PDF

  • 申请/专利权人 武汉光谷信息技术股份有限公司;

    申请/专利号CN201911084640.4

  • 发明设计人 郭晓麟;高刃;李红艳;

    申请日2019-11-08

  • 分类号

  • 代理机构武汉红观专利代理事务所(普通合伙);

  • 代理人李季

  • 地址 430000 湖北省武汉市东湖新技术开发区高新大道888号高农生物园总部A区19#楼

  • 入库时间 2023-12-17 07:13:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-01

    实质审查的生效 IPC(主分类):G06F16/35 申请日:20191108

    实质审查的生效

  • 2020-04-03

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号