首页> 中国专利> 文本处理方法、文本分类方法、装置、设备及存储介质

文本处理方法、文本分类方法、装置、设备及存储介质

摘要

本公开关于一种文本处理方法、文本分类方法、装置、设备及存储介质,该文本分类方法包括:获取待处理文本;在待处理文本的长度大于预设长度的情况下,从待处理文本中提取出预设长度的第一子文本;在第二子文本包括预设字符的情况下,拼接预设字符和第一子文本中的多个字符,得到预设长度的第一目标拼接文本;其中,第二子文本为待处理文本中除第一子文本之外的文本。本公开既解决了长文本字数不符合语言模型要求的问题,又可以从长文本中截取表示文本核心内容的关键字符和需要监测的主题名称的第一目标拼接文本对模型训练,从而提升了模型的性能,使得训练得到的语言模型在对文本进行分类时具有更高的准确率。

著录项

  • 公开/公告号CN114186060A

    专利类型发明专利

  • 公开/公告日2022-03-15

    原文格式PDF

  • 申请/专利权人 北京达佳互联信息技术有限公司;

    申请/专利号CN202111449196.9

  • 申请日2021-11-30

  • 分类号G06F16/35(20190101);G06F16/38(20190101);G06N20/00(20190101);G06F40/289(20200101);

  • 代理机构44202 广州三环专利商标代理有限公司;

  • 代理人贾允;方秀琴

  • 地址 100085 北京市海淀区上地西路6号1幢1层101D1-7

  • 入库时间 2023-06-19 14:31:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-15

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号