首页> 中国专利> 文本类型识别方法及装置

文本类型识别方法及装置

摘要

本申请提供一种文本类型识别方法及装置,用于解决现有技术中文本类型识别准确度低的技术问题。其中,一种文本类型识别方案,包括:获取语料数据;去除所述语料数据中的无效信息,生成预处理语料数据;对所述预处理语料数据的文本内容进行分词,生成由若干分词单元组成的若干句子集合;计算若干句子集合中各句子与模板句的语义相似度,选取语义相似度超过第一判断阈值的句子,记为关键句;识别关键句中的关键词组,确定文本类型。本发明通过识别语料数据中的关键句、关键词,确定文本类型。并且通过去除语料数据中的无效信息,避免了无效信息被误判为关键信息,从而提高了文本类型识别的准确度。

著录项

  • 公开/公告号CN113673243A

    专利类型发明专利

  • 公开/公告日2021-11-19

    原文格式PDF

  • 申请/专利权人 上海浦东华宇信息技术有限公司;

    申请/专利号CN202110967393.3

  • 发明设计人 杨一帆;刘悦华;

    申请日2021-08-23

  • 分类号G06F40/289(20200101);G06F16/28(20190101);G06F40/216(20200101);G06F40/30(20200101);

  • 代理机构11640 北京中索知识产权代理有限公司;

  • 代理人胡大成

  • 地址 201203 上海市浦东新区中国(上海)自由贸易试验区祖冲之路899号2幢4层

  • 入库时间 2023-06-19 13:20:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-04-22

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号