首页> 中国专利> 一种使用序列标注进行识别文本分段的方法

一种使用序列标注进行识别文本分段的方法

摘要

本发明提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;C、将所述序列模型与所述不同文字段建立映射,对映射后的簇序列训练序列标注模型;D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。通过样本集合为数据库范本,进行标准化建模。在后续识别文本分段时,把对待分段文本中的句式模型进行标准化,而后依据模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。

著录项

  • 公开/公告号CN111191456A

    专利类型发明专利

  • 公开/公告日2020-05-22

    原文格式PDF

  • 申请/专利权人 零氪科技(天津)有限公司;

    申请/专利号CN201811360997.6

  • 申请日2018-11-15

  • 分类号

  • 代理机构北京华夏正合知识产权代理事务所(普通合伙);

  • 代理人韩登营

  • 地址 300000 天津市滨海新区天津自贸试验区(中心商务区)新华路3678号宝风大厦25层

  • 入库时间 2023-12-17 08:25:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-16

    实质审查的生效 IPC(主分类):G06F40/30 申请日:20181115

    实质审查的生效

  • 2020-05-22

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号