首页> 中国专利> 一种基于seq2seq模型的中文分词方法

一种基于seq2seq模型的中文分词方法

摘要

本发明公开了一种基于seq2seq模型的中文分词方法,包括:步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;步骤3、将步骤2得到的字向量矩阵采用mini‑batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列;步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。所述方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,有效提高了分词的准确率。

著录项

  • 公开/公告号CN108491372B

    专利类型发明专利

  • 公开/公告日2021-06-08

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201810094751.2

  • 发明设计人 史景伦;刘玉德;宁培阳;王桂鸿;

    申请日2018-01-31

  • 分类号G06F40/30(20200101);G06N3/04(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人李斌

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2022-08-23 11:56:06

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号