首页> 中国专利> 基于局部自注意力机制和分割树的多准则中文分词方法

基于局部自注意力机制和分割树的多准则中文分词方法

摘要

本发明公开了一种基于局部注意力机制和分割树的多准则中文分词方法。本发明对于语料库的一个文本序列,实现步骤如下:输入一个文本序列,通过word2vec获得每一个字符的unigram特征和Bigram特征,与预先定义的位置向量相结合作为嵌入层,将它传入到自注意力网络,并得到它的输出。将它通过crf层解码,对每个字符进行标注,并得到多个标注结果。将他的标注结果组合成一棵分割树,形成多个分割序列。将多个分割序列输入到评分系统,选择分数最高的那组分割序列作为输出。本发明提高了多准则分词的准确率。

著录项

  • 公开/公告号CN111507102A

    专利类型发明专利

  • 公开/公告日2020-08-07

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN202010158997.9

  • 发明设计人 张旻;夏小勇;姜明;汤景凡;

    申请日2020-03-09

  • 分类号G06F40/289(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33240 杭州君度专利代理事务所(特殊普通合伙);

  • 代理人朱月芬

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-12-17 11:36:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-07

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号