首页> 中国专利> 基于中文汉字结构的小样本OOV学习方法及系统

基于中文汉字结构的小样本OOV学习方法及系统

摘要

本发明提出一种基于中文汉字结构的小样本OOV学习方法及系统,包括:从语料库中获取通用词表以及该词表的词嵌入,爬取该词表中所有词的汉字结构信息,来构造训练集和验证集;在基于汉字结构信息的小样本OOV词学习框架下,构建基于汉字结构信息的小样本OOV词嵌入学习模型并对其进行训练,更新学习模型中的参数;构造下游任务语料的测试集,将测试集输入到训练好的OOV词嵌入学习模型中,得到OOV词的词嵌入。基于汉字造字的结构规律,利用神经网络建模汉字部件之间的关系,建立OOV词嵌入学习模型,将汉字的结构信息嵌入与上下文信息的特征进行拼接融合,从而得到OOV词的语义信息重要特征。

著录项

  • 公开/公告号CN113901803A

    专利类型发明专利

  • 公开/公告日2022-01-07

    原文格式PDF

  • 申请/专利权人 中山大学;

    申请/专利号CN202111173367.X

  • 发明设计人 饶洋辉;陈姝睿;

    申请日2021-10-08

  • 分类号G06F40/284(20200101);G06F40/268(20200101);G06N3/08(20060101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人刘俊

  • 地址 510275 广东省广州市海珠区新港西路135号

  • 入库时间 2023-06-19 13:35:32

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号