首页> 中文期刊>科学技术与工程 >面向汉字矢量图形特征的字向量表征方法

面向汉字矢量图形特征的字向量表征方法

     

摘要

为解决现有中文字向量表征方法中字形特征利用不充分的问题,利用矢量图形的尺度不变性,提出了一种面向汉字矢量图形特征的字向量(scalable vector graphics to vector,SVG2vec)表征方法。预处理阶段将汉字像素图像转化矢量图形,生成字形矢量坐标对序列;特征学习阶段采用双向循环神经网络(recurrent neural network,RNN)和自回归混合密度循环神经网络构建矢量图形变分自编码器模型,利用模型学习汉字字形结构特征;向量生成阶段输入字形矢量坐标对序列到编码器,编码器将字形特征映射到概率连续分布空间,得到SVG2vec字向量。与已有字向量在不同层级任务上进行对比实验。结果表明:SVG2vec向量在命名实体识别、中文分词和短文本相似度计算实验中,F1均值比Word2vec、GloVe等未利用字形特征的向量分别提高了1.27、0.4,1.67、0.12,3.28、2.03,比GnM2Vec、CWE等利用字形特征的向量分别提高了1.02、1.07,1.69、1.34,0.04、0.31,SVG2vec能更有效利用汉字字形特征。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号