首页> 中国专利> 基于预训练模型的学术文本语义特征提取方法、系统和存储介质

基于预训练模型的学术文本语义特征提取方法、系统和存储介质

摘要

本发明提供一种基于预训练模型的学术文本语义特征提取方法、系统和存储介质,所述方法包括:获取学术资源文本数据;将获得的学术资源文本数据输入至预训练模型,得到多维的学术文本语义特征向量;所述预训练模型是基于多重负样例损失函数对Bert预训练模型进行微调、将微调后的Bert预训练模型作为教师模型通过知识蒸馏来训练学生模型得到的学生预训练模型;将所述多维的学术文本语义特征向量进行降维压缩,输出最终的学术文本语义特征。本发明在提高向量生成质量的同时加快了向量生成的速度,适用于学术大数据场景下的文本向量生成。

著录项

  • 公开/公告号CN114841173B

    专利类型发明专利

  • 公开/公告日2022.11.18

    原文格式PDF

  • 申请/专利权人 北京邮电大学;

    申请/专利号CN202210778073.8

  • 发明设计人 杜军平;王岳;薛哲;梁美玉;

    申请日2022.07.04

  • 分类号G06F40/30;G06F40/211;G06K9/62;

  • 代理机构北京金咨知识产权代理有限公司;

  • 代理人宋教花

  • 地址 100876 北京市海淀区西土城路10号

  • 入库时间 2022-12-29 02:00:48

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号