首页> 中国专利> 基于知识蒸馏的预训练语言模型的压缩方法及平台

基于知识蒸馏的预训练语言模型的压缩方法及平台

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台，该方法首先设计一种普适的特征迁移的知识蒸馏策略，在教师模型的知识蒸馏到学生模型的过程中，将学生模型每一层的特征映射逼近教师的特征，重点关注小样本在教师模型中间层特征表达能力，并利用这些特征指导学生模型；然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法；最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力，设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明，将面向多任务的预训练语言模型进行自动压缩，提高语言模型的压缩效率。

著录项

公开/公告号CN111767711B

专利类型发明专利
公开/公告日2020-12-08

原文格式PDF
申请/专利权人之江实验室;
展开▼

申请/专利号CN202010910566.3
发明设计人王宏升;单海军;鲍虎军;
展开▼

申请日2020-09-02
分类号G06F40/211(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N5/02(20060101);G06N20/00(20190101);
代理机构33200 杭州求是专利事务所有限公司;
代理人邱启旺
地址 310023 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼
入库时间 2022-08-23 11:24:57

相似文献

专利
中文文献
外文文献

1. 基于知识蒸馏的预训练语言模型的压缩方法及平台 [P] . 中国专利： CN111767711B . 2020.12.08
2. 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台 [P] . 中国专利： CN112241455B . 2021.05.04
3. KNOWLEDGE DISTILLATION-BASED COMPRESSION METHOD FOR PRE-TRAINED LANGUAGE MODEL, AND PLATFORM [P] . WO2021248868A1 . 2021-12-16

机译：基于知识蒸馏的压缩方法，用于预先培训的语言模型和平台
4. Language model compression device, language model access device, language model compression method, language model access method, language model compression program, language model access program [P] . 日本专利： JP5349193B2 . 2013-11-20

机译：语言模型压缩装置，语言模型访问装置，语言模型压缩方法，语言模型访问方法，语言模型压缩程序，语言模型访问程序
5. LANGUAGE MODEL COMPRESSION DEVICE, ACCESS DEVICE OF LANGUAGE MODEL, LANGUAGE MODEL COMPRESSION METHOD, ACCESS METHOD OF LANGUAGE MODEL, LANGUAGE MODEL COMPRESSION PROGRAM, AND ACCESS PROGRAM OF LANGUAGE MODEL [P] . 日本专利： JP2011033806A . 2011-02-17

机译：语言模型压缩装置，语言模型的访问装置，语言模型压缩方法，语言模型的访问方法，语言模型压缩程序和语言模型的访问程序