基于预训练语言模型的BERT-CNN多层级专利分类研究

陆晓蕾; 倪斌

首页> 中文期刊> 《中文信息学报》 >基于预训练语言模型的BERT-CNN多层级专利分类研究

基于预训练语言模型的BERT-CNN多层级专利分类研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

文献数据库（团队版） >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

专利文献的自动分类对于知识产权保护、专利管理和专利信息检索十分重要,构建准确的专利自动分类器可以为专利发明人、专利审查员提供辅助支持。该文以专利文献分类为研究任务,选取国家信息中心公布的全国专利申请信息为实验数据,提出了基于预训练语言模型的BERT-CNN多层级专利分类模型。实验结果表明:在该数据集上,BERT-CNN模型在准确率上达到了84.3%,大幅度领先于卷积神经网络和循环神经网络等其他深度学习算法。BERT抽取的特征向量在表达词汇与语义方面比传统Word2Vec具有更加强大的性能。另外,该文还探讨了全局与局部策略在专利多层文本分类上的差异。

著录项

来源
《中文信息学报》 |2021年第11期|70-79|共10页
作者
陆晓蕾; 倪斌;
展开▼
作者单位

厦门大学外文学院;

中国科学院计算技术研究所厦门数据智能研究院;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;专利;
关键词
专利; 文本分类; BERT;

相似文献

中文文献
外文文献
专利

1. 基于深度预训练语言模型的文献学科自动分类研究 [J] . 罗鹏程 ,王一博 ,王继民 . 情报学报 . 2020,第010期
2. 基于医学大数据的预训练语言模型及其医学文本分类研究 [J] . 黄敏婷 ,赵静 ,于涛 . 中华医学图书情报杂志 . 2020,第011期
3. 基于预训练语言模型的公众健康问句分类 [J] . 谢甲琦 ,李政 . 医学信息学杂志 . 2021,第12期
4. 基于BERT预训练语言模型的电网设备缺陷文本分类 [J] . 田园 ,原野 ,刘海斌 . 南京理工大学学报（自然科学版） . 2020,第004期
5. 基于双向预训练语言模型的文本情感分类 [J] . 马力 ,王璐琳 . 西安邮电大学学报 . 2020,第005期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于预训练语言模型的中文短文本分类研究 [A] . 夏梓渊 . 2021

基于预训练语言模型的BERT-CNN多层级专利分类研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅