优化预训练模型的小语料中文文本分类方法

陈蓝; 杨帆; 曾桢

首页> 中文期刊>现代计算机 >优化预训练模型的小语料中文文本分类方法

优化预训练模型的小语料中文文本分类方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对GloVe、BERT模型生成的字向量在小语料库中表义不足的问题,提出融合向量预训练模型,对小语料中文短文本分类的精确度进行提升。本文以今日头条新闻公开数据集为实验对象,使用GloVe、BERT模型通过领域预训练,对GloVe与BERT生成的预训练字向量进行向量融合,实现语义增强,从而提升短文本分类效果。结果表明,当语料库中的数据量为500时,融合字向量的准确度相较于BERT字向量的准确度提升了5个百分点,相较于GloVe字向量的准确度提升了3个百分点。词义选取的维度待进一步加强。本文所提方法能够对小语料库的短文本数据实现精准分类,对后续文本挖掘工作具有重要意义。

著录项

来源
《现代计算机》|2022年第16期|1-8|共9页
作者
陈蓝; 杨帆; 曾桢;
展开▼
作者单位

贵州财经大学信息学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类中等教育;
关键词
BERT; GLOVE; 向量融合; 小语料; 短文本;
入库时间 2022-11-24 05:28:26

相似文献

中文文献
外文文献
专利

1. 基于ALBERT预训练模型的通用中文命名实体识别方法 [J] . 吕海峰 ,冀肖榆 ,陈伟业 . 梧州学院学报 . 2022,第3期
2. 联合知识图谱和预训练模型的中文关键词抽取方法 [J] . 姚奕 ,杨帆 . 计算机科学 . 2022,第10期
3. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [J] . 谢海华 ,李奥林 ,李亚博 . 中文信息学报 . 2021,第5期
4. 大规模文本分类的训练语料去噪方法研究 [J] . 高雄 ,韩红旗 ,王力 . 情报工程 . 2021,第004期
5. 大规模文本分类的训练语料去噪方法研究 [J] . 高雄 ,韩红旗 ,王力 . 情报工程 . 2021,第004期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于预训练语言模型的中文短文本分类研究 [A] . 夏梓渊 . 2021

优化预训练模型的小语料中文文本分类方法

摘要

著录项

相似文献

相关主题

期刊订阅