面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例

胡昊天; 张逸勤; 邓三鸿; 王东波; 冯敏萱; 刘浏; 李斌

首页> 中文期刊>图书馆论坛 >面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例

面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。

著录项

来源
《图书馆论坛》|2022年第12期|138-148|共11页
作者
胡昊天; 张逸勤; 邓三鸿; 王东波; 冯敏萱; 刘浏; 李斌;
展开▼
作者单位

南京大学信息管理学院;

南京农业大学信息管理学院;

南京师范大学文学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类图书馆学、图书馆事业;
关键词
预训练模型; SikuBERT; 文本分类; 数字人文; 四库全书子部;

相似文献

中文文献
外文文献
专利

1. SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究 [J] . 王东波 ,刘畅 ,朱子赫 . 图书馆论坛 . 2022,第6期
2. 面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例 [J] . 耿云冬 ,张逸勤 ,刘欢 . 图书馆论坛 . 2022,第6期
3. 面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例 [J] . 刘畅 ,王东波 ,胡昊天 . 图书馆论坛 . 2022,第6期
4. 面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例 [J] . 孙文龙 ,张逸勤 ,王凡铭 . 图书馆论坛 . 2022,第10期
5. 数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例 [J] . 林立涛 ,王东波 ,刘江峰 . 图书馆论坛 . 2022,第10期
6. 试论古籍文献的保护和数字化情况——以《四库全书》为例 [C] . 范文静 . 决策论坛——企业行政管理与创新学术研讨会 . 2016
7. 《四库全书总目》子部艺术类书法文献研究 [A] . 史艳利 . 2020

面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例

摘要

著录项

相似文献

相关主题

期刊订阅