SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究

王东波; 刘畅; 朱子赫; 刘江峰; 胡昊天; 沈思; 李斌

首页> 中文期刊>图书馆论坛 >SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究

SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已在相关领域提升了文本挖掘精度,数字人文研究的兴起亟须面向古文自动处理领域的预训练模型。文章以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建面向古文智能处理任务的SikuBERT和SikuRoBERTa预训练语言模型。实验进一步设计面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对SikuBERT、SikuRoBERTa预训练模型和其他3种基线模型(BERT-base、RoBERTa、GuwenBERT)进行对比试验。结果显示:SikuBERT和SikuRoBERTa模型在全部4个下游验证任务中的表现均超越其他基线预训练模型,表明文章提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。基于验证任务效果最优的SikuRoBERTa预训练模型,进一步构建“SIKUBERT典籍智能处理平台”。该平台提供典籍自动处理、检索和自动翻译等在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。

著录项

来源
《图书馆论坛》|2022年第6期|30-43|共14页
作者
王东波; 刘畅; 朱子赫; 刘江峰; 胡昊天; 沈思; 李斌;
展开▼
作者单位

南京农业大学信息管理学院;

南京大学信息管理学院;

南京理工大学经济管理学院;

南京师范大学文学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类中等教育;
关键词
数字人文; 四库全书; 预训练模型; 深度学习;
入库时间 2022-09-28 18:43:40

相似文献

中文文献
外文文献
专利

1. 面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例 [J] . 耿云冬 ,张逸勤 ,刘欢 . 图书馆论坛 . 2022,第6期
2. 面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例 [J] . 刘畅 ,王东波 ,胡昊天 . 图书馆论坛 . 2022,第6期
3. 面向数字人文的馆藏方志古籍地名自动识别模型构建 [J] . 李娜 ,包平 . 图书馆 . 2018,第005期
4. 数字人文视域下云锦图像本体识别模型构建及应用研究 [J] . 卢璐 ,袁高腾 ,梅嘉 . 智能计算机与应用 . 2021,第12期
5. 面向问题生成的预训练模型适应性优化方法研究 [J] . 苏玉兰 ,洪宇 ,朱鸿雨 . 中文信息学报 . 2022,第3期
6. 面向智能产品的数字孪生体功能模型构建方法 [C] . ZHOU Youcheng ,周有城 ,WU Chunlong . 2018年第二届数字孪生与智能制造服务学术会议 . 2018
7. 面向无监督多语言神经机器翻译的预训练模型研究 [A] . 薛擎天 . 2021

SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究

摘要

著录项

相似文献

相关主题

期刊订阅