NKCorpus:利用海量网络数据构建大型高质量中文数据集

李东闻; 钟震宇; 申峻宇; 王昊天; 孙羽菲; 张玉志

首页> 中文期刊> 《数据与计算发展前沿》 >NKCorpus:利用海量网络数据构建大型高质量中文数据集

NKCorpus:利用海量网络数据构建大型高质量中文数据集

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。

著录项

来源
《数据与计算发展前沿》 |2022年第3期|30-45|共16页
作者
李东闻; 钟震宇; 申峻宇; 王昊天; 孙羽菲; 张玉志;
展开▼
作者单位

南开大学;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
自然语言处理; 中文数据集; 数据集构建;

相似文献

中文文献
外文文献
专利

1. 农机虚拟装配分类检测网络数据集构建方法 [J] . 李承恩 ,邹湘军 ,练国平 . 华南农业大学学报 . 2021,第6期
2. 多目标情感分类中文数据集构建及分析研究 [J] . 刘鹏远 ,田永胜 ,杜成玉 . 中文信息学报 . 2021,第6期
3. 中文矛盾语块数据集构建和边界识别研究 [J] . 李博涵 ,姜姗 ,刘畅 . 中文信息学报 . 2020,第3期
4. 基于弱监督和半自动方法的中文关系抽取数据集构建 [J] . 马超义 ,徐蔚然 . 中文信息学报 . 2017,第5期
5. 基于主动学习的中文问题分类数据集构建 [J] . 邱锡鹏 ,缪有栋 ,黄萱菁 . 哈尔滨工业大学学报 . 2012,第005期
6. 中文矛盾语块数据集构建和边界识别研究 [C] . LI Bohan ,李博涵 ,JIANG Shan . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于海量互联网网页文本的中文概念知识库构建算法研究及应用 [A] . 陈建超 . 2009

NKCorpus:利用海量网络数据构建大型高质量中文数据集

摘要

著录项

相似文献

相关主题

期刊订阅