西夏古籍文字样本数据库的创建及应用技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

古籍文献的数字信息化，有利于古籍文献的保护整理与研究交流，是现代社会研究古籍文献的主要渠道。西夏文是记录西夏党项族的一种古文字，通过古籍文献中的西夏文字能够充分了解当时西夏的社会历史形态和民族文化，因此当前发掘并保存的西夏古籍文献是研究西夏文的重要窗口。但由于年代久远，能存留至今的西夏古籍文献少之又少，并且存在纸张毁坏，文字不清等问题，严重阻碍了西夏文的数字化发展。如今光学字符识别、机器学习等技术将极大地帮助人们对古籍文字的解读，但这些技术都是基于文字数据库的，文字数据库为文字识别提供了训练样本和评价标准。因此建立标准、公开、通用的西夏文字样本数据库是开展西夏文识别研究的前提和基础。西夏文样本数据库不仅为西夏文智能识别算法提供测试样本和评价标准，同时能够弥补熟练掌握西夏文语言专家的稀缺性，为西夏学研究者提供更加便利的科研工具和高效的科研方法，也为古籍数字化文献信息检索在方式和内容提供有力支持。
　　目前针对西夏文识别的样本数据库的建立尚处于空白阶段，本文重点探讨西夏文样本库的建立及应用技术研究。首先选择西夏文佛经文献作为数据源，然后对扫描后的古籍图像进行预处理和文字提取，将标注提取到的西夏文字图像信息组织整理为西夏文古籍样本数据库，包括文本样本数据库和单字样本数据库。文本数据库以Excel表格文件的形式组织，通过阅读Excel表中的信息，用户能方便地查询西夏文字并改善传统注释方式;单字符数据库以字符频率的顺序进行组织，单字符图像文件严格按照规定进行命名，以确保西夏学研究者在查阅研究西夏古籍文献时，通过数据库检索，方便地查询出该西夏字在哪些文献中出现过以及如何被翻译注释的。最后在创建的样本数据库的基础上开展西夏文智能识别研究，采用卷积神经网络建立深度学习模型对西夏文数据库进行训练学习，同时为了解决样本不均衡问题，提出了基于MLSD样本扩充技术提高对西夏文学习和识别算法性能。总之，在本文中，建立一个具有理论研究和实际应用价值的西夏文样本数据库，对于促进西夏文数字化的发展大有裨益。

著录项

作者
杨文慧;
展开▼
作者单位

宁夏大学;

展开▼
授予单位宁夏大学;
学科电子与通信工程
授予学位硕士
导师姓名刘丽萍,孟一飞;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类善本、线装古籍;
关键词
西夏文; 古籍文献; 文字提取; 样本数据库; 深度学习;

相似文献

中文文献
外文文献
专利

1. 基于西夏古籍文字样本数据库设计与实现 [J] . 孟一飞 ,杨文慧 ,谢堂健 . 电脑与信息技术 . 2017,第006期
2. 基于文字构件的西夏文字体库创建研究 [J] . 孟一飞 ,杨文慧 ,谢堂健 . 电脑知识与技术 . 2017,第026期
3. 基于迁移学习的少样本朝鲜语古籍文字的识别方法 [J] . 薛春寒 ,金小峰 . 延边大学学报（自然科学版） . 2021,第004期
4. 如何让书写在古籍里的文字活起来——以山东省图书馆为样本 [J] . 王珂 . 人文天下 . 2015,第022期
5. 如何让书写在古籍里的文字活起来——以山东省图书馆为样本 [J] . 王珂 . 戏剧丛刊 . 2015,第022期
6. 西夏文古籍字库建立研究 [C] . 柳长青 . 首届西夏学国际论坛（黑水城文献与西夏国际学术论坛） . 2010
7. 基于优化分割与提取的西夏古籍文字识别研究 [A] . 李小璐 . 2019

西夏古籍文字样本数据库的创建及应用技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅