首页> 中文学位 >西夏古籍文字样本数据库的创建及应用技术研究
【6h】

西夏古籍文字样本数据库的创建及应用技术研究

代理获取

目录

声明

摘要

第一章绪论

1.1课题研究的背景

1.2课题研究的意义

1.3西夏文古籍数字化研究的现状

1.4本文主要研究内容和章节安排

第二章西夏文样本数据库的总体设计方案和古籍图像预处理

2.1西夏文样本数据库的总体设计思路

2.2西夏文样本数据库中数据源选取分析

2.3图像扫描

2.4西夏古籍图像预处理

2.5本章小结

第三章西夏古籍文字提取技术研究

3.1常用的文字提取算法研究

3.2西夏古籍图像版面分析和文字提取的难点

3.3基于K-means算法的西夏古籍图像分割

3.4基于直方图投影的西夏文字切分

3.5本章小结

第四章西夏文样本数据库的设计与实现

4.1样本标注和汉字表的建立

4.2文本样本数据库建立

4.3单字样本数据库建立

4.4西夏文样本数据库的宏观统计分析

4.5本章小结

第五章基于深度学习在西夏文识别中的应用研究

5.1深度学习简介

5.2基于MLSD的字符样本扩充

5.3基于卷积神经网络的西夏文识别训练

5.4对测试集西夏文的识别和评估

5.5本章小节

第六章总结和展望

6.1总结

6.2展望

参考文献

致谢

个人简介

展开▼

摘要

古籍文献的数字信息化,有利于古籍文献的保护整理与研究交流,是现代社会研究古籍文献的主要渠道。西夏文是记录西夏党项族的一种古文字,通过古籍文献中的西夏文字能够充分了解当时西夏的社会历史形态和民族文化,因此当前发掘并保存的西夏古籍文献是研究西夏文的重要窗口。但由于年代久远,能存留至今的西夏古籍文献少之又少,并且存在纸张毁坏,文字不清等问题,严重阻碍了西夏文的数字化发展。如今光学字符识别、机器学习等技术将极大地帮助人们对古籍文字的解读,但这些技术都是基于文字数据库的,文字数据库为文字识别提供了训练样本和评价标准。因此建立标准、公开、通用的西夏文字样本数据库是开展西夏文识别研究的前提和基础。西夏文样本数据库不仅为西夏文智能识别算法提供测试样本和评价标准,同时能够弥补熟练掌握西夏文语言专家的稀缺性,为西夏学研究者提供更加便利的科研工具和高效的科研方法,也为古籍数字化文献信息检索在方式和内容提供有力支持。
  目前针对西夏文识别的样本数据库的建立尚处于空白阶段,本文重点探讨西夏文样本库的建立及应用技术研究。首先选择西夏文佛经文献作为数据源,然后对扫描后的古籍图像进行预处理和文字提取,将标注提取到的西夏文字图像信息组织整理为西夏文古籍样本数据库,包括文本样本数据库和单字样本数据库。文本数据库以Excel表格文件的形式组织,通过阅读Excel表中的信息,用户能方便地查询西夏文字并改善传统注释方式;单字符数据库以字符频率的顺序进行组织,单字符图像文件严格按照规定进行命名,以确保西夏学研究者在查阅研究西夏古籍文献时,通过数据库检索,方便地查询出该西夏字在哪些文献中出现过以及如何被翻译注释的。最后在创建的样本数据库的基础上开展西夏文智能识别研究,采用卷积神经网络建立深度学习模型对西夏文数据库进行训练学习,同时为了解决样本不均衡问题,提出了基于MLSD样本扩充技术提高对西夏文学习和识别算法性能。总之,在本文中,建立一个具有理论研究和实际应用价值的西夏文样本数据库,对于促进西夏文数字化的发展大有裨益。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号