UCOM Offline Dataset-An Urdu Handwritten Dataset Generation

Bin Ahmed Saad; Naz Saeeda; Swati Salahuddin; Razzak Imran; Umar Arif Iqbal; Khan Akbar Ali

首页> 外文期刊>The international arab journal of information technology >UCOM Offline Dataset-An Urdu Handwritten Dataset Generation

【24h】

UCOM Offline Dataset-An Urdu Handwritten Dataset Generation

机译：UCOM离线数据集-乌尔都语手写数据集生成

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

A benchmark database for character recognition is an essential part for efficient and robust development. Unfortunately, there is no comprehensive handwritten dataset for Urdu language that would be used to compare the state of the art techniques in the field of optical character recognition. In this paper, we present a new and publically available dataset comprising 600 pages of handwritten Urdu text written in Nasta'liq style in conjunction with detailed ground truth for the evaluation of handwritten Urdu character recognition. This dataset contains text lines written in Nasta 'lig style by limited individuals on A4 size paper. The acquired data on page was scanned and text lines were segmented. UCOM database covers all Urdu characters and ligatures with different variation in addition to Urdu numeric data. We have considered that ligature consists of up to five characters in this dataset. The UCOM dataset can be used for handwritten character recogntition as well as writer identification. We proposed and evaluated the strength of Recurrent Neural Networks (RNN) on UCOM offline database sample text line.

机译：用于字符识别的基准数据库是有效而强大的开发的重要组成部分。不幸的是，没有用于乌尔都语语言的完整手写数据集可用于比较光学字符识别领域的最新技术。在本文中，我们提出了一个新的公开可用的数据集，其中包括600页以Nasta'liq风格编写的乌尔都语手写文本以及详细的地面真实性，用于评估乌尔都语手写字符识别。该数据集包含由A4尺寸纸张上的有限个人以Nasta'lig样式书写的文本行。扫描页面上获取的数据并分割文本行。除乌尔都语数字数据外，UCOM数据库还涵盖所有具有不同变体的乌尔都语字符和连字。我们认为连字在此数据集中最多包含五个字符。 UCOM数据集可用于手写字符识别以及作者识别。我们在UCOM离线数据库示例文本行上提出并评估了递归神经网络（RNN）的强度。

著录项

来源
《The international arab journal of information technology》 |2017年第2期|239-245|共7页
作者
Bin Ahmed Saad; Naz Saeeda; Swati Salahuddin; Razzak Imran; Umar Arif Iqbal; Khan Akbar Ali;
展开▼
作者单位

King Saud Bin Abdul Aziz Univ Hlth Sci, Coll Publ Hlth & Hlth Informat, King, WI, Saudi Arabia;

Hazara Univ, Dept Informat Technol, Dhodial, Pakistan|GGPGC 1, Higher Educ Dept, Abbottabad, Pakistan;

COMSATS Inst Informat Technol, Islamabad, Pakistan;

King Saud Bin Abdul Aziz Univ Hlth Sci, Coll Publ Hlth & Hlth Informat, King, WI, Saudi Arabia;

Hazara Univ, Dept Informat Technol, Dhodial, Pakistan;

COMSATS Inst Informat Technol, Islamabad, Pakistan;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Recurrent neural networks; optical character recognition; cursive; offline handwriting;

机译：递归神经网络;光学字符识别;草书;离线手写;

相似文献

外文文献
中文文献
专利

1. A Four-Tier Annotated Urdu Handwritten Text Image Dataset for Multidisciplinary Research on Urdu Script [J] . PRAKASH CHOUDHARY, NEETA NAIN ACM transactions on Asian language information processing . 2016,第4期

机译：四层注释的乌尔都语手写文本图像数据集，用于乌尔都语脚本的多学科研究
2. Pioneer dataset and automatic recognition of Urdu handwritten characters using a deep autoencoder and convolutional neural network [J] . Hazrat Ali, Ahsan Ullah, Talha Iqbal, SN Applied Sciences . 2020,第2期

机译：使用深度自动编码器和卷积神经网络的先锋数据集和Urdu手写字符的自动识别
3. A new dataset of word-level offline handwritten numeral images from four official Indic scripts and its benchmarking using image transform fusion [J] . Sk Md Obaidullah, Chayan Halder, Nibaran Das, International journal of intelligent engineering informatics . 2016,第1期

机译：来自四个官方印度文字的单词级离线手写数字图像的新数据集，以及使用图像变换融合的基准测试
4. An attention based method for offline handwritten Urdu text recognition [C] . Tayaba Anjum, Nazar Khan International Conference on Frontiers in Handwriting Recognition . 2020

机译：基于注意力的离线乌尔都语手写文本识别方法
5. Novel Word Recognition and Word Spotting Systems for Offline Urdu Handwriting. [D] . Sagheer, Malik Waqas. 2010

机译：用于脱机乌尔都语手写体的新型单词识别和单词发现系统。
6. Comparison between Online and Offline Price of Tobacco Products Using Novel Datasets [O] . Magdalena Opazo Breton, John Britton, Yue Huang, 2018

机译：使用新型数据集比较烟草产品的在线和离线价格
7. Offline Recognition of Handwritten Urdu Characters using B Spline Curves: A Survey [O] . Mohd Jameel, Sanjay Kumar 2017

机译：使用B样条曲线的手写URDU字符的离线识别：调查

UCOM Offline Dataset-An Urdu Handwritten Dataset Generation

摘要

著录项

相似文献

相关主题

期刊订阅