Automatic Diacritics Restoration for Dialectal Arabic Text

Ayman A. Zayyan; Mohamed Elmahdy; Husniza binti Husni; Jihad M. Al Ja’am

首页> 外文期刊>International Journal of Computing and Information Sciences >Automatic Diacritics Restoration for Dialectal Arabic Text

【24h】

Automatic Diacritics Restoration for Dialectal Arabic Text

机译：方言阿拉伯文字的变音符号自动恢复

获取原文

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In this paper, the problem of missing diacritic marks in most of dialectal Arabic written resources is addressed. Our aim is to implement a scalable and extensible platform for automatically retrieving the diacritic marks for undiacritized dialectal Arabic texts. Different rule-based and statistical techniques are proposed. These include: maximum likelihood estimate, and statistical n-gram models. The proposed platform includes helper tools for text pre-processing and encoding conversion. Diacritization accuracy of each technique is evaluated in terms of Diacritic Error Rate (DER) and Word Error Rate (WER). The approach trains several n-gram models on different lexical units. A data pool of both Modern Standard Arabic (MSA) data along with Dialectal Arabic data was used to train the models.

机译：在本文中，解决了大多数方言阿拉伯文字资源中的变音符号丢失的问题。我们的目标是实现一个可扩展和可扩展的平台，以自动检索未发音的方言阿拉伯文字的变音符号。提出了不同的基于规则的统计技术。其中包括：最大似然估计和统计n-gram模型。提议的平台包括用于文本预处理和编码转换的辅助工具。根据变音符号错误率（DER）和字错误率（WER）评估每种技术的双歧化准确性。该方法在不同的词汇单元上训练几个n元语法模型。同时使用现代标准阿拉伯语（MSA）数据和方言阿拉伯语数据的数据库来训练模型。

著录项

来源
《International Journal of Computing and Information Sciences》 |2016年第2期|共7页
作者
Ayman A. Zayyan; Mohamed Elmahdy; Husniza binti Husni; Jihad M. Al Ja’am;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种
中图分类自动化系统理论;
关键词

相似文献

外文文献
中文文献
专利

1. Automatic Diacritics Restoration for Tunisian Dialect [J] . Masmoudi Abir, Mdhaffar Salima, Sellami Rahma, ACM transactions on Asian language information processing . 2019,第3期

机译：突尼斯方言的自动变音符恢复
2. AUTOMATIC RESTORATION OF ARABIC DIACRITICS: A SIMPLE, PURELY STATISTICAL APPROACH [J] . Mansour Alghamdi, Zeeshan Muzaffar, Hazim Alhakami The Arabian journal for science and engineering . 2010,第2C期

机译：阿拉伯文言语的自动修复：一种简单，完全统计的方法
3. An adaptive text-line extraction algorithm for printed Arabic documents with diacritics [J] . Khader Mohammad, Aziz Qaroush, Mahdi Washha, Multimedia Tools and Applications . 2021,第2期

机译：一种自适应文本线提取算法，具有变音的印刷阿拉伯文档
4. Diacritics restoration for Arabic dialect texts [C] . S. Harrat, M. Abbas, K. Meftouh, Conference of the International Speech Communication Association . 2013

机译：阿拉伯语方言文本的变形恢复
5. Automatic dialect classification: Advances for read and spontaneous speech, and printed text. [D] . Huang, Rongqing. 2006

机译：自动方言分类：用于阅读和自发语音以及印刷文本的改进。
6. SANAD: Single-label Arabic News Articles Dataset for automatic text categorization [O] . Omar Einea, Ashraf Elnagar, Ridhwan Al Debsi 2019

机译：SANAD：用于自动文本分类的单标签阿拉伯新闻文章数据集
7. AUTOMATIC DIACRITICS RESTORATION FOR ARABIC TEXT [O] . 100

机译：阿拉伯语文本的自动分析修复

Automatic Diacritics Restoration for Dialectal Arabic Text

摘要

著录项

相似文献

相关主题

期刊订阅