首页> 外文OA文献 >Ein Programm zur Sprachanalyse von indischen Texten mit integriertem OCR-Modul
【2h】

Ein Programm zur Sprachanalyse von indischen Texten mit integriertem OCR-Modul

机译:带有集成OCR模块的印度文字语言分析程序

摘要

The dissertation deals with the development and implementation of two programs for digitalizing (OCR) and tagging Sanskrit texts printed in Devanagari.Images of text are digitalized using neural networks which are trained with the backpropagation algorithm. Additionally knn-classificators based on the current typeface can be activated and trained to improve the result of the recognition process. Depending on the quality of the printed text and the typeset, recognition rates of 93-98% can be obtained, most of the errors resulting from wrong segmentation of the lines of text. Furthermore the possibility (and limitations) of a language based postprocessing of the text are discussed.The automatical analysis of Sanskrit sentences (tagging) is complicated by language immanent problems - e.g. Sandhi (euphonic rules), the size of the vocabulary used and the formation of composite words. To segment sequences of untagged text the program uses a recursive algorithm based on a number of morphological rules (mainly based on Panini), the lexical contents of a large database which had to be build for the program and statistical information from already tagged texts.The main target of the digitalization is the creation of a database of tagged Sanskrit texts which can be searched and analyzed effectively. In a final chapter some simple implementations of more advanced searching algorithms are discussed.
机译:本文研究和开发了两个数字化程序(OCR)和标记梵文印刷的梵文文本程序。使用反向传播算法训练的神经网络将文本图像数字化。另外,可以激活和训练基于当前字体的knn分类器,以改善识别过程的结果。取决于打印文本的质量和排版,可以获得93-98%的识别率,其中大多数错误是由错误的文本行分割引起的。此外,还讨论了基于语言的文本后处理的可能性(和局限性)。梵语句子的自动分析(标记)由于语言固有的问题而变得很复杂-例如Sandhi(谐音规则),使用的词汇量以及复合词的形成。为了对未加标签的文本序列进行分段,程序使用了基于许多形态规则(主要基于Panini)的递归算法,必须为程序建立的大型数据库的词汇内容以及已加标签的文本的统计信息。数字化的主要目标是创建一个可以有效搜索和分析带标签的梵文文本的数据库。在最后一章中,讨论了一些更高级的搜索算法的简单实现。

著录项

  • 作者

    Hellwig Oliver;

  • 作者单位
  • 年度 2010
  • 总页数
  • 原文格式 PDF
  • 正文语种 deu
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号