首页> 外文OA文献 >Searching in text databases with non-standard orthography
【2h】

Searching in text databases with non-standard orthography

机译:使用非标准拼写法在文本数据库中搜索

摘要

In this paper we present research results of the recent project “Rule based search in text data bases with non-standard orthography”. There are numerous steps involved from facsimile to searchable text-document. This paper focuses on techniques to ensure better retrieval results on historical texts with non-standard spellings. Historical documents – especially those in black letter fonts - encourage recognition errors. Adequate preparation of the image sources prior to OCR can successfully reduce the amount of misinterpretation of characters. Furthermore, the application of a search engine with categorized distance measures between user interface and text database can help to enhance retrieval results. Specific metrics cover problems in optical character recognition, transcription and historical spelling variation. With a synoptic view interface the users can be kept completely unaware of the methods applied after their queries.
机译:在本文中,我们介绍了基于非标准正字法的文本数据库中最近基于项目“基于规则的搜索”的研究结果。从传真到可搜索的文本文档,涉及许多步骤。本文着重介绍确保使用非标准拼写对历史文本进行更好检索的技术。历史文件,尤其是黑字体的文件,会引起识别错误。在OCR之前充分准备图像源可以成功减少字符的误解。此外,具有用户界面和文本数据库之间的分类距离度量的搜索引擎的应用可以帮助增强检索结果。具体指标涵盖了光学字符识别,转录和历史拼写变化方面的问题。使用概要视图界面,​​用户可以完全不知道查询后所采用的方法。

著录项

  • 作者

    Pilz Thomas;

  • 作者单位
  • 年度 2007
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号