首页> 外文期刊>Известия Юго-Западного Государственного Университета >АЛГОРИТМ ПОСТРОЕНИЯ СТРУКТУРЫ, ПРЕДСТАВЛЯЮЩЕЙ СТРОКУ В ВИДЕ ХЕШ- ТАБЛИЦЫ, СОСТОЯЩЕЙ ИЗ ХЕШЕЙ ПОДСТРОК ДАННОЙ СТРОКИ И АЛГОРИТМ ПОИСКА В НЕЙ
【24h】

АЛГОРИТМ ПОСТРОЕНИЯ СТРУКТУРЫ, ПРЕДСТАВЛЯЮЩЕЙ СТРОКУ В ВИДЕ ХЕШ- ТАБЛИЦЫ, СОСТОЯЩЕЙ ИЗ ХЕШЕЙ ПОДСТРОК ДАННОЙ СТРОКИ И АЛГОРИТМ ПОИСКА В НЕЙ

机译:以哈希表的形式构造表示字符串的结构的算法,该哈希表由给定字符串的子字符串的散列和其中的搜索算法组成

获取原文
获取原文并翻译 | 示例
           

摘要

В работе рассмотрена одна из важнейших задач обработки символьных данных - поиск точно заданной подстроки в строке. Данная задача чрезвычайна важна, так как символьные данные являются основной формой обмена информацией и имеют широкое применение в таких областях, как информатика, лингвистика, литература, а также молекулярная биология. Рассмотрены типы символьных данных и особенности алгоритмов, которые используются для каждого типа. Затронут вопрос поиска в статичных данных, к которым относятся различного рода базы данных, архивы, словари, документы, статьи, книги и т.д. Описаны основные сложности, возникающие при поиске в таких данных. Рассмотрены основные алгоритмы, использующиеся для поиска в статичных данных. Рассмотрены их достоинства и недостатки. Представлен алгоритм построения структуры, представляющей строку в виде хеш-таблицы, состоящей из подстрок данной строки, и алгоритм поиска при помощи этой структуры. Рассмотрен вопрос выбора правильной функции хеширования и выбора констант, использующихся при вычислении хеша строки. Приведен псевдокод алгоритма построения структуры и псевдокод алгоритма поиска при помощи этой структуры. Частично затронуты вопросы реализации описанной структуры и алгоритма поиска на языках программирования. Произведено сравнение скорости поиска и предобработки текста разработанного алгоритма с такими алгоритмами, как алгоритм Бойера-Мура, алгоритм поиска в суффиксном дереве и алгоритм поиска подстроки, использующий позиционное представление текста. На основе полученных результатов сделаны выводы об эффективности разработанного алгоритма. Описаны плюсы и минусы полученного алгоритма, а также даны рекомендации по использованию данного алгоритма при различных исходных данных.
机译:本文涉及处理字符数据的最重要任务之一-在字符串中找到精确指定的子字符串。这项任务非常重要,因为符号数据是信息交换的主要形式,并且广泛用于计算机科学,语言学,文学和分子生物学等领域。考虑字符数据的类型以及用于每种类型的算法的功能。静态数据中的搜索问题,其中包括各种数据库,档案,字典,文档,文章,书籍等。描述了在搜索此类数据时出现的主要困难。考虑了用于搜索静态数据的主要算法。考虑了它们的优点和缺点。提出了一种用于构造以哈希表的形式表示字符串的结构的算法,该结构由给定字符串的子字符串组成,并提出了使用该结构的搜索算法。考虑选择正确的哈希函数并选择用于计算字符串哈希的常量的问题。给出了结构构造算法的伪代码和使用该结构的搜索算法的伪代码。在编程语言中实现上述结构和搜索算法的实现问题被部分涉及。将所开发算法的搜索速度和文本预处理与使用文本位置表示的Boyer-Moore算法,后缀树搜索算法和子字符串搜索算法进行比较。基于获得的结果,得出关于所开发算法的有效性的结论。描述了所获得算法的优缺点,并给出了针对各种初始数据使用该算法的建议。

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号