АЛГОРИТМ ПОСТРОЕНИЯ СТРУКТУРЫ, ПРЕДСТАВЛЯЮЩЕЙ СТРОКУ В ВИДЕ ХЕШ- ТАБЛИЦЫ, СОСТОЯЩЕЙ ИЗ ХЕШЕЙ ПОДСТРОК ДАННОЙ СТРОКИ И АЛГОРИТМ ПОИСКА В НЕЙ

Д. С. Гришин; Е. А. Титенко

摘要

В работе рассмотрена одна из важнейших задач обработки символьных данных - поиск точно заданной подстроки в строке. Данная задача чрезвычайна важна, так как символьные данные являются основной формой обмена информацией и имеют широкое применение в таких областях, как информатика, лингвистика, литература, а также молекулярная биология. Рассмотрены типы символьных данных и особенности алгоритмов, которые используются для каждого типа. Затронут вопрос поиска в статичных данных, к которым относятся различного рода базы данных, архивы, словари, документы, статьи, книги и т.д. Описаны основные сложности, возникающие при поиске в таких данных. Рассмотрены основные алгоритмы, использующиеся для поиска в статичных данных. Рассмотрены их достоинства и недостатки. Представлен алгоритм построения структуры, представляющей строку в виде хеш-таблицы, состоящей из подстрок данной строки, и алгоритм поиска при помощи этой структуры. Рассмотрен вопрос выбора правильной функции хеширования и выбора констант, использующихся при вычислении хеша строки. Приведен псевдокод алгоритма построения структуры и псевдокод алгоритма поиска при помощи этой структуры. Частично затронуты вопросы реализации описанной структуры и алгоритма поиска на языках программирования. Произведено сравнение скорости поиска и предобработки текста разработанного алгоритма с такими алгоритмами, как алгоритм Бойера-Мура, алгоритм поиска в суффиксном дереве и алгоритм поиска подстроки, использующий позиционное представление текста. На основе полученных результатов сделаны выводы об эффективности разработанного алгоритма. Описаны плюсы и минусы полученного алгоритма, а также даны рекомендации по использованию данного алгоритма при различных исходных данных.

机译：本文涉及处理字符数据的最重要任务之一-在字符串中找到精确指定的子字符串。这项任务非常重要，因为符号数据是信息交换的主要形式，并且广泛用于计算机科学，语言学，文学和分子生物学等领域。考虑字符数据的类型以及用于每种类型的算法的功能。静态数据中的搜索问题，其中包括各种数据库，档案，字典，文档，文章，书籍等。描述了在搜索此类数据时出现的主要困难。考虑了用于搜索静态数据的主要算法。考虑了它们的优点和缺点。提出了一种用于构造以哈希表的形式表示字符串的结构的算法，该结构由给定字符串的子字符串组成，并提出了使用该结构的搜索算法。考虑选择正确的哈希函数并选择用于计算字符串哈希的常量的问题。给出了结构构造算法的伪代码和使用该结构的搜索算法的伪代码。在编程语言中实现上述结构和搜索算法的实现问题被部分涉及。将所开发算法的搜索速度和文本预处理与使用文本位置表示的Boyer-Moore算法，后缀树搜索算法和子字符串搜索算法进行比较。基于获得的结果，得出关于所开发算法的有效性的结论。描述了所获得算法的优缺点，并给出了针对各种初始数据使用该算法的建议。

АЛГОРИТМ ПОСТРОЕНИЯ СТРУКТУРЫ, ПРЕДСТАВЛЯЮЩЕЙ СТРОКУ В ВИДЕ ХЕШ- ТАБЛИЦЫ, СОСТОЯЩЕЙ ИЗ ХЕШЕЙ ПОДСТРОК ДАННОЙ СТРОКИ И АЛГОРИТМ ПОИСКА В НЕЙ

摘要

著录项

相似文献

相关主题

期刊订阅