Рассмотрены методы индексирования документов в информационно-поисковых системах и пути повышения их эффективности. Методы основаны на использовании более точных оценок весов терминов, а также механизма обратной связи с пользователем. Предложена оценка веса термина на основе частоты встречаемости термина и документа, позволяющая получить более точное распределение терминов в документе по весу и уменьшить долю функциональных терминов среди терминов, обладающих наибольшей важностью, т.е. получить основу для реализации методов выделения устойчивых словосочетаний и зависимостей терминов в документах и кластеризации документов. Приведены способы повышения эффективности индексирования на основе использования механизма обратной связи с пользователем и возможность использовать для этого средства персонализации.
展开▼