...
首页> 外文期刊>電子情報通信学会論文誌 >高速復元可能な接尾辞配列圧縮法
【24h】

高速復元可能な接尾辞配列圧縮法

机译:可高速复原的后缀数组压缩方法

获取原文
获取原文并翻译 | 示例

摘要

大規模文字列データに対する高速な文字列検索は接尾辞配列[8](SA)を用いて実現できるが,SArnには多くの容量が必要になってしまう.SAを圧縮する様々な方法が提案されているが,本論文では出現頻度のrn高いフレーズの検索が既存の圧縮法に比べて高速な圧縮法を提案する.提案手法では,SAをブロックに分割し,rnそのブロック内でソートを行い,差分をとったものを保存し,検索時は差分からソート後のSAを取り戻し,区rn間内をすべて逐次的に検索する.これで検索フレーズのすべての出現位置を得ることができる.実験により,特rnに検索フレーズの頻度が高い場合,多くの入力データで提案手法の性能が既存の方法より優れていることを示す.
机译:使用后缀数组[8](SA)可以实现大规模字符串数据的高速字符串搜索,但是SArn需要大量的容量。尽管已经提出了多种压缩SA的方法,但在本文中,我们提出了一种比现有压缩方法更快地搜索出现频率高的短语的压缩方法。在所提出的方法中,将SA划分成块,将rn在块中排序,保存差异,在检索时从差异中检索排序的SA,然后将所有部分rn顺序地进行搜索。现在,您可以获得所有出现的搜索短语。实验表明,对于许多输入数据,该方法的性能优于现有方法,特别是在搜索词频较高的情况下。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号