首页> 外文会议>Combinatorial pattern matching >Speeding Up q-Gram Mining on Grammar-Based Compressed Texts
【24h】

Speeding Up q-Gram Mining on Grammar-Based Compressed Texts

机译:加快基于语法的压缩文本的q-Gram挖掘

获取原文
获取原文并翻译 | 示例

摘要

We present an efficient algorithm for calculating q-gram frequencies on strings represented in compressed form, namely, as a straight line program (SLP). Given an SLP T of size n that represents string T, the algorithm computes the occurrence frequencies of all q-grams in T, by reducing the problem to the weighted g-gram frequencies problem on a trie-like structure of size m = |T| - dup(q,T), where dup(q,T) is a quantity that represents the amount of redundancy that the SLP captures with respect to q-grams. The reduced problem can be solved in linear time. Since m = O(qn), the running time of our algorithm is O(min |T| - dup(q,T),qn}), improving our previous O(qn) algorithm when q = Ω{|T|).
机译:我们提出了一种有效算法,用于计算以压缩形式表示的字符串上的q-gram频率,即作为直线程序(SLP)。给定大小n的SLP T表示字符串T,该算法通过将问题简化为大小m = | T的特里形结构上的加权g-gram频率问题来计算T中所有q-gram的出现频率| -dup(q,T),其中dup(q,T)是代表SLP捕获的关于q-gram的冗余量的数量。减少的问题可以在线性时间内解决。由于m = O(qn),因此我们算法的运行时间为O(min | T |-dup(q,T),qn}),当q =Ω{| T | /时改进了我们以前的O(qn)算法。 n)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号