您现在的位置: 首页> 研究主题> 后缀树

后缀树

后缀树的相关文献在2004年到2022年内共计122篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文94篇、会议论文4篇、专利文献18985篇;相关期刊61种,包括人天科学研究、东北大学学报(自然科学版)、电脑知识与技术等; 相关会议4种,包括第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会、第四届全国信息检索与内容安全学术会议、2007年全国网络与信息安全技术研讨会等;后缀树的相关文献由283位作者贡献,包括买买提依明·哈斯木、岳夏、张春良等。

后缀树—发文量

期刊论文>

论文:94 占比:0.49%

会议论文>

论文:4 占比:0.02%

专利文献>

论文:18985 占比:99.49%

总计:19083篇

后缀树—发文趋势图

后缀树

-研究学者

  • 买买提依明·哈斯木
  • 岳夏
  • 张春良
  • 朱厚耀
  • 李植鑫
  • 王亚东
  • 维尼拉·木沙江
  • 翁润庭
  • 陆凤清
  • 王国仁
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

期刊

    • 王璐; 刘晓清; 何震瀛
    • 摘要: 查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度。针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS;runing),通过减少频率树的扫描范围进一步提高挖掘效率。实验结果表明,TS;ining与TS;runing算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率。
    • 秦诗悦; 周福才; 柳璐
    • 摘要: 为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密文基因数据的任意子字符串搜索.安全性证明该方法满足动态自适应安全,利用理论分析和真实数据对效率进行测评.该方法可以对基因数据进行高效安全的任意子字符串搜索,保护数据完整性和隐私性,在个性化医疗大众化的环境下具备广阔的应用前景.
    • 张天皓
    • 摘要: 传统后缀树算法对于中文场景的适用性较差并且有着空间占用大的缺点.面向中文分词改造后缀树索引的构建,以适用于中文的短语检索和域搜索.改进域搜索的索引结构以加快检索速度,将文档ID从索引中剥离出来以减少空间占用,选取最合适的压缩算法对索引进行压缩.实验结果表明,该索引的检索速度至少较Lucene快约37%,空间占用相较原算法可以减少约82%.
    • 程铃钫; 郭躬德; 陈黎飞
    • 摘要: To solve the problem that the existing methods based on the fixed-order Markov models cannot make full use of the structural features involved in the subsequences of different orders,a new Bayesian method based on the multi-order Markov model was proposed for symbolic sequences classification.First,a Conditional Probability Distribution (CPD) model was built based on the multi-order Markov model.Second,a suffix tree for n-order subsequences with efficient suffix-tables and its efficient construction algorithm were proposed,where the algorithm could be used to learn the multi-order CPD models by scanning once the sequence set.A Bayesian classifier was finally proposed for the classification task.The training algorithm was designed to learn the order-weights for the models of different orders based on the Maximum Likelihood (ML) method,while the classification algorithm was defined to carry out the Bayesian prediction using the weighted conditional probabilities of each order.A series of experiments were conducted on real-world sequence sets from three domains and the results demonstrate that the new classifier is insensitive to the predefined order change of the model.Compared with the existing methods such as the support vector machine using the fixed-order model,the proposed method can achieve more than 40% improvement on both gene sequences and speech sequences in terms of classification accuracy,yielding reference values for the optimal order of a Markov model on symbolic sequences.%针对基于固定阶Markov链模型的方法不能充分利用不同阶次子序列结构特征的问题,提出一种基于多阶Markov模型的符号序列贝叶斯分类新方法.首先,建立了基于多阶次Markov模型的条件概率分布模型;其次,提出一种附后缀表的n-阶子序列后缀树结构和高效的树构造算法,该算法能够在扫描一遍序列集过程中建立多阶条件概率模型;最后,提出符号序列的贝叶斯分类器,其训练算法基于最大似然法学习不同阶次模型的权重,分类算法使用各阶次的加权条件概率进行贝叶斯分类预测.在三个应用领域实际序列集上进行了系列实验,结果表明:新分类器对模型阶数变化不敏感;与使用固定阶模型的支持向量机等现有方法相比,所提方法在基因序列与语音序列上可以取得40%以上的分类精度提升,且可输出符号序列Markov模型最优阶数参考值.
    • 丁莎; 赵士元; 林涛
    • 摘要: 后缀树和后缀数组广泛用于生物信息学领域中,特别是通过启发式算法在对DNA基因片段进行匹配的阶段.本文提出了在GPU的平台下,利用多核和超多核体系构成的后缀树以及后缀数组并行匹配大规模基因片段,从而加速基因搜索匹配过程.相对于后缀树,后缀数组二分搜素算法具有内存占用少,缓存使用率高等优点.在GPU的性能评估中,后缀数组执行效率明显超过后缀树,后缀数组占用的空间仅为后缀树的20%~30%.相对于CPU的串行实现,后缀树组达到了约99倍的加速比.实验结果表明在基因片段匹配的过程中,基于GPU的后缀数组二分搜索是一种高效且实用的方法.%Suffix trees and suffix arrays have been used widely in bioinformatics applications,especially for DNA sequence alignments in the initial exact match phase of heuristic algorithms.In this paper,a new GPU implementation and optimization of the suffix tree and suffix array on both multi-core and many-core platforms to accelerate multiple genome sequence searching is presented.The comparative performance evaluation between the suffix tree and suffix array is then carried out.The results showed that the suffix array needed only 20%-30% of memory space compared with the suffix tree,and that the mean search time of the suffix array was significantly shorter than the mean search time of the suffix tree because of the use of a binary search with coalesced memory access and tile optimization under the GPU architecture.Moreover,the GPU implementation of the suffix array gained a speedup of approximate 99 times compared with the corresponding CPU serial implementation.This study showed that the massively parallel sequence matching algorithm based on suffix array was an efficient approach with the high-performance in the process of multiple DNA sequence matching.
    • 董亚则; 李万龙; 李航; 郑山红
    • 摘要: 为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法.将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性.以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率.
    • 蔡洪波; 单征; 范超; 赵炳麟
    • 摘要: Aiming at the problem of poor instantaneity and low accuracy in current study of dynamic measure.ment,this pa-per proposed a kind of measurement method using the program behavior feature.It constituted variable-length system call se-quences as behavior features according to the sifting and relevance analyzing of system calls generated from running program.It devised the FMUS algorithm based on suffix tree and achieved the feature matching when program was running.Experiments on the selected samples show that this method has high accuracy and low time expending rate.%针对目前程序动态度量研究中实时性与准确性较差的问题,提出了一种利用程序行为特征进行度量的方法。通过筛选程序运行过程中产生的系统调用,依据其关联特性构成非定长系统调用序列作为程序的行为特征;采用后缀树结构设计实时特征度量匹配算法(feature matching with updating suffix tree,FMUS),实现了程序运行过程中的实时特征匹配。实验表明,该方法具有较高的准确率和低时间耗费比。
    • 文平; 刘渊; 张春瑞
    • 摘要: 半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之间的关联性.针对以上问题,提出一种基于后缀树文档模型的半监督自适应多密度文本聚类算法.该算法基于后缀树文档模型表征文档间的相似度,使用K最近邻思想传播扩展簇标签,并在传播扩展过程中不断更新扩展阈值,以适应多密度不平衡的文本数据集.经实验验证,算法具有较高质量的聚类结果且能够适应多密度数据集.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号