【24h】

Pattern Discovery in Sequences under a Markov Assumption

机译:马尔可夫假设下的序列模式发现

获取原文
获取外文期刊封面目录资料

摘要

In this paper we investigate the general problem of discovering recurrent patterns that are embedded in categorical sequences. An important real-world problem of this nature is motif discovery in DNA sequences. We investigate the fundamental aspects of this data mining problem that can make discovery "easy" or "hard." We present a general framework for characterizing learning in this context by deriving the Bayes error rate for this problem under a Markov assumption. The Bayes error framework demonstrates why certain patterns are much harder to discover than others. It also explains the role of different parameters such as pattern length and pattern frequency in sequential discovery. We demonstrate how the Bayes error can be used to calibrate existing discovery algorithms, providing a lower bound on achievable performance. We discuss a number of fundamental issues that characterize sequential pattern discovery in this context, present a variety of empirical results to complement and verify the theoretical analysis, and apply our methodology to real-world motif-discovery problems in computational biology.
机译:在本文中,我们研究了发现嵌入在分类序列中的循环模式的一般问题。这种性质的一个重要的现实世界问题是DNA序列中的基序发现。我们研究了此数据挖掘问题的基本方面,这些问题可以使发现变得“容易”或“困难”。我们通过在马尔可夫假设下推导该问题的贝叶斯错误率,提出了一种在这种情况下表征学习的通用框架。贝叶斯错误框架说明了为什么某些模式比其他模式难于发现的原因。它还说明了不同参数(例如模式长度和模式频率)在顺序发现中的作用。我们演示了如何使用贝叶斯错误来校准现有的发现算法,从而为可实现的性能提供一个下限。我们讨论了在这种情况下表征顺序模式发现的许多基本问题,提出了各种经验结果来补充和验证理论分析,并将我们的方法应用于计算生物学中的现实世界主题发现问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号