In the compression of the text files, the dependencies between the successive characters should be exploited to as great an extent as possible. There are two obvious possibilities: either to detect and encode often occurring character strings, or to encode successors of character blocks. This paper presents two methods based on the latter approach. In the first method we encode only the most probable successors of blocks, whereas in the second we encode them all, using the knowledge of their distribution. The second method uses recursion to store effectively the dependencies between the characters and this results in good compression gains in practical cases.
在压缩文本文件时,应尽可能多地利用连续字符之间的依赖性。有两种明显的可能性:要么检测并编码经常出现的字符串,要么编码字符块的后继字符。本文提出了基于后一种方法的两种方法。在第一种方法中,我们仅对块最可能的后继块进行编码,而在第二种方法中,我们使用对它们的分布的知识对所有块进行编码。第二种方法使用递归有效地存储字符之间的依赖关系,从而在实际情况下获得良好的压缩增益。 P>
机译:评论“将文本压缩作为基于规则的模式识别”; “使用基于规则的编码器进行文本压缩”
机译:基于字典的文本过滤器,用于无损文本压缩
机译:基于单词的文本压缩方法在日语和中文文本中的应用
机译:通过文本压缩中的部分字符串匹配在组合编码中扩展字母以进行预测的过程
机译:单缸先导压缩点火天然气发动机中净放热率预测的不确定性分析。
机译:文本挖掘知识网络上复合重新定位预测的时间分辨评估
机译:根据数据压缩的巨大文本的信息检索及其在关联挖掘的应用:用于捕获文本中的特征的数据压缩