首页> 外文期刊>Software >A large-alphabet-oriented scheme for Chinese and English text compression
【24h】

A large-alphabet-oriented scheme for Chinese and English text compression

机译:面向大字母的中文和英文文本压缩方案

获取原文
获取原文并翻译 | 示例
       

摘要

In this paper, a large-alphabet-oriented scheme is proposed for both Chinese and English text compression. Our scheme parses Chinese text with the alphabet defined by Big-5 code, and parses English text with some rules designed here. Thus, the alphabet used for English is not a word alphabet. After a token is parsed out from the input text, zero-, first-, and second-order Markov models are used to estimate the occurrence probabilities of this token. Then, the probabilities estimated are blended and accumulated in order to perform arithmetic coding. To implement arithmetic coding under a large alphabet and probability-blending condition, a way to partition count-value range is studied. Our scheme has been programmed and can be executed as a software package. Then, typical Chinese and English text files are compressed to study the influences of alphabet size and prediction order. On average, our compression scheme can reduce a text file's size to 33.9% for Chinese and to 23.3% for English text. These rates are comparable with or better than those obtained by popular data compression packages.
机译:本文针对中文和英文文本压缩提出了一种面向大字母的方案。我们的方案使用Big-5代码定义的字母来解析中文文本,并使用此处设计的一些规则来解析英文文本。因此,用于英语的字母不是单词字母。从输入文本中解析出令牌后,可以使用零阶,一阶和二阶马尔可夫模型来估计此令牌的出现概率。然后,将估计的概率混合并累加,以执行算术编码。为了在大字母和概率混合条件下实现算术编码,研究了一种划分计数值范围的方法。我们的方案已经过编程,可以作为软件包执行。然后,对典型的中文和英文文本文件进行压缩以研究字母大小和预测顺序的影响。平均而言,我们的压缩方案可以将文本文件的大小(中文)减小到33.9%,将英文文件减小到23.3%。这些速率与流行的数据压缩包所获得的速率相当或更好。

著录项

  • 来源
    《Software》 |2005年第11期|p.1027-1039|共13页
  • 作者

    Hung-Yan Gu;

  • 作者单位

    Department of Computer Science and Information Engineering, National Taiwan University of Science and Technology, Taipei, Taiwan;

  • 收录信息 美国《科学引文索引》(SCI);美国《工程索引》(EI);
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 计算机软件;
  • 关键词

    text compression; large alphabet; markov modeling; arithmetic coding;

    机译:文本压缩;大字母;马尔可夫建模;算术编码;
  • 入库时间 2022-08-17 13:04:28

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号