问：压缩算法是如何确定编码表的？

吹风的兔子 2018-05-09 02:52:59

大部分压缩算法原理：

通过符号的出现频率，按照哈夫曼算法得到一个编码表，
再通过编码表重新编码得到压缩后的字节。

问题来了：
计算 “编码表”，取决于 “出现频率”
“出现频率” 是如何产生的？？？

比如：
我有一本《三国演义》需要压缩到字节流。
哈夫曼算法如果遍历了整本《三国演义》计算除了 “编码表”。
然后按照 “编码表” 压缩了《三国演义》
然后：
我再继续往这个压缩字节流中，写入了一本英文《圣经》

完蛋：
之前通过整本中文《三国演义》确定的编码表，在压缩英文《圣经》时，命中率锐减，压缩质量瞬间变差。

——————————————————————
问：
压缩算法的 “编码表” 是如何产生的？
> 是通过全部待压缩字节计算？（把《三国演义》《圣经》都遍历一遍） —— 很明显，这种做法太占用算法空间（内存）。
> 还是通过最前面的一部分字节计算？（把《三国演义》第一章遍历一遍） —— 很明显，这种做法得到的编码表质量不高。

> 压缩算法是如何折中处理的？？？？

...全文

392 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

threenewbee 2018-05-09

打赏
举报

回复

有用固定字典的，也有动态计算字典的。 zip算法首先用哈夫曼编码得到字典，然后再压缩字典，这一步用的固定的码表 https://www.cnblogs.com/esingchan/p/3958962.html

使用哈夫曼算法实现的文件压缩（源代码+实现报告）

Huffman编码是一种广泛应用于图像压缩的熵编码技术，它基于消息出现的频率来分配编码长度，从而实现数据的高效压缩。高效压缩：Huffman编码能够根据像素值出现的频率分配最短的编码，对于频率高的像素值使用较短的编码，频率低的使用较长的编码，从而在不损失信息的情况下减少存储空间。无损压缩：Huffman编码是一种无损压缩算法，这意味着解压缩后的图像与原始图像完全相同，没有信息丢失。适应性强。

1.背景介绍压缩编码技术是计算机科学领域中的一个重要分支，它主要关注于将数据压缩为更小的格式，以提高存储和传输效率。在现实生活中，我们每天都在使用各种压缩技术，例如压缩文件、压缩图片、压缩音频和视频等。随着数据规模的不断增加，压缩编码技术的重要性也在不断提高。在本文中，我们将讨论如何优化压缩算法的执行效率，以实现更高效的数据压缩。我们将从以下几个方面进行讨论：背景介绍核心概念与联系...

数据压缩是计算机领域中一项重要的技术，它可以将数据在占用更小的存储空间或通过更低的传输带宽进行表示和传输,压缩算法基于对数据的统计特性和重复模式的利用，可以分为两大类：无损压缩算法和有损压缩算法。

文章目录无损压缩算法理论基础信息熵熵编码字典编码综合通用无损压缩算法相关常见名词说明java对几种常见算法实现Snappydeflate算法Gzip算法huffman算法Lz4算法Lzo算法使用方式无损压缩算法理论基础信息熵信息熵是一个数学上颇为抽象的概念，在这里不妨把信息熵理解成某种特定信息的出现概率（离散随机事件的出现概率）。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。熵编码：根据消息中每个符号出现的概率，然后通过某种映射

111,129

社区成员

642,541

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章