7分钟0基础彻底理解常用数据压缩原理---哈夫曼编码

本文主要是介绍7分钟0基础彻底理解常用数据压缩原理---哈夫曼编码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

如果你之前没有做过数据压缩,或者想要了解数据压缩的原理,那么这编文章将会帮到你。这编文章将会带你彻底了解哈夫曼编码原理,这种编码方式常用作的图片无损压缩,和ZIP的等压缩存储。

思考,计算机的存储与解析获取

这里有一组数据为1, 3,4,5,6,1,4,3,5. 单位为字节,把他们存起来。那么二进制就是1,11,100,101,110,1,100,11, 101. 但是计算机存储的时候,他们每个数据占8个“格子” ,即为**00000001, 00000011,00000100,00000101,00000110,
00000001,00000100, 00000011,00000101.**真正存储的时候是没有分割区分的,数据都是放在一起的。000000010000001100000100000001010000011000000001000001000000001100000101 。那么是怎么识别获取的数据的呢? 读取的时候,每8个位置作为一个数据读取,如果是int类型,一般都是32位,即每32位作为一个数据。
即为

可见,前缀为00000这部分是无效数据,无疑会浪费了很大一部分空间。这种存储编码被成为定长编码。这是为什么会这样子存储?因为如果不固定长度,计算机就不会知道读的数据是什么。举个例子,1和3放在在一起为111,如果不固定位数,可能识别为3和1(11,1)也可以识别为1和3(1,11),甚至全部读取为一个数字为7(111)

那么有没有一种存储方式可以按需节约来存储呢?答案是

树的知识

我们先回顾下关于树的知识点,方便我们理解下面的内容。

叶子结点

叶子结点是指一个树形结构中,没有任何子结点的节点,也就是说它是树结构的最底层节点

在这里插入图片描述

什么是度?

当前结点的最大的子节点数目。也就是分支的数目。
在这里插入图片描述
如图,A的度为2, B的度为2. 而叶子结点的度为0. 由此可见,二叉树结点的最大的度为2.最小为0.

什么是路径,路径长度

路径: 是指从树中一个节点到另一个节点的分支所构成的路线。
路径长度: 从一个结点到另一个结点所经过的“边”的数量,被我们称为两个结点之间的路径长度。
在这里插入图片描述

例如:A到F的路径长度为2。A到H的路径长度为3

什么是权值

权值就是某个结点存储的数据的值。如下图,H结点存了一个数据是100,那么久叫他的权值为100
在这里插入图片描述

什么是带权路径长度

权路径长度是指根结点到某的结点的路径的长度和该结点的权值相乘的结果。
如上图, 根结点A到H的路径为3, 而H结点的权值为100,那么他的带权路径长度为3*100=300

哈夫曼编码

我们不急着怎么看他的定义,先通过例子去理解。

现在有个一串字母"ACCCCCABDDD",按照下面方式将它进行特殊存储
下面是字符对应二进制表格

字符二进制
A01000001
B01000010
C01000011
D01000100

第一步,将数据进行节约存储。

为了节约数据空间,我们把前面可以理解为多余的部分空间去掉,做个映射表,即为

字符二进制
A1
B10
C11
D100

第二步,统计每一个字符的出现个数

字符出现个数
A1
B2
C5
D3

第三步,按“出现个数”进行排序

字符出现个数
C5
D3
B2
A1

第四步,构建带权值的二叉树

将“出现个数”作为父结点权值(具体规则看下面步骤), 将字符二进制数据作为叶子结点权值,构建二叉树。将权值越大的,距离根节点越近,最大权值带权路径最短,以此例推。(如果忘记的概念,请到上面重复阅读)

(1)首先把最小的两个权值的作为叶子节点 ,出现次数大的在左边, 构建一个二叉树。如下图
在这里插入图片描述

(2)将这个新组成的二叉树他的父节点求权值,将A和B的权值相加,得到 3,如下
在这里插入图片描述

(3)将比A和B最近的数据进行构建新组合二叉树,刚刚好比A和B大的数据是D,将D与A,B的父节点,作为同一层构建二叉树,如下。

在这里插入图片描述

然后继续求顶部根节点的权值,将D的权值与A,B的父节点的权值相加求值。
在这里插入图片描述
依次类推,可以得出整棵树如下

在这里插入图片描述
然后,把除了叶子节点的权值全部改成1.

在这里插入图片描述

最后,叶子节点全部改成0,除B 外,B 改成1

在这里插入图片描述

第五步,制作代号表

把左边节点权值, 我们从顶点触发,把经过的叶子节点带权路径轨迹记录下来。

第一个为: 1 - 0
第二个为: 1 - 1 - 0
第三个为: 1 - 1 - 1 - 0
第四个为: 1 - 1 -1 - 1

由此可以推出

代号字母
10C
110D
1110A
1111B

没错,这时候你已经猜出来,为什么要这么做了。

第六步,存储

有了上面这个表格后,就可以存储和读取了。
字符串为:ACCCCCABDDD
那么按照上面的表格,分布存储为如下
1110 10 10 10 10 10 1110 1111 110 110 110

第七步,读取

我们需要根据这个树,通过轨迹来读取对于的值。
在这里插入图片描述
根节点出发,遇到1右边,遇到0左边
读取这串数据“1110 10 10 10 10 10 1110 1111 110 110 110”,如图
在这里插入图片描述
所以读取第一个值是A,(存储表的的时候是存二进制(1),这里只不过是为了好阅读)
剩下的数据为“ 10 10 10 10 10 1110 1111 110 110 110”,继续解析数据,如图

口诀: 遇到1右边,遇到0左边
在这里插入图片描述
剩下的数据为“10 10 10 1110 1111 110 110 110”,继续解析数据,如图,
口诀: 遇到1右边,遇到0左边

在这里插入图片描述
剩下的数据为“ 10 10 1110 1111 110 110 110”,继续解析数据,如图,
口诀: 遇到1右边,遇到0左边
在这里插入图片描述
剩下的数据为“ 10 1110 1111 110 110 110”,继续解析数据,如图,
口诀: 遇到1右边,遇到0左边
在这里插入图片描述
剩下的数据为“ 1110 1111 110 110 110”,继续解析数据,如图,
口诀: 遇到1右边,遇到0左边
在这里插入图片描述
剩下的数据为“ 1111 110 110 110”,继续解析数据,如图,
口诀: 遇到1右边,遇到0左边
在这里插入图片描述
剩下的数据为“ 110 110 110”,继续解析数据,如图,
口诀: 遇到1右边,遇到0左边
在这里插入图片描述

以此类推下去,全部都能解析出来。

这样的二叉树树,称为哈夫曼树。

下面是哈夫曼树的概念引用

给定N个权值作为N个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。

由此,对比传统的存储二进制,可见节约了多少空间!通过这个规则,你已经知道为什么出现次数最多的要到前面,这样可以大大地提高读取效率。

有兴趣的朋友可以思考下图片的数据是怎么压缩的?欢迎到评论区 下留言哈哈。提示:一张图片可能有颜色值大量重复,比如一区域只有蓝色,其他全是红色的图片。

如果这篇文章有帮助到你,请点赞,评论,关注,收藏。

这篇关于7分钟0基础彻底理解常用数据压缩原理---哈夫曼编码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/740834

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

JS常用组件收集

收集了一些平时遇到的前端比较优秀的组件,方便以后开发的时候查找!!! 函数工具: Lodash 页面固定: stickUp、jQuery.Pin 轮播: unslider、swiper 开关: switch 复选框: icheck 气泡: grumble 隐藏元素: Headroom

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

常用的jdk下载地址

jdk下载地址 安装方式可以看之前的博客: mac安装jdk oracle 版本:https://www.oracle.com/java/technologies/downloads/ Eclipse Temurin版本:https://adoptium.net/zh-CN/temurin/releases/ 阿里版本: github:https://github.com/

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

30常用 Maven 命令

Maven 是一个强大的项目管理和构建工具,它广泛用于 Java 项目的依赖管理、构建流程和插件集成。Maven 的命令行工具提供了大量的命令来帮助开发人员管理项目的生命周期、依赖和插件。以下是 常用 Maven 命令的使用场景及其详细解释。 1. mvn clean 使用场景:清理项目的生成目录,通常用于删除项目中自动生成的文件(如 target/ 目录)。共性规律:清理操作