《DSAA》 10.1.2 Huffman 编码

2024-02-23 13:48

文章标签 编码 10.1 huffman dsaa

本文主要是介绍《DSAA》 10.1.2 Huffman 编码，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Huffman 编码是高大上的压缩算法，基本原理却出乎意料地简单，大致可分为以下步：

1）扫描压缩的缓存或文件，搜集每个字符出现的频率

2）根据扫描结果构造Huffman 树，得到每个字符的 Huffman 代码

3）用 Huffman 代码重新对缓存或文件进行编码

这里关键是第二步Huffman 树的构造，Huffman 树是一颗满的二叉树，用一个值为0的bit 代表树根，每下一层增加一个bit，如果是左儿子该bit值为0，右儿子该bit为1。字符都放在树叶上，频率越高的字符所在的树叶离树根越近，这也就意味着其代码越短，注意这些字符代码的长度不同并不要紧，只要没有字符代码是别的字符代码的前缀即可，这也是为什么所有字符不能放在非树叶节点上。

原理搞清后，具体实现就比较简单（同时也很巧妙）了：

1）为每个字符创建一颗 Huffman 树，一颗树的权就是该字符的频率，然后把这些树全部插入一个优先队列（我用的是一个二叉堆）

2）出队具有最小权的两颗树，合并之，使新树的权等于原来两颗树的权之和，然后将新树插回优先队列

3）反复执行第二步，直到只剩下一棵树，这就是最优 Huffman 编码树

4）最后计算并输出代码表

下面是对原书中示例的求解，运行结果如下（前面是 Huffman树，后面的代码表）：

这篇关于《DSAA》 10.1.2 Huffman 编码的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/738843。 23002807@qq.com

相关文章

Python使用自带的base64库进行base64编码和解码

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

阅读更多...

VSCode中C/C++编码乱码问题的两种解决方法

VSCode中C/C++编码乱码问题的两种解决方法

《VSCode中C/C++编码乱码问题的两种解决方法》在中国地区,Windows系统中的cmd和PowerShell默认编码是GBK,但VSCode默认使用UTF-8编码,这种编码不一致会导致在VSC... 目录问题方法一：通过 Code Runner 插件调整编码配置步骤方法二：在 PowerShell

阅读更多...

Python如何实现读取csv文件时忽略文件的编码格式

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

阅读更多...

C++ | Leetcode C++题解之第393题UTF-8编码验证

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目：题解： class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

阅读更多...

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目：题解： static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

阅读更多...

form表单提交编码的问题

form表单提交编码的问题

浏览器在form提交后，会生成一个HTTP的头部信息"content-type"，标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8 那么我们如果需要修改编码，不使用默认的，那么可以如下这样操作修改编码，来满足需求： hmtl代码： <meta http-equiv="Conte

阅读更多...

4-4.Andorid Camera 之简化编码模板（获取摄像头 ID、选择最优预览尺寸）

4-4.Andorid Camera 之简化编码模板（获取摄像头 ID、选择最优预览尺寸）

一、Camera 简化思路在 Camera 的开发中，其实我们通常只关注打开相机、图像预览和关闭相机，其他的步骤我们不应该花费太多的精力为此，应该提供一个工具类，它有处理相机的一些基本工具方法，包括获取摄像头 ID、选择最优预览尺寸以及打印相机参数信息二、Camera 工具类 CameraIdResult.java public class CameraIdResult {

阅读更多...

Python字符编码及应用

Python字符编码及应用

字符集概念字符集就是一套文字符号及其编码的描述。从第一个计算机字符集ASCII开始，为了处理不同的文字，发明过几百种字符集，例如ASCII、USC、GBK、BIG5等，这些不同的字符集从收录到编码都各不相同。在编程中出现比较严重的问题是字符乱码。几个概念位：计算机的最小单位二进制中的一位，用二进制的0，1表示。字节：八位组成一个字节。（位与字节有对应关系）字符：我们肉眼可见的文字与符号。

阅读更多...

在Eclipse环境下修改Tomcat编码的问题

在Eclipse环境下修改Tomcat编码的问题

问题：由于BMS需要设置UTF-8编码，要不就会出现中文乱码问题；一、项目保持UTF-8格式；二、由于可能会多次移除项目、加载项目，不想每次都要修改tmp0\conf 原因：如果在eclipse中配置了tomcat后，其实，tomcat所用的所有tomcat配置文件，都不是catalina_home/config下面的xml文件，而是在eclipse所创建的Serve

阅读更多...

在Unity环境中使用UTF-8编码

在Unity环境中使用UTF-8编码

为什么要讨论这个问题为了避免乱码和更好的跨平台我刚开始开发时是使用VS开发,Unity自身默认使用UTF-8 without BOM格式,但是在Unity中创建一个脚本,使用VS打开,VS自身默认使用GB2312(它应该是对应了你电脑的window版本默认选取了国标编码,或者是因为一些其他的原因)读取脚本,默认是看不到在VS中的编码格式,下面我介绍一种简单快

阅读更多...