哈夫曼树(哈夫曼建树及编码)

2024-05-12 23:32
文章标签 编码 哈夫曼 建树

本文主要是介绍哈夫曼树(哈夫曼建树及编码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

哈夫曼树是数据结构的一种,用于实现无损压缩。压缩分为无损压缩和有损压缩,使用哈夫曼压缩的压缩比可达3:1到5:1,流行的有损压缩方法有lzw字典压缩等。

几个名词解释:

       最优二叉树:树的加权路径总长度最短的二叉树。

       权值:每个叶子节点带有一定的权值,在哈夫曼树中为该叶子节点代表的字符的出现频率。

       树的加权路径总长度:各叶子节点到根节点的路径长度与该节点的权的乘积的总和。

       加权路径长度:从根节点到该节点之间的路径长度与该节点的权的乘积。

       路径长度(深度):当前节点到根节点所经历的层数。

       叶子节点:没有子树的节点。

       根节点:没有父节点的节点。

哈夫曼树属于二叉树的一种,是一种非线性的数据结构,其实现压缩的思想大致如下:

举个例子:英文中各个字母出现的频率是大不相同的,因此,对不同字母的编码长度若相同,就会浪费太多的空间,若给予出现频率较高的字符以较短的编码,而出现频率较少的字符以较长的编码。那么,总体的编码长度便会大大缩短,把该二进制编码存进文件中可实现压缩。术语志之曰:“最优编码方法”。哈夫曼树是一种最优二叉树,其自下向上的建树方法使得权值越大的节点越靠近根节点。

实现过程:

1.统计字符频率

建一个大小为256的byte数组,使用位映射,每读入一个字节,便在数组中该字节对应的ASCII码对应的位置加一,这样一来,文件读完的时候,字符频率也就统计完了。如:读入字符a,便使byte数组的下标为97的元素加一。

//统计字符频率
private byte[] bytecount = new byte[256];
public void countWeight() throws IOException {
java.io.InputStream fins = new java.io.FileInputStream(
"D:/JAVA/TestForIO(java)/testforIO.txt");
while (fins.available() > 0) {
int i = fins.read();// 读入字节
bytecount[i]++;// 统计每个字节出现的次数(位图映射)
}
fins.close();
}

 

 

2.建树

       i.使用队列,把字符及其频率存到一个队列中。

       ii.对队列按频率大小进行排序,取频率最小的两个节点,生成一个父节点,权值为两个节点的频率之和,然后把这两个元素从队列中删掉,把父节点存到队列中。然后又排序,生成······如此往复,直到队列中只剩下一个节点,该节点就是根节点。

/*
* 使用队列构建哈夫曼树
*/
private static HuffNode root;// 声明根节点
public void creatHuffTree() {
ArrayList<HuffNode> quene = new ArrayList<HuffNode>();// 创建队列,使用指定排序规则
// 把所有节点加入队列中
for (int i = 0; i < bytecount.length; i++) {
if (bytecount[i] != 0) {
// System.out.println(((char) i) + "    " + bytecount[i]);
HuffNode node = new HuffNode((char) i, bytecount[i]);
quene.add(node);// 加入节点
}
}
// 构建哈夫曼树
while (quene.size() != 1) {
sort(quene);
HuffNode min1 = quene.get(0);// 获取队列头两个
quene.remove(0);
HuffNode min2 = quene.get(0);
quene.remove(0);
HuffNode result = new HuffNode('-', min1.times + min2.times);
result.leftchild = min1;
result.rightchild = min2;
quene.add(result);
}
// 得到根节点
root = quene.get(0);
System.out.println("root=" + root.data + "    " + root.times);
}

 

3.编码

       哈夫曼树建成后,对其进行编码,左边子树编码为0,右边为1。

// (前序遍历)
private Code[] saveCode = new Code[256];// 创建一个code数组,储存每个字符对应的编码和编码长度
public void getMB(HuffNode root, String s) {
if (root.leftchild == null && root.rightchild == null) {
Code huffcode = new Code();
huffcode.length = s.length();// 把编码串的长度存到huffcode的length属性中
huffcode.code = s;// 把编码串存到huffcode的code属性中
saveCode[root.data] = huffcode;// 把huffcode对象存进saveCode对象数组中
System.out.println("节点" + root.data + "编码" + huffcode.code);
System.out.println("节点" + root.data + "次数" + huffcode.length);
}
// 左0右1
if (root.leftchild != null) {
getMB(root.leftchild, s + "0");
}
if (root.rightchild != null) {
getMB(root.rightchild, s + "1");
}
}

 

 

 

为便于理解,建树及编码过程如图所示(图片来自维基百科):

各字符频率如下:

建树过程:

4.把编码转成二进制串,存入文件中,即可实现压缩。

 

  • 大小: 5.9 KB
  • 大小: 185.3 KB
  • 查看图片附件

这篇关于哈夫曼树(哈夫曼建树及编码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/984049

相关文章

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

VSCode中C/C++编码乱码问题的两种解决方法

《VSCode中C/C++编码乱码问题的两种解决方法》在中国地区,Windows系统中的cmd和PowerShell默认编码是GBK,但VSCode默认使用UTF-8编码,这种编码不一致会导致在VSC... 目录问题方法一:通过 Code Runner 插件调整编码配置步骤方法二:在 PowerShell

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目: 题解: class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

form表单提交编码的问题

浏览器在form提交后,会生成一个HTTP的头部信息"content-type",标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8        那么我们如果需要修改编码,不使用默认的,那么可以如下这样操作修改编码,来满足需求: hmtl代码:   <meta http-equiv="Conte

4-4.Andorid Camera 之简化编码模板(获取摄像头 ID、选择最优预览尺寸)

一、Camera 简化思路 在 Camera 的开发中,其实我们通常只关注打开相机、图像预览和关闭相机,其他的步骤我们不应该花费太多的精力 为此,应该提供一个工具类,它有处理相机的一些基本工具方法,包括获取摄像头 ID、选择最优预览尺寸以及打印相机参数信息 二、Camera 工具类 CameraIdResult.java public class CameraIdResult {

Python字符编码及应用

字符集概念 字符集就是一套文字符号及其编码的描述。从第一个计算机字符集ASCII开始,为了处理不同的文字,发明过几百种字符集,例如ASCII、USC、GBK、BIG5等,这些不同的字符集从收录到编码都各不相同。在编程中出现比较严重的问题是字符乱码。 几个概念 位:计算机的最小单位二进制中的一位,用二进制的0,1表示。 字节:八位组成一个字节。(位与字节有对应关系) 字符:我们肉眼可见的文字与符号。

在Eclipse环境下修改Tomcat编码的问题

问题: 由于BMS需要设置UTF-8编码,要不就会出现中文乱码问题; 一、项目保持UTF-8格式; 二、由于可能会多次移除项目、加载项目,不想每次都要修改tmp0\conf 原因: 如果在eclipse中配置了tomcat后,其实,tomcat所用的所有tomcat配置文件,都不是catalina_home/config下面的xml文件,而是在eclipse所创建的Serve

在Unity环境中使用UTF-8编码

为什么要讨论这个问题         为了避免乱码和更好的跨平台         我刚开始开发时是使用VS开发,Unity自身默认使用UTF-8 without BOM格式,但是在Unity中创建一个脚本,使用VS打开,VS自身默认使用GB2312(它应该是对应了你电脑的window版本默认选取了国标编码,或者是因为一些其他的原因)读取脚本,默认是看不到在VS中的编码格式,下面我介绍一种简单快