压缩算法，对霍夫曼编码的改进

2023-12-30 15:04

文章标签 编码改进压缩算法霍夫曼

本文主要是介绍压缩算法，对霍夫曼编码的改进，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

背景

霍夫曼编码是理论上的最优编码，但是，它依赖于“分割点”。例如，在源代码里，有大量的"if"，把多个字母合并成一个符号，似乎更好。
霍夫曼编码的极端情况，以1比特为单位进行编码。只有两个符号，用1比特表示这两个符号，用0表示0，用1表示1。结果是，并没有被压缩。

算法

压缩前的串为A，压缩后的串为B。
首先，对A进行统计。
按1字节统计，得到256个概率值；
按2字节统计，得到256²个概率值；
按n字节统计，得到256ⁿ个概率值；
256+256²+…+256ⁿ=M
删除概率为0的，得到N
处理N。对于多字节的符号，如"for"的概率是15，还要乘以它的长度，15×3=45
对N个符号运用霍夫曼编码，得到编码C
然后处理C
如果"if"的编码是11011
“i”=001，“f”=110
“i”+“f”=001.110，占6比特，比"if"的5比特更长，则保留"if"
如果"for"， “f”+“o”+“r”， “f”+“or”， “fo”+"r"中， "for"的编码不是最短的，则删除它
处理后的C’即为所求

问题

公式中，n不能太大，否则N会很大，以至于内存里装不下。

这篇关于压缩算法，对霍夫曼编码的改进的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/553223。 23002807@qq.com

相关文章

Python使用自带的base64库进行base64编码和解码

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

阅读更多...

VSCode中C/C++编码乱码问题的两种解决方法

VSCode中C/C++编码乱码问题的两种解决方法

《VSCode中C/C++编码乱码问题的两种解决方法》在中国地区,Windows系统中的cmd和PowerShell默认编码是GBK,但VSCode默认使用UTF-8编码,这种编码不一致会导致在VSC... 目录问题方法一：通过 Code Runner 插件调整编码配置步骤方法二：在 PowerShell

阅读更多...

Python如何实现读取csv文件时忽略文件的编码格式

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

阅读更多...

C++ | Leetcode C++题解之第393题UTF-8编码验证

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目：题解： class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

阅读更多...

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目：题解： static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

阅读更多...

form表单提交编码的问题

form表单提交编码的问题

浏览器在form提交后，会生成一个HTTP的头部信息"content-type"，标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8 那么我们如果需要修改编码，不使用默认的，那么可以如下这样操作修改编码，来满足需求： hmtl代码： <meta http-equiv="Conte

阅读更多...

一种改进的red5集群方案的应用、基于Red5服务器集群负载均衡调度算法研究

一种改进的red5集群方案的应用、基于Red5服务器集群负载均衡调度算法研究

转自：一种改进的red5集群方案的应用： http://wenku.baidu.com/link?url=jYQ1wNwHVBqJ-5XCYq0PRligp6Y5q6BYXyISUsF56My8DP8dc9CZ4pZvpPz1abxJn8fojMrL0IyfmMHStpvkotqC1RWlRMGnzVL1X4IPOa_ 基于Red5服务器集群负载均衡调度算法研究 http://ww

阅读更多...

4-4.Andorid Camera 之简化编码模板（获取摄像头 ID、选择最优预览尺寸）

4-4.Andorid Camera 之简化编码模板（获取摄像头 ID、选择最优预览尺寸）

一、Camera 简化思路在 Camera 的开发中，其实我们通常只关注打开相机、图像预览和关闭相机，其他的步骤我们不应该花费太多的精力为此，应该提供一个工具类，它有处理相机的一些基本工具方法，包括获取摄像头 ID、选择最优预览尺寸以及打印相机参数信息二、Camera 工具类 CameraIdResult.java public class CameraIdResult {

阅读更多...

YOLOv8改进实战 | 注意力篇 | 引入CVPR2024 PKINet 上下文锚点注意力CAAttention

YOLOv8改进实战 | 注意力篇 | 引入CVPR2024 PKINet 上下文锚点注意力CAAttention

YOLOv8专栏导航：点击此处跳转前言 YOLOv8 是由 YOLOv5 的发布者 Ultralytics 发布的最新版本的 YOLO。它可用于对象检测、分割、分类任务以及大型数据集的学习，并且可以在包括 CPU 和 GPU 在内的各种硬件上执行。 YOLOv8 是一种尖端的、最先进的 (SOTA) 模型，它建立在以前成功的 YOLO 版本的基础上，并引入了新的功能和改进，以

阅读更多...

Python字符编码及应用

Python字符编码及应用

字符集概念字符集就是一套文字符号及其编码的描述。从第一个计算机字符集ASCII开始，为了处理不同的文字，发明过几百种字符集，例如ASCII、USC、GBK、BIG5等，这些不同的字符集从收录到编码都各不相同。在编程中出现比较严重的问题是字符乱码。几个概念位：计算机的最小单位二进制中的一位，用二进制的0，1表示。字节：八位组成一个字节。（位与字节有对应关系）字符：我们肉眼可见的文字与符号。

阅读更多...