图像去重技术:MD5哈希在自动化中的应用

2024-06-15 23:36

本文主要是介绍图像去重技术:MD5哈希在自动化中的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

前言

一、MD5的介绍

二、常见的MD5哈希用途

三、hashlib库介绍

四、实际应用-图片去重


前言

MD5(Message Digest Algorithm 5)是一种广泛使用的哈希函数,它可以产生一个128位(16字节)的哈希值,通常用一个32位的十六进制字符串表示。如果两张图像的内容完全相同,那么它们经过MD5哈希处理后得到的哈希值也会是相同的。

MD5哈希函数的主要特点是它将任意长度的数据转换成一个固定长度的哈希值,并且理论上,不同的输入数据产生相同哈希值的概率非常低(尽管不是完全不可能)。因此,MD5常被用于验证文件的完整性,比如确保文件在传输过程中没有被篡改。

一、MD5的介绍

MD5的设计目标是快速且能够产生一个128位(16字节)的哈希值,通常表示为32位的十六进制字符串。MD5的数学原理主要基于以下几个方面:

1. 位操作:MD5使用基本的位操作,包括AND、OR、XOR、NOT以及位移操作。这些操作对输入数据的位进行处理,以产生哈希值。

2. 主循环结构:MD5算法的核心是一个循环结构,它将输入数据分成512位的块,并逐个处理这些块。每个块的处理包括四个主要的函数(F, G, H, I),这些函数使用不同的逻辑运算和常量。

3. 填充:在处理之前,原始数据需要被填充到一个合适的长度,通常是使其长度为448模512的倍数。填充方案是先添加一个1位,后面跟着若干个0位,最后是一个64位的原始数据长度表示。

4. 初始化向量:MD5算法开始时使用一个固定的128位初始化向量,这个向量在每次哈希计算时都会用到。

5. 消息调度:在每个512位的数据块中,MD5算法将数据分成16个32位的子块,并按照一定的顺序进行处理。

6. 非线性变换:MD5算法中的四个主要函数(F, G, H, I)是设计来提供非线性特性的,以增加算法的复杂性和抵抗线性攻击。

7. 迭代过程:MD5算法通过迭代过程,将数据块、常量和当前的哈希值结合起来,产生新的哈希值。这个过程在算法中重复多次,以确保哈希值的均匀分布。

8. 最终输出:经过一系列的迭代和变换后,算法最终输出一个128位的哈希值,通常以32位十六进制字符串的形式展示。

然而,MD5也有一些安全上的缺陷,它容易受到多种攻击,如碰撞攻击,因此在需要高安全性的场合,推荐使用更安全的哈希算法,如SHA-256。尽管如此,对于大多数非安全关键的应用,MD5仍然是一个快速且有效的选择。

二、常见的MD5哈希用途

1. 文件完整性校验:MD5可以用于验证文件是否在传输或存储过程中被篡改。通过比较文件的MD5哈希值,可以快速检测文件是否发生了变化。

2. 数据加密:虽然MD5不再推荐用于需要高安全性的加密场景,但在某些低安全需求的场合,它仍然被用于数据的加密和保护。

3. 密码存储:在某些系统中,MD5曾被用于存储用户密码的哈希值。然而,由于MD5容易受到彩虹表攻击,现在更推荐使用更安全的哈希算法,如bcrypt。

4. 数字签名:在数字签名中,MD5可以作为消息的摘要,与公钥一起验证消息的完整性和来源。

5. 数据索引:在数据库和搜索引擎中,MD5可以用于快速索引和检索数据。

6. 软件分发:软件包或安装程序的MD5值可以用于验证下载过程中的文件完整性。

7. 网络安全:在某些网络安全协议中,MD5用于生成会话密钥或进行数据的快速校验。

8. 区块链技术:在区块链中,MD5有时用于生成交易或区块的简短标识符。

9. 内容分发网络(CDN):CDN使用MD5来识别和缓存内容,以提高内容分发的效率。

10. 软件版本控制:软件版本控制系统中,MD5可以用于快速比较文件版本的差异。

三、hashlib库介绍

hashlib是 Python 的一个内置库,提供对各种不同哈希算法的支持,包括 MD5、SHA1、SHA256、SHA512 等。哈希算法是一种将任意长度的数据转换为固定长度的哈希值的方法,通常用于数据的完整性校验、密码存储、数据指纹等场景。

以下是 hashlib库的一些主要特点和使用方法:

1. 多种哈希算法:hashlib支持多种哈希算法,可以根据不同的安全需求选择适合的算法。

2. 简单易用的API:hashlib提供了简单直观的API,使得哈希计算变得非常容易。

3. 可读性和可写性:hashlib既可以处理二进制数据,也可以处理文本数据。对于文本数据,需要指定编码方式。

4. 更新模式:hashlib允许你使用 update()方法逐步更新哈希对象,这对于处理大文件或流数据非常有用。

5. 一次性计算:除了更新模式外,hashlib也支持一次性计算整个数据的哈希值。

6. 十六进制和二进制输出:hashlib可以以十六进制或二进制格式返回哈希值。

以下是使用 hashlib计算 MD5 和 SHA256 哈希值的示例代码:

import hashlib# 计算MD5哈希值
md5_hash = hashlib.md5()
md5_hash.update(b"Hello, World!")
print("MD5 hash:", md5_hash.hexdigest())# 计算SHA256哈希值
sha256_hash = hashlib.sha256()
sha256_hash.update(b"Hello, World!")
print("SHA256 hash:", sha256_hash.hexdigest())

其中使用 update()方法更新哈希对象的数据,最后使用 hexdigest()方法获取十六进制格式的哈希值。

四、实际应用-图片去重

实际应用,遍历指定目录中的所有图片文件,计算它们的MD5哈希值,并存储在字典中。如果发现相同的MD5值,只保留一个文件。

import os
import hashlibdef calculate_md5(file_path):"""计算文件的MD5哈希值"""hash_md5 = hashlib.md5()with open(file_path, "rb") as f:for chunk in iter(lambda: f.read(4096), b""):hash_md5.update(chunk)return hash_md5.hexdigest()def find_duplicate_images(directory):"""查找并删除具有相同MD5值的重复图片,只保留一个"""md5_dict = {}  # 存储MD5哈希值和对应文件路径的字典for root, dirs, files in os.walk(directory):for filename in files:if filename.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp')):file_path = os.path.join(root, filename)md5 = calculate_md5(file_path)if md5 in md5_dict:# 如果MD5值已存在,则删除重复的文件os.remove(file_path)print(f"Removed duplicate image: {file_path}")else:# 否则,将文件路径添加到字典中md5_dict[md5] = file_path# 指定目录路径
directory_path = '/data/images'
find_duplicate_images(directory_path)

这篇关于图像去重技术:MD5哈希在自动化中的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064901

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Python实现自动化接收与处理手机验证码

《Python实现自动化接收与处理手机验证码》在移动互联网时代,短信验证码已成为身份验证、账号注册等环节的重要安全手段,本文将介绍如何利用Python实现验证码的自动接收,识别与转发,需要的可以参考下... 目录引言一、准备工作1.1 硬件与软件需求1.2 环境配置二、核心功能实现2.1 短信监听与获取2.

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

Python实现Microsoft Office自动化的几种方式及对比详解

《Python实现MicrosoftOffice自动化的几种方式及对比详解》办公自动化是指利用现代化设备和技术,代替办公人员的部分手动或重复性业务活动,优质而高效地处理办公事务,实现对信息的高效利用... 目录一、基于COM接口的自动化(pywin32)二、独立文件操作库1. Word处理(python-d

Python使用DrissionPage中ChromiumPage进行自动化网页操作

《Python使用DrissionPage中ChromiumPage进行自动化网页操作》DrissionPage作为一款轻量级且功能强大的浏览器自动化库,为开发者提供了丰富的功能支持,本文将使用Dri... 目录前言一、ChromiumPage基础操作1.初始化Drission 和 ChromiumPage

Java中&和&&以及|和||的区别、应用场景和代码示例

《Java中&和&&以及|和||的区别、应用场景和代码示例》:本文主要介绍Java中的逻辑运算符&、&&、|和||的区别,包括它们在布尔和整数类型上的应用,文中通过代码介绍的非常详细,需要的朋友可... 目录前言1. & 和 &&代码示例2. | 和 ||代码示例3. 为什么要使用 & 和 | 而不是总是使

Python实现自动化表单填写功能

《Python实现自动化表单填写功能》在Python中,自动化表单填写可以通过多种库和工具实现,本文将详细介绍常用的自动化表单处理工具,并对它们进行横向比较,可根据需求选择合适的工具,感兴趣的小伙伴跟... 目录1. Selenium简介适用场景示例代码优点缺点2. Playwright简介适用场景示例代码