python 基础知识梳理——GIL(全局解释器锁)

2024-05-31 01:32

本文主要是介绍python 基础知识梳理——GIL(全局解释器锁),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python 基础知识梳理——GIL(全局解释器锁)


1. 引言

之前的博文中,整理了关于Python中的多进程、多线程,还有协程的基本使用,当时我们就讨论过,Python中的多线程其实并不是"真正"的多线程,为什么呢?这就和GIL离不开关系了,下面我们通过几个列子来看一看Python中的GIL是如何影响Python中多线程的使用的。

1.1 为什么变慢了?

import time
def Countnumber(n):while n > 0:n -= 1
start = time.time()
Countnumber(100000000)
end = time.time()
print('运行时间为:{}秒'.format(end-start))
# 输出
运行时间为:6.358428239822388

在我这台2015 early MacBook Pro13单线程的情况下,运行时间为6.3秒,下面我们使用多线程来加速:

import time
import threading
N = 100000000
def Countnumber(n):while n > 0:n -= 1start = time.time()
t1 = threading.Thread(target=Countnumber,args=[N // 2 ])
t2 = threading.Thread(target=Countnumber,args=[N // 2 ])
t3 = threading.Thread(target=Countnumber,args=[N // 2 ])
t4 = threading.Thread(target=Countnumber,args=[N // 2 ])
t1.start()
t2.start()
t3.start()
t4.start()
t1.join()
t2.join()
t3.join()
t4.join()
end = time.time()
print('运行时间为:{}秒'.format(end-start))
# 输出
运行时间为:12.465165138244629

我们用了4个线程,没想到时间居然变成了之前的2倍,足足12秒?

2. GIL

其实,我们增加了多线程而速度却变慢的原因是由于GIL,导致Python线程的性能并不能达到我们所期待的那样。

GIL是Python自带解释器,也是最流行的Python解释器CPython中的一个技术,它的中文名为:全局解释器锁,每个Python线程,在CPython解释器中执行的时候,都会先锁住自己的线程,阻止别的线程执行。

而且,CPython会假装轮流执行Python线程,让我们看起来以为Python中的线程是在交错执行。

那为什么CPython为什么要使用GIL呢?其实这涉及到Python中的垃圾回收机制的引用计数。

Python的垃圾回收机制是以引用计数为主,标记-清除和分代回收为辅的策略。

import sys
a = []
b = a
print(sys.getrefcount(a))
# 输出
3 

输出为a的引用计数 3 ,因为a、b和作为参数传递的getrefcount这三个地方都引用了一个空列表。回到刚刚我们使用的多线程,如果两个Python线程同时引用了a,那么就会造成引用计数的race condition(竞争),引用计数可能只会增加1,当第一个线程访问结束后,会把引用计数减少1,这时可能会达到条件释放内存,当第二个线程再想访问a时,就找不到有效的内存了(引用计数为0会被回收)。

所以说,CPython引用GIl其实主要是两个原因:

  • 为了规避内存管理的race condition(竞争)问题
  • 顾名思义,CPython就是使用C解释Python语言,而大部分C语言库都不是原生线程安全的

3. GIl是如何工作的?

2020-12-25 031713

如图,当Thread1、2、3轮流执行的时候,每一个线程会在开始执行时,锁住GIL,以阻止别的线程执行;当该线程执行完成后会释放GIL,以便其他线程可以开始执行。

CPython中的check_interval机制会轮训检查线程GIL的锁情况,每隔一段时间,Python解释器就会强制当前的线程去释放GIL,这样别的线程才能有机会去执行。

Python3中,CPython会在一个“合理”的范围内释放GIL(以Python3为例,interval的时间大概是15毫秒)

2020-12-25 031700

从底层代码中,我们可以一探究竟,基本上每一个Python都是类似于这样的循环封装:

for (;;) {if (--ticker < 0) {ticker = check_interval;/* Give another thread a chance */PyThread_release_lock(interpreter_lock);/* Other threads may run now */PyThread_acquire_lock(interpreter_lock, 1);}bytecode = *next_instr++;switch (bytecode) {/* execute the next instruction ... */ }
}

很显然,Python的每个线程都会检查ticker计数,只有ticker计数大于0的情况下,线程才会去执行自己的byetecode

4. Python的线程安全

之前我们谈论到多线程的时候,经常会说,要使用threading.lock()先锁住一个共享变量,当修改完成后再给其他线程使用?

这是因为,GIL仅允许一个Python线程执行,不意味着Python的线程就是完全安全的。

下面我们参考一段代码:

import threadingn = 0
def foo():global nn += 1threads = []
for i in range(1000):t = threading.Thread(target=foo)threads.append(t)
for t in threads:t.start()
for t in threads:t.join()
print(n)
import dis
print(dis.dis(foo))
# 输出6           0 LOAD_GLOBAL              0 (n)2 LOAD_CONST               1 (1)4 INPLACE_ADD6 STORE_GLOBAL             0 (n)8 LOAD_CONST               0 (None)10 RETURN_VALUE
None

大部分情况下,输出结果都是1000,但是也有可能是999、998,这是因为n += 1这一行代码让线程并不安全。

当我们通过dis.dis()打印foo()这个函数的bytecode的时候,就会发现这6行的bytecode中间都是可能被打断的。

所以,我们可以使用threading.Lock()来确保线程安全

n = 0
lock = threading.Lock()
def foo():global nwith lock:n += 1

5. 如何绕过GIL?

加入你曾经看过我之前的博文,一定会对%time魔术方法印象深刻,这是我常用的一款基于iPython解释器的jupyter notebook上的一种输出函数运行时间的方法,它的解释器就并不是CPython,那么就不受GIL的影响了。

事实上,如果你是深度学习或者机器学习乃至数据分析,人工智能相关专业的同学,那么你一定不会对NumPy陌生,这样的矩阵运算库底层也是用C实现的,且不受GIL的影响。

说了那么多,你会不会感觉我在说废话?其实,绕过GIL的大致思路就是两种:

  • 绕过CPython,使用IPython或者JPython(Java实现的Python解释器)等解释器实现;
  • 把对于性能要求高的代码,放到别的语言中实现;

6.奇怪的想法

import time
import multiprocessing
N = 100000000
def Countnumber(n):while n > 0:n -= 1start = time.time()
t1 = multiprocessing.Process(target=Countnumber,args=[N // 2])
t2 = multiprocessing.Process(target=Countnumber,args=[N // 2])t1.start()
t2.start()t1.join()
t2.join()end = time.time()
print('运行时间为:{}秒'.format(end-start))
# 输出
运行时间为:3.4095828533172607

居然使用多进程,速度就快了一倍?






博文的后续更新,请关注我的个人博客:星尘博客

这篇关于python 基础知识梳理——GIL(全局解释器锁)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1017203

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

linux-基础知识3

打包和压缩 zip 安装zip软件包 yum -y install zip unzip 压缩打包命令: zip -q -r -d -u 压缩包文件名 目录和文件名列表 -q:不显示命令执行过程-r:递归处理,打包各级子目录和文件-u:把文件增加/替换到压缩包中-d:从压缩包中删除指定的文件 解压:unzip 压缩包名 打包文件 把压缩包从服务器下载到本地 把压缩包上传到服务器(zip

计组基础知识

操作系统的特征 并发共享虚拟异步 操作系统的功能 1、资源分配,资源回收硬件资源 CPU、内存、硬盘、I/O设备。2、为应⽤程序提供服务操作系统将硬件资源的操作封装起来,提供相对统⼀的接⼝(系统调⽤)供开发者调⽤。3、管理应⽤程序即控制进程的⽣命周期:进程开始时的环境配置和资源分配、进程结束后的资源回收、进程调度等。4、操作系统内核的功能(1)进程调度能⼒: 管理进程、线

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

go基础知识归纳总结

无缓冲的 channel 和有缓冲的 channel 的区别? 在 Go 语言中,channel 是用来在 goroutines 之间传递数据的主要机制。它们有两种类型:无缓冲的 channel 和有缓冲的 channel。 无缓冲的 channel 行为:无缓冲的 channel 是一种同步的通信方式,发送和接收必须同时发生。如果一个 goroutine 试图通过无缓冲 channel