【Python】谈谈Python多线程

2024-08-29 10:32
文章标签 python 多线程 谈谈

本文主要是介绍【Python】谈谈Python多线程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文环境: Python 2.7.10 (CPython)。

文章目录

    • 一、GIL简介
    • 二、Python多线程是否鸡肋
      • 1. 为什么需要多线程呢?
      • 2. 计算密集型 vs. IO密集型
        • 计算密集型验证例子
      • 3.小结
    • 三、锁与线程安全
    • 四、总结
    • 参考资料:

  • 因为GIL的存在,Python多线程是否鸡肋?
  • 既然已有GIL,是否Python编程不需要关注线程安全的问题?不需要使用锁?
  • 为什么Python进阶材料很少有讲解多线程?

一、GIL简介

首先我们看下Global Interpreter Lock(GIL)的官方介绍:

In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple native threads from executing Python bytecodes at once. This lock is necessary mainly because CPython’s memory management is not thread-safe. (However, since the GIL exists, other features have grown to depend on the guarantees that it enforces.)

简而言之,因为CPython的内存管理不是线程安全的,所以需要加一个全局解释锁来保障Python内部对象是线程安全的。
GIL的存在导致Python多线程是不完整的多线程,Python社区内部对是否保留GIL一致激烈讨论,这里我们就不在累述。

二、Python多线程是否鸡肋

正如上节所说,Python的多线程是不完整的多线程。不过抛开具体应用场景谈“Python多线程是否鸡肋”就是耍流氓了!

1. 为什么需要多线程呢?

为什么需要多线程呢?总结一下,多线程多应用在如下场景:

  • 需要运行后台任务但不希望停止主线程的执行

    • 定期打印日志
    • 图形界面下,主循环需要等待事件
  • 分散任务负载

    • 高负载任务一般分计算密集型、IO密集型两类。

2. 计算密集型 vs. IO密集型

计算密集型任务的特点是要进行大量的计算,消耗CPU资源,比如计算圆周率、对视频进行高清解码等等,全靠CPU的运算能力。这种计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间就越多,CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时进行的数量应当等于CPU的核心数。计算密集型任务由于主要消耗CPU资源,因此,代码运行效率至关重要。

IO密集型,涉及到网络、磁盘IO的任务都是IO密集型任务,这类任务的特点是CPU消耗很少,任务的大部分时间都在等待IO操作完成(因为IO的速度远远低于CPU和内存的速度)。对于IO密集型任务,任务越多,CPU效率越高,但也有一个限度。常见的大部分任务都是IO密集型任务,比如Web应用。IO密集型任务执行期间,99%的时间都花在IO上,花在CPU上的时间很少。

计算密集型验证例子

Python作为一门脚本语言,本身执行效率极低,完全不适合计算密集型任务的开发。再加上GIL的存在,需要花费大量时间用在线程间的切换,其多线程性能甚至低于单线程。以下是一个验证例子:
顺序执行的单线程(single_thread.py)

#! /usr/bin/pythonfrom threading import Thread
import timedef my_counter():i = 0for _ in range(100000000):i = i + 1return Truedef main():thread_array = {}start_time = time.time()for tid in range(2):t = Thread(target=my_counter)t.start()t.join()end_time = time.time()print("Total time: {}".format(end_time - start_time))if __name__ == '__main__':main()

同时执行的两个并发线程(multi_thread.py)

#! /usr/bin/pythonfrom threading import Thread
import timedef my_counter():i = 0for _ in range(100000000):i = i + 1return Truedef main():thread_array = {}start_time = time.time()for tid in range(2):t = Thread(target=my_counter)t.start()thread_array[tid] = tfor i in range(2):thread_array[i].join()end_time = time.time()print("Total time: {}".format(end_time - start_time))if __name__ == '__main__':main()

多线程执行更慢了!

经过大量测试,Python多线程下一般最多只能占用1.5~2核,完全无法充分利用CPU资源。

3.小结

在低计算场景(普通后台任务、IO密集型任务)下,Python多线程还是有一点用武之地。但是计算密集型任务的话,Python多线程是真鸡肋,甚至会严重拖后腿。

三、锁与线程安全

既然有GIL这个语言级的锁,那我们是不是可以不关注锁与线程安全,直接起飞了?

且看下面这个例子

#! /usr/bin/pythonimport threadingi = 0def test():global ifor x in range(100000):i += 1threads = [threading.Thread(target=test) for t in range(10)]
for t in threads:t.start()for t in threads:t.join()assert i == 100000, i

显然失败了。因为高级语言的一条语句执行时都是分为若干条执行码,即使一个简单的计算:i += 1,也是分为4个执行码。

  • load i
  • load 1
  • add
  • store it back to i

Python解释器默认每100个操作码切换一个活动线程(通过从一个线程释放GIL以便另一个线程可以使用)。当100个操作码切换时,就会出现争抢,从而出现线程不安全的情况。此时就需要我们加一个简单的锁。

#!/usr/bin/python
import threading
i = 0
i_lock = threading.Lock()def test():global ii_lock.acquire()try:for x in range(100000):i += 1finally:i_lock.release()threads = [threading.Thread(target=test) for t in range(10)]
for t in threads:t.start()for t in threads:t.join()assert i == 100000, i

四、总结

相比Java那种天生面向多线程的语言不同,Python本身多线程就是不太完善的多线程。GIL的存在导致多线程CPU利用效率甚至低于单线程,却仍然要面对锁与线程安全的问题。同时Python语言又不像Java自带多种线程安全的数据类型,增加了多线程编程的复杂度,所以很少有资料大篇幅讲解Python多线程。
正如《Python高手之路》所言: (Python)处理好多线程是很难的,其复杂程度意味着与其他方式(异步事件\多进程)相比它是bug的更大来源,而且考虑到通常能够获取的好处很少,所以最好不要在多线程上浪费太多精力。

参考资料:

python中的GIL详解
is-the-operator-thread-safe-in-python
《Python高手之路》(《The Hacker’s Guide to Python》)

这篇关于【Python】谈谈Python多线程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1117602

相关文章

一文带你搞懂Python中__init__.py到底是什么

《一文带你搞懂Python中__init__.py到底是什么》朋友们,今天我们来聊聊Python里一个低调却至关重要的文件——__init__.py,有些人可能听说过它是“包的标志”,也有人觉得它“没... 目录先搞懂 python 模块(module)Python 包(package)是啥?那么 __in

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

Python实现特殊字符判断并去掉非字母和数字的特殊字符

《Python实现特殊字符判断并去掉非字母和数字的特殊字符》在Python中,可以通过多种方法来判断字符串中是否包含非字母、数字的特殊字符,并将这些特殊字符去掉,本文为大家整理了一些常用的,希望对大家... 目录1. 使用正则表达式判断字符串中是否包含特殊字符去掉字符串中的特殊字符2. 使用 str.isa

python中各种常见文件的读写操作与类型转换详细指南

《python中各种常见文件的读写操作与类型转换详细指南》这篇文章主要为大家详细介绍了python中各种常见文件(txt,xls,csv,sql,二进制文件)的读写操作与类型转换,感兴趣的小伙伴可以跟... 目录1.文件txt读写标准用法1.1写入文件1.2读取文件2. 二进制文件读取3. 大文件读取3.1

使用Python实现一个优雅的异步定时器

《使用Python实现一个优雅的异步定时器》在Python中实现定时器功能是一个常见需求,尤其是在需要周期性执行任务的场景下,本文给大家介绍了基于asyncio和threading模块,可扩展的异步定... 目录需求背景代码1. 单例事件循环的实现2. 事件循环的运行与关闭3. 定时器核心逻辑4. 启动与停

基于Python实现读取嵌套压缩包下文件的方法

《基于Python实现读取嵌套压缩包下文件的方法》工作中遇到的问题,需要用Python实现嵌套压缩包下文件读取,本文给大家介绍了详细的解决方法,并有相关的代码示例供大家参考,需要的朋友可以参考下... 目录思路完整代码代码优化思路打开外层zip压缩包并遍历文件:使用with zipfile.ZipFil

Python处理函数调用超时的四种方法

《Python处理函数调用超时的四种方法》在实际开发过程中,我们可能会遇到一些场景,需要对函数的执行时间进行限制,例如,当一个函数执行时间过长时,可能会导致程序卡顿、资源占用过高,因此,在某些情况下,... 目录前言func-timeout1. 安装 func-timeout2. 基本用法自定义进程subp

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验