探索Python中的生成器:让数据流动起来

2024-04-16 19:28

本文主要是介绍探索Python中的生成器:让数据流动起来,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1. 生成器
      • 1.1 基础
      • 1.2 工作原理
      • 1.3 表达式
      • 1.4 高级应用
    • 2. 生成器是不是相当于函数中的return
    • 3. 生成器为什么叫yield

在Python面试中,深入了解生成器是关键。这一特性通过延迟计算优化内存使用,广泛应用于数据流处理和异步编程,对提升编程效率至关重要。


1. 生成器

1.1 基础

在Python中,生成器是一种特殊的迭代器,其主要功能是控制函数的执行流程,允许函数在执行过程中暂停,并在适当的时候继续执行。生成器的使用可以使内存使用更加高效,特别适合处理大数据流或是执行复杂的计算。

示例代码:

def simple_generator():yield 1yield 2yield 3# 使用生成器
for value in simple_generator():print(value)

在上述示例中,simple_generator 函数通过使用 yield 关键字,依次生成数值 1、2、3。每次调用生成器会暂停在每一个 yield 语句处,返回相应的值,直到下一次迭代请求或生成器执行结束。

1.2 工作原理

生成器背后的工作机制基于状态的保存。当生成器函数执行到 yield 时,函数的状态(包括局部变量、指令指针等)被保存下来,函数暂停执行。当生成器再次被请求数据时,它从上次暂停的地方恢复执行。

示例代码:

def countdown(n):while n > 0:yield nn -= 1# 调用生成器
for i in countdown(5):print(i)

countdown 函数中,生成器从传入的数字开始倒数。每次迭代时,它输出当前的计数并减一,直到计数到 0 为止。通过 yield,函数在每一次迭代中暂停并恢复,这使得它的执行非常内存高效。

1.3 表达式

生成器表达式是一种更加简洁的生成器定义方式,语法上类似于列表推导式,但使用圆括号而不是方括号。

示例代码:

squares = (x*x for x in range(10))for square in squares:print(square)

这里定义了一个生成器表达式 squares,它计算从 0 到 9 的数的平方。与列表推导式不同,生成器表达式不会一次性计算所有元素,而是生成一个可迭代的生成器,每次迭代计算一个值。

1.4 高级应用

生成器不仅仅可以用于简单的值生成,它们的延迟计算特性使得它们非常适合于管道和数据流操作中。

示例代码:

def fibonacci(n):a, b = 0, 1while n > 0:yield ba, b = b, a + bn -= 1# 打印斐波那契数列的前10个数
for num in fibonacci(10):print(num)

此示例中的 fibonacci 函数生成斐波那契数列。生成器每次迭代时返回数列中的下一个数字,通过简单的赋值操作来更新数列的下一个值。这种方式特别适合计算那些依赖之前元素的序列。

2. 生成器是不是相当于函数中的return

生成器中的 yield 关键字与函数中的 return 关键字有相似之处,但它们在用途和行为上有明显的区别。这里列出了它们之间的一些主要对比点:

相似点:

  • 返回值yieldreturn 都用于在函数中返回值。它们都可以将值传递给调用者。

区别点:

  1. 函数终止
    • return:当函数执行到 return 语句时,它会结束函数的执行,并返回指定的值。一旦 return 被执行,函数的局部状态(变量等)就会被清除。
    • yield:与 return 不同,yield 用于暂停函数的执行并返回一个值给调用者,但它保留了函数的状态,使得函数可以在下一次从它暂停的地方继续执行。
  2. 返回类型
    • return:返回一个具体的值。
    • yield:返回一个生成器对象,这个对象是一个迭代器,支持通过迭代来逐个获取由 yield 产生的值。
  3. 使用场景
    • return:用于常规函数中,适合于一次性计算并返回一个结果的场景。
    • yield:用于生成器函数中,适合于需要逐步产生多个结果的场景,尤其是在处理大型数据集或是需要延迟计算的情况。

这个生成器函数逐个返回数字,每次调用都会在 yield 语句处暂停,下一次迭代时从上次暂停的地方继续。

在这里插入图片描述

总结来说,尽管 yieldreturn 都可以在函数中用于返回值,但 yield 更适合于需要多次返回值的场景,它支持生成值的流式处理,而不需要一次性计算所有数据。这种方式特别适合处理数据流、大规模数据集或需要增量计算的场景。

3. 生成器为什么叫yield

生成器函数使用yield关键字,这个词在英语中的字面意思是“产生”或“屈服”。yield用于生成器函数中,有以下含义和理由:

  1. 产生值yield关键字用于在每次迭代中产生或返回一个值,而不是终止函数。这种方式使得生成器能够逐个产出值,每产生一个值后,函数的执行会被暂停,直到下一次迭代请求继续产生下一个值。因此,yield可以看作是逐步“产生”结果的工具。
  2. 暂时屈服控制权:使用yield时,函数实际上是在“屈服”其控制权给调用者。函数暂停执行,并将控制权交回给调用者,直到调用者再次激活函数继续执行。这种控制流的暂停和恢复是生成器的核心特性。
  3. 协程的基础:在更高级的用法中,yield可以用于协程,这是一种程序组件,可以更细粒度地控制其执行。在协程中,yield不仅仅是产生数据,还可以接收外部通过send()发送的数据,这种双向通信机制使得yield在协程中扮演着非常重要的角色。

推荐: python 错误记录
参考:How To Use Yield in Python To Make Your Functions More Efficient

这篇关于探索Python中的生成器:让数据流动起来的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/909692

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技